Delphi-PRAXiS - Ergebnis der Suchanfrage

Ergebnis der Suchanfrage

Datum des Suchindex: Heute, 02:47

Parameter dieser Suchanfrage:

Suche in Thema: Vorstellung Unit: File encoding detector
Suche alle Beiträge, die von "Uwe Raabe" geschrieben wurden

• Suchmethode: "Suche nach allen Begriffen"
• Nach Datum (firstpost) sortiert
• Zeige Treffer als Beiträge

Zeige 5 von insges. 5 Treffern
Suche benötigte 0.001s

Es liegen Ergebnisse in folgenden Bereichen vor:

Forum: Software-Projekte der Mitglieder
AW: Vorstellung Unit: File encoding detector

by Uwe Raabe, 19. Nov 2017
Gut erkannt :thumb:
Ist mir dann auch noch so in den Sinn gekommen. Ich würde das dann aber doch etwas kompakter schreiben:

function IsUTF8(Bytes: TBytes): Boolean;
var
B: Byte;
weitere: 0..3;
begin
weitere := 0;
for B in Bytes do begin
Forum: Software-Projekte der Mitglieder
AW: Vorstellung Unit: File encoding detector

by Uwe Raabe, 19. Nov 2017
Angenommen du liest jedes Byte nacheinander, dann sind alle Bytes im Bereich $00 - $7F gültige Zeichen. Ist das nicht der Fall, musst du prüfen, ob eine UTF-8 Sequenz folgt. Diese wird eingeleitet von einem Byte im Bereich $C2..$F4 - alles andere wäre ein Fehler. Die Länge der UTF-8 Sequenz wird durch dieses Byte bestimmt. Liegt es im Bereich $C2..$DF folgt ein weiteres Byte, liegt es im Bereich...
Forum: Software-Projekte der Mitglieder
AW: Vorstellung Unit: File encoding detector

by Uwe Raabe, 19. Nov 2017
Die gezeigte Funktion liefert dir ja auch den String korrekt decodiert zurück. Den kannst du dann ja weiter verarbeiten ohne dich noch um das Encoding der Datei kümmern zu müssen.

Kannst du bei Wikipedia nachsehen: Zulässige Bytes und ihre Bedeutung
Forum: Software-Projekte der Mitglieder
AW: Vorstellung Unit: File encoding detector

by Uwe Raabe, 19. Nov 2017
Die Problematik liegt eigentlich in der Unterscheidung zwischen ANSI und UTF-8 ohne BOM. Welche CodePage bei ANSI verwendet werden soll kannst du eh kaum raus finden, wenn du keine Informationen über die Art des Inhaltes hast (manche Zeichen kommen in einer bestimmten Art Text halt nicht vor und sind ein Trigger für eine falsche Codierung). Allerdings beginnen in UTF-8 alle Zeichen > #127 mit...
Forum: Software-Projekte der Mitglieder
AW: Vorstellung Unit: File encoding detector

by Uwe Raabe, 19. Nov 2017
Erfahrungsgemäß ist das gerade im deutschsprachigen Umfeld eher selten der Fall: Ein Zeichen > #127 ist dort in der Regel ein Umlaut.

Nur so als Hinweis: Die Unit System.Character enthält ein paar Methoden für UTF-32 Zeichen und in System ist auch ein Typ UCS4String definiert, der allerdings nichts mit einem üblichen Delphi-String gemein hat.

URL zu dieser Suchanfrage:

https://www.delphipraxis.net/dp_search.php?do=usersearch&search_username=Uwe+Raabe&search_exact_username=1&search_sortby=dateline&search_resulttype=post&search_matchmode=0&searchthreadid=194428

Ergebnis der Suchanfrage

Parameter dieser Suchanfrage:

Es liegen Ergebnisse in folgenden Bereichen vor:

AW: Vorstellung Unit: File encoding detector

AW: Vorstellung Unit: File encoding detector

AW: Vorstellung Unit: File encoding detector

AW: Vorstellung Unit: File encoding detector

AW: Vorstellung Unit: File encoding detector

URL zu dieser Suchanfrage: