Einzelnen Beitrag anzeigen

Benutzerbild von Bernhard Geyer
Bernhard Geyer

Registriert seit: 13. Aug 2002
17.171 Beiträge
 
Delphi 10.4 Sydney
 
#6

AW: Re: Codierung (ANSI, UTF-8) einer Textdatei ermitteln

  Alt 7. Nov 2011, 11:18
über den BOM-Header der Datei.
Hallo Bernhard,
wenn die Datei aber kein BOM hat?

Irgendwo im Forum habe ich gelesen, dass dann nur raten möglich wäre.
Raten mit entsprechenden Fehlerquote. Raten würde über Wahrscheinlichkeiten gehen mit entsprechenden falschwahl.


Erste stufe wäre nach $00-Werten zu suchen. Dann hätte man schon mal mit hoher Wahrscheinlichkeit UTF-16 vor sich.
Dnn schauen ob es gerade oder ungerade Werte sind -> Big-Endian-Erkendung.

Und falls keine $00 -> Ansi (oder mit sehr geringer Wahrscheinlichkeit z.B. ein rein chinesicher Text). Und wenn du hier noch die Codepage erkennen willst heißt es sprachanalyse: Welche Sprache hat welche Zeichen mit welcher Wahrscheinlichkeit hintereinander.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat