Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Sonstige Fragen zu Delphi (https://www.delphipraxis.net/19-sonstige-fragen-zu-delphi/)
-   -   Delphi Unicode: Wie kann ich das BOM von einem String entfernen. (https://www.delphipraxis.net/147619-unicode-wie-kann-ich-das-bom-von-einem-string-entfernen.html)

rakekniven 12. Feb 2010 13:48


Unicode: Wie kann ich das BOM von einem String entfernen.
 
Ich lese eine Textdatei via AssignFile/readln ein. (D2010)

Falls das erste Zeichen ein ";", soll die Zeile ignoriert werden.
Alles Konstrukt von D7:
Delphi-Quellcode:
if Length(S2) > 0 then
 DoLine := Trim(String(S2))[1] <> ';'      // Kommentarzeilen beginnen mit einem ';'
else
 DoLine := FALSE;
Die Datei liegt in UTF8 mit BOM vor.
Die Stringvariable ist vom Typ "RawByteString".

Die erste Zeile hat den Inhalt
Delphi-Quellcode:
'; This file was auto generated by Langdiff Version 2.0.61 on 12.02.2010 09:28:12'
Die ersten drei Zeichen sind das BOM.

Wie kann ich den String nun davon säubern, damit ich wieder auf das erste Zeichen prüfen kann?

Ein Trim hilft nicht, auch nicht eine Umwandlung in String (casting) oder via UTF8toString.

Hoffe ich konnte mein Vorhaben einigermassen beschreiben.

Gruß

<edit>
Nach dem Schreiben des Postings ist mir gerade noch eine Idee gekommen:
Mit "WideStrUtils.HasUTF8BOM" prüfen ob das BOM da ist, wenn ja dann die ersten drei Zeichen löschen.
Kling das gut?
</edit>

himitsu 12. Feb 2010 14:07

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
Die Datei unbedingt mit AnsiString auslesen. :warn:

Selbst bei Verwendung von String/WideString/UnicodeString wird nur ANSI ausgelesen,
aber die interne Unicodeumwandlung zerstört womöglich wichtige Zeichen.

So, nun zurück zum Thema:
Wie löscht man ungewünschte Zeichen?
> Delete oder Copy

Delphi-Quellcode:
ReadLn(F, A);
S := UTF8toString(A);
Delete(S, 1, 1);

ReadLn(F, A);
Delete(A, 1, 3);
S := UTF8toString(A);
Aber nimm lieber eine TStringList, denn diese beachtet das UTF-8-BOM, entfernt es und dekodiert auch gleich die Datei.

rakekniven 12. Feb 2010 14:26

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
Ich habe mit dem Mechanismus readln und Datentyp "RawByteString" schon einige Anwendungen angepasst und dadurch die Mehrsprachigkeit (28 Sprachen inkl. asiatischen) eingebaut.
Das klappte klaglos.

Was möchtest Du mir mit den beiden Codeschnipseln sagen?

Gruß

himitsu 12. Feb 2010 14:50

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
OK, RawByteString ist intern auch nur ein spezieller AnsiString.

Aber vorallem vor den Unicode-Strings, im Zusammenhang mit diesen alten Pascal-Funktionen und einer anderen Codierung innerhalb der Datei, mußt du aufpassen.

Zitat:

Was möchtest Du mir mit den beiden Codeschnipseln sagen?
Beide entfernen ein UTF-8-BOM aus einem AnsiString/RawByteString ?

p80286 12. Feb 2010 14:55

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
Zitat:

Die UTF-8-Kodierung des BOM besteht aus der Bytesequenz EF BB BF, die in nicht UTF-8-fähigen Texteditoren und Browsern meist als ISO-8859-1-Zeichen  erscheinen. Bei UTF-8 stellt sich das Problem der Byte-Reihenfolge zwar nicht, doch ein BOM am String- oder Dateianfang ist erlaubt, um die Verwendung von UTF-8 als Kodierung zu kennzeichnen. Eine sichere Unterscheidung zwischen UTF-8 und den ISO-8859-Zeichensätzen ist dadurch zwar nicht gewährleistet, da in den 8-Bit-Zeichensätzen alle Bytesequenzen erlaubt sind, auch die UTF-8-Kodierung des BOM; wenn aber die Alternative speziell UTF-8 oder ISO 8859-1 ist, ist die pragmatische Annahme, dass die Zeichenfolge  nicht gemeint ist, durchaus üblich.
aus Wikipedia

Wenn ich das richtig verstanden habe dann sollte so alles erledigt sein:
Delphi-Quellcode:
if length(mystring)>2 and
   mystring[1]=#$EF and
   mystring[2]=#$BB and
   mystring[3]=#$BF then
  delete(mystring,1,3);
if length(mystring)>0 ....
Gruß
k-h

rakekniven 12. Feb 2010 15:00

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
Danke für die Tipps

himitsu 12. Feb 2010 15:06

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
Wenn man sich mal bewußt ist, was diese 3 Byte wirklich bedeuten, dann kommt man gekürzt auf dieses:
Delphi-Quellcode:
ReadLn(myfile, a);
s := UTF8Decode(a);
if (s <> '') and (s[1] = #$FEFF) then delete(s, 1, 1);
So könnte man auch noch eine Prüfung einbauen, welche die Daten gleich noch mit prüft
Delphi-Quellcode:
ReadLn(myfile, a);
s := UTF8Decode(a);
if (s = '') or (a <> '') then s := a
else if (s <> '') and (s[1] = #$FEFF) then delete(s, 1, 1);
Hier würde dann die erste Zeile einer "Ansi"-Datei oder einer UTF-8-kodierten Datei eingelesen.
(selbst UTF-8 ohne BOM würde halbwegs sicher erkannt)

rakekniven 12. Feb 2010 15:16

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
Mache es nun so:

Delphi-Quellcode:
ReadLn(myfile, a);
if WideStrUtils.HasUTF8BOM(a) then
begin
 delete(a, 1, 1);
 s := UTF8toString(a)
end
else
 s := a;
"s" verwende ich dann als String in der Anwendung. Bei mir sind es Sprachtexte.

Die Aktion wird nur bei der ersten Zeile durchgeführt (Boolscher Merker) > Performance

himitsu 12. Feb 2010 15:22

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
Zitat:

Zitat von rakekniven
Mache es nun so:

das delete(a, 1, 1) stimmt definitiv nicht, denn dieses BOM ist 3 Byte groß.

Delphi-Quellcode:
uses WideStrUtils;

ReadLn(myfile, a);
if HasUTF8BOM(a) then
begin
  delete(a, 1, Length(sUTF8BOMString)); // oder eben delete(a, 1, 3);
  s := UTF8toString(a);
end
else
  s := a;

rakekniven 12. Feb 2010 15:29

Re: Unicode: Wie kann ich das BOM von einem String entfernen
 
War ein Typo :evil:

Jetzt haben wir ne schöne Funktion, welche sicherlich auch noch andere gut gebrauchen können.

Ich war gestern auf einem Vortrag zu l10n/i18n. Da wird von nix anderem als Unicode (in allen Spielarten) geredet. Die armen Embedded-Entwickler haben es da nicht so leicht.

Gruß


Alle Zeitangaben in WEZ +1. Es ist jetzt 15:28 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz