Delphi-PRAXiS
Seite 3 von 4     123 4      

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   UTF8 Literale leserlich machen. Welche Unit / Funktion? (https://www.delphipraxis.net/201435-utf8-literale-leserlich-machen-welche-unit-funktion.html)

p80286 22. Jul 2019 21:30

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Zitat:

Zitat von DieDolly (Beitrag 1437351)
?? Absolut keine Ahnung sorry.

Kann vorkommen.
zunächst wäre es hilfreich zu wissen aus welcher Quelle der String stammt. Ich vermute: JSON, muß aber nicht sein.
Wenn man die Quelle kennt, weiß man welche Zeichen "escaped" werden müssen, ansonsten mußman halt mit allem Rechnen......

SomeStr2 = '\xc4\x80\xc4\x86Hallo';

In diesem Beispiel wird zunächst einmal ein Byte(C4) definiert, weil die Quelle mit diesem Zeichen nich korrekt umgehen kann. Die nächsten drei Bytes werden ebenfall entsprechend definiert (80,C4,86).

also

mystring:=#$C4+#$80+#$C4+#$86+'Hallo';

Schaust Du in der UTF-Codierung nach, dann entspricht $C480 einem Ä und $C486 einem ´C
es scheint sich also um UTF-8 zu handeln.

Mit der entsprechenden übersetzungsfunktion erhälst du also
'ÄCHallo' (ich bekomme das Acute nich richtig hin:oops:)


Gruß
K-H

DieDolly 22. Jul 2019 21:36

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Zitat:

Kann vorkommen.
Aber nicht so wie bei mir.
Ich habe versucht die Logik einfach irgendwie umzudrehen aber das war wohl der sichere falsche Weg.

Schokohase 22. Jul 2019 21:37

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Zitat:

Zitat von p80286 (Beitrag 1437358)
zunächst wäre es hilfreich zu wissen aus welcher Quelle der String stammt. Ich vermute: JSON, muß aber nicht sein.

Nein, definitiv nicht:

1. Bei JSON ist ein string immer quoted
2. Bei JSON gibt es ein \u???? mit 4 Hex-Ziffern aber eben kein \x?? mit zwei Hex-Ziffern

Nachzulesen unter https://json.org

Schokohase 22. Jul 2019 21:40

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Zitat:

Zitat von DieDolly (Beitrag 1437356)
Seitdem ich das hier das erste mal gesehen habe verzweifle ich schon dran zu verstehen, wie Replace den dritten Parameter akzeptieren kann, der eine Funktion ist die eigentlich einen Parameter benötigt.

Das ist ein Delegate bzw. Funktions- oder Methodenzeiger und gehört eigentlich zum Delphi Basiswissen. Wie hast du jemals einen Event zugewiesen, denn da verwendet man nur solche Methodenzeiger mit Parametern?

DieDolly 22. Jul 2019 22:08

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Events habe ich schon dutzende zugewiesen.
Beispielsweise eine Komponente zur Laufzeit erstellen und Events zuweisen die schon im Code liegen.

Aber das da oben sagt mir gar nichts denn der Code-Hint sagt auch nur, dass er einen String als dritten Parameter erwartet.
Verstehe es noch immer nicht und werde das auch nie verstehen. Für mich sieht ein Event anders aus. Kapiere einfach nicht, wo TMatch dann herkommen soll.
Replace() liefert es ja scheinbar nicht, da nur ein String erwartet wird.

Delphi-Quellcode:
class function TRegEx.Replace(const Input, Pattern, Replacement: string): string;


Zum Basiswissen gehört viel. Es gibt schlaue Menschen wie dich die irgendwie alles aufsaugen und es gibt dumme wie mich, die nix kapieren.

Der schöne Günther 23. Jul 2019 07:11

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Was ist deine Delphi-Version? Vielleicht war die Methode in deiner Version noch nicht erfunden 🤷

Schokohase 23. Jul 2019 07:20

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Schlau? Weiß ich nicht ...
Augen offen? Ja auf jeden Fall ...

http://docwiki.embarcadero.com/Libra...TRegEx.Replace
Delphi-Quellcode:
class function Replace(const Input, Pattern, Replacement: string): string; overload; static;
class function Replace(const Input, Pattern: string; Evaluator: TMatchEvaluator): string; overload; static;
class function Replace(const Input, Pattern, Replacement: string; Options: TRegExOptions): string; overload; static;
class function Replace(const Input, Pattern: string; Evaluator: TMatchEvaluator; Options: TRegExOptions): string; overload; static;
Delphi-Quellcode:
type
  TMatchEvaluator = function(const Match: TMatch): string of object;
Eventuell macht das den Unterschied und wirkt auf andere schlau ... obwohl ich einfach nur die Augen offen habe

Rolf Frei 24. Jul 2019 16:58

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
mystring := UTF8Decode(#$C4+#$80+#$C4+#$86+'Hallo');

Das ergibt den String "ĀĆHallo"

Das Problem ist nun die "\x.." Zeichen in den entsprechenden 8-bit Zeichen Code umzuwandeln. Habe dazu schnell eine simple Routine geschrieben, die das macht. Diese müsste aber eventuell noch etwas überarbeitet werden, jenach dem was der Quellstring wirklich alles enthalten kann.

Delphi-Quellcode:
function DecodeCStyleString(const AStr: String): String;
var
  HexStr, ResultStr: RawByteString;
  i: Integer;
  IsCharLeadin: Boolean;
begin
  IsCharLeadin := False;
  i := 1;
  while i <= Length(AStr) do
  begin
    IsCharLeadin := AStr[i] = '\';
    if IsCharLeadin then
    begin
      IsCharLeadin := AStr[i+1] = 'x';
      if IsCharLeadin then
      begin
        inc(i, 2);
        HexStr := '$' + AStr[i] + AStr[i+1];
        ResultStr := ResultStr + AnsiChar(StrToInt(HexStr));

        inc(i);
      end
      else
        ResultStr := ResultStr + AnsiChar(AStr[i]);
    end
    else
      ResultStr := ResultStr + AnsiChar(AStr[i]);

    inc(i);
  end;

  Result := UTF8ToString(ResultStr);
end;

...

MyString := DecodeCStyleString('\xc4\x80\xc4\x86Hallo\xc4\x80');
// MyString ist nun "&#256;&#262;Hallo&#256;"

Incocnito 25. Jul 2019 08:08

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Hi Zusammen,

ich würde nicht davon ausgehen, dass eine fremde Datenquelle mir saubere Daten schickt,
also habe ich noch zwei Sachen abgefangen:
1) Wenn nach dem "\x" nicht 2 Hex-Werte kommen, sondern nur einer und der String dann endet.
2) Wenn nach dem "\x" nicht 2 Hex-Werte kommen, sondern andere Zeichen und "StrToInt" schief gehen würde.
Delphi-Quellcode:
function DecodeCStyleString(const AStr: String): String;
var
  HexStr   : RawByteString;
  ResultStr : RawByteString;
  i        : Integer;
  iData    : Integer; // Reicht Word?
begin
  i := Low(AStr);
  while (i <= High(AStr)) do
  begin
    if (AStr[i] = '\') then
    begin
      if ((i+3) < High(AStr)) and (AStr[i+1] = 'x') then
      begin
        Inc(i, 2);
        HexStr := '$' + AStr[i] + AStr[i+1];
        if (TryStrToInt(HexStr, iData)) then
        Begin
          ResultStr := ResultStr + AnsiChar(iData);

          Inc(i);
        end else
        begin
          ResultStr := ResultStr + '\x' + AStr[i];
        end;
      end else
      begin
        ResultStr := ResultStr + AnsiChar(AStr[i]);
      end;
    end else
    begin
      ResultStr := ResultStr + AnsiChar(AStr[i]);
    end;

    Inc(i);
  end;

  Result := UTF8ToString(ResultStr);
end;
Drei Dinge bleiben meiner Meinung nach noch zu klären:
1) Wenn der String mit "\xc" endet, könnte man gaaanz weit ausholen und da "\x0c" von machen,
aber will man das noch "abfangen"? Schließlich könnte man soetwas mitten im Text ja auch nicht erkennen!
2) Der Compiler spuckt noch Warnungen aus über Implizite Typ-Umwandlungen. Und Warnungen sind immer ein Hinweis darauf,
dass man etwas nicht richtig gemacht hat. Jetzt ist jemand gefragt, der sich mit Codepages und Zeichensätzen
auskennt. Man könnt das ganze zwar mit explizitem Typecase umgehen, aber das sagt dem Compiler ja
"ich weiß, was ich tue, mach einfach", aber ich weiß hier gerade nicht was ich tue, also seid ihr gefordert! ;-)
3) Wie im Kommentar schon zu sehen, aber irgendwie auch Teil von Punkt 2 "Reicht evtl. schon ein Word (2 Byte)
für das TryStrToInt?" Außerdem sagte mal jemand, dass "Integer" je nach EXE-Architektur den Standard-Zahltyp darstellt
("EXE-Architektur" ist sicher das falsche Wort, gemeint ist "Bei einem 64-Bit-Programm ist es ein 64-Bit Wert,
bei einem 16-Bit-Programm nur ein 16-Bit Wert"), aber dass kann jetzt auch von einer anderen
Programmiersprache kommen, oder ein totaler Irrläufer sein!

Außerdem gibt es vermutlich noch 1-2 Dinge zu verbessern, ohne gleich mit Pointern das ganze auf's Maximum zu optimieren.

Viel Spaß noch damit.

Liebe Grüße
Incocnito

Der schöne Günther 25. Jul 2019 08:36

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?
 
Warum macht ihr so etwas nicht mit regulären Ausdrücken 😐


Alle Zeitangaben in WEZ +1. Es ist jetzt 23:40 Uhr.
Seite 3 von 4     123 4      

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz