AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Programmieren allgemein UTF8 Literale leserlich machen. Welche Unit / Funktion?
Thema durchsuchen
Ansicht
Themen-Optionen

UTF8 Literale leserlich machen. Welche Unit / Funktion?

Ein Thema von DieDolly · begonnen am 22. Jul 2019 · letzter Beitrag vom 25. Jul 2019
Antwort Antwort
Schokohase
(Gast)

n/a Beiträge
 
#1

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 21:02
aber wie bitte soll man aus \xc4\x80 ein Ā machen?
Das kann ich dir auch nicht sagen. Das wäre mir auch viel zu kompliziert.

Ich ziehe ja auch nicht das Hemd und die Hose gleichzeitig an, denn sonst falle ich auf die Fre**e.

Aber der umgekehrte Weg den ich dir gezeigt habe macht das ja auch nicht alles auf einen Schlag.

Da wird ein String in eine Byte-Folge umgewandelt.
Diese Byte-Folge wird nun in einen String kodiert und dort befinden sich nur noch 7-Bit ASCII Zeichen (bzw. solche die man mit 7-Bit ASCII darstellen könnte).

Also suchen wir nach einem Weg, um aus diesem wieder ein Byte-Folge zu machen (und nicht sofort den gesuchten String!).

Dazu könnten wir dieses TRegEx nehmen
Delphi-Quellcode:
type
  TRegDecoder = class
  private const
    pattern = '\\x((\d|[a-f]*){2})';
    function unescape(const match: TMatch): string;
  public
    function Decode(const str: string): TBytes;
  end;

  { TRegDecoder }

function TRegDecoder.Decode(const str: string): TBytes;
var
  decodedStr: string;
  idx: Integer;
begin
  decodedStr := TRegEx.Replace(str, pattern, unescape);
  SetLength(result, decodedStr.Length);
  for idx := 0 to decodedStr.Length - 1 do
    result[idx] := Ord(decodedStr.Chars[idx]) and $FF;
end;

function TRegDecoder.unescape(const match: TMatch): string;
var
  hexNumber: String;
begin
  hexNumber := '$' + match.Groups[1].Value;
  result := Chr(Byte.Parse(hexNumber));
end;

function DecodeBytes(const str: string): TBytes;
var
  decoder: TRegDecoder;
begin
  decoder := TRegDecoder.Create;
  try
    result := decoder.Decode(str);
  finally
    decoder.Free;
  end;
end;
Dann kommen wir schlussendlich zu
Delphi-Quellcode:
const
  SomeStr = 'ĀĆHallo';

var
  Utf8Buffer, OutBuffer: TBytes;
  EncodedBufferStr: string;
  str: string;

begin
  Utf8Buffer := TEncoding.UTF8.GetBytes(SomeStr);
  EncodedBufferStr := EncodeBytes(Utf8Buffer);
  Writeln(EncodedBufferStr);

  OutBuffer := DecodeBytes(EncodedBufferStr);
  str := TEncoding.UTF8.GetString(OutBuffer);
  // Achtung, kann die Konsole normal nicht korrekt darstellen!
  // Bitte den Wert im Debugger anschauen
  Writeln(str);

  Readln;

end.
Hinweis

Das ist bestimmt nicht die schnellste Variante, sondern nur eine die funktioniert und die man so mit den bisher gelieferten Informationen hätte lösen können.

Geändert von Schokohase (22. Jul 2019 um 21:06 Uhr)
  Mit Zitat antworten Zitat
DieDolly

Registriert seit: 22. Jun 2018
2.175 Beiträge
 
#2

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 21:29
Bis ich das verstanden habe, vergehen erstmal ein paar Tage. Bestimmt eine Woche.

Seitdem ich das hier das erste mal gesehen habe verzweifle ich schon dran zu verstehen, wie Replace den dritten Parameter akzeptieren kann, der eine Funktion ist die eigentlich einen Parameter benötigt.
  Mit Zitat antworten Zitat
Benutzerbild von p80286
p80286

Registriert seit: 28. Apr 2008
Ort: Stolberg (Rhl)
6.659 Beiträge
 
FreePascal / Lazarus
 
#3

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 21:30
?? Absolut keine Ahnung sorry.
Kann vorkommen.
zunächst wäre es hilfreich zu wissen aus welcher Quelle der String stammt. Ich vermute: JSON, muß aber nicht sein.
Wenn man die Quelle kennt, weiß man welche Zeichen "escaped" werden müssen, ansonsten mußman halt mit allem Rechnen......

SomeStr2 = '\xc4\x80\xc4\x86Hallo';

In diesem Beispiel wird zunächst einmal ein Byte(C4) definiert, weil die Quelle mit diesem Zeichen nich korrekt umgehen kann. Die nächsten drei Bytes werden ebenfall entsprechend definiert (80,C4,86).

also

mystring:=#$C4+#$80+#$C4+#$86+'Hallo';

Schaust Du in der UTF-Codierung nach, dann entspricht $C480 einem Ä und $C486 einem ´C
es scheint sich also um UTF-8 zu handeln.

Mit der entsprechenden übersetzungsfunktion erhälst du also
'ÄCHallo' (ich bekomme das Acute nich richtig hin)


Gruß
K-H
Programme gehorchen nicht Deinen Absichten sondern Deinen Anweisungen
R.E.D retired error detector
  Mit Zitat antworten Zitat
DieDolly

Registriert seit: 22. Jun 2018
2.175 Beiträge
 
#4

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 21:36
Zitat:
Kann vorkommen.
Aber nicht so wie bei mir.
Ich habe versucht die Logik einfach irgendwie umzudrehen aber das war wohl der sichere falsche Weg.
  Mit Zitat antworten Zitat
Schokohase
(Gast)

n/a Beiträge
 
#5

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 21:37
zunächst wäre es hilfreich zu wissen aus welcher Quelle der String stammt. Ich vermute: JSON, muß aber nicht sein.
Nein, definitiv nicht:

1. Bei JSON ist ein string immer quoted
2. Bei JSON gibt es ein \u???? mit 4 Hex-Ziffern aber eben kein \x?? mit zwei Hex-Ziffern

Nachzulesen unter https://json.org
  Mit Zitat antworten Zitat
Schokohase
(Gast)

n/a Beiträge
 
#6

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 21:40
Seitdem ich das hier das erste mal gesehen habe verzweifle ich schon dran zu verstehen, wie Replace den dritten Parameter akzeptieren kann, der eine Funktion ist die eigentlich einen Parameter benötigt.
Das ist ein Delegate bzw. Funktions- oder Methodenzeiger und gehört eigentlich zum Delphi Basiswissen. Wie hast du jemals einen Event zugewiesen, denn da verwendet man nur solche Methodenzeiger mit Parametern?
  Mit Zitat antworten Zitat
DieDolly

Registriert seit: 22. Jun 2018
2.175 Beiträge
 
#7

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 22:08
Events habe ich schon dutzende zugewiesen.
Beispielsweise eine Komponente zur Laufzeit erstellen und Events zuweisen die schon im Code liegen.

Aber das da oben sagt mir gar nichts denn der Code-Hint sagt auch nur, dass er einen String als dritten Parameter erwartet.
Verstehe es noch immer nicht und werde das auch nie verstehen. Für mich sieht ein Event anders aus. Kapiere einfach nicht, wo TMatch dann herkommen soll.
Replace() liefert es ja scheinbar nicht, da nur ein String erwartet wird.

class function TRegEx.Replace(const Input, Pattern, Replacement: string): string;

Zum Basiswissen gehört viel. Es gibt schlaue Menschen wie dich die irgendwie alles aufsaugen und es gibt dumme wie mich, die nix kapieren.

Geändert von DieDolly (22. Jul 2019 um 22:12 Uhr)
  Mit Zitat antworten Zitat
Der schöne Günther

Registriert seit: 6. Mär 2013
6.114 Beiträge
 
Delphi 10 Seattle Enterprise
 
#8

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 23. Jul 2019, 07:11
Was ist deine Delphi-Version? Vielleicht war die Methode in deiner Version noch nicht erfunden 🤷
  Mit Zitat antworten Zitat
Schokohase
(Gast)

n/a Beiträge
 
#9

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 23. Jul 2019, 07:20
Schlau? Weiß ich nicht ...
Augen offen? Ja auf jeden Fall ...

http://docwiki.embarcadero.com/Libra...TRegEx.Replace
Delphi-Quellcode:
class function Replace(const Input, Pattern, Replacement: string): string; overload; static;
class function Replace(const Input, Pattern: string; Evaluator: TMatchEvaluator): string; overload; static;
class function Replace(const Input, Pattern, Replacement: string; Options: TRegExOptions): string; overload; static;
class function Replace(const Input, Pattern: string; Evaluator: TMatchEvaluator; Options: TRegExOptions): string; overload; static;
Delphi-Quellcode:
type
  TMatchEvaluator = function(const Match: TMatch): string of object;
Eventuell macht das den Unterschied und wirkt auf andere schlau ... obwohl ich einfach nur die Augen offen habe
  Mit Zitat antworten Zitat
Rolf Frei

Registriert seit: 19. Jun 2006
630 Beiträge
 
Delphi 11 Alexandria
 
#10

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 24. Jul 2019, 16:58
mystring := UTF8Decode(#$C4+#$80+#$C4+#$86+'Hallo');

Das ergibt den String "ĀĆHallo"

Das Problem ist nun die "\x.." Zeichen in den entsprechenden 8-bit Zeichen Code umzuwandeln. Habe dazu schnell eine simple Routine geschrieben, die das macht. Diese müsste aber eventuell noch etwas überarbeitet werden, jenach dem was der Quellstring wirklich alles enthalten kann.

Delphi-Quellcode:
function DecodeCStyleString(const AStr: String): String;
var
  HexStr, ResultStr: RawByteString;
  i: Integer;
  IsCharLeadin: Boolean;
begin
  IsCharLeadin := False;
  i := 1;
  while i <= Length(AStr) do
  begin
    IsCharLeadin := AStr[i] = '\';
    if IsCharLeadin then
    begin
      IsCharLeadin := AStr[i+1] = 'x';
      if IsCharLeadin then
      begin
        inc(i, 2);
        HexStr := '$' + AStr[i] + AStr[i+1];
        ResultStr := ResultStr + AnsiChar(StrToInt(HexStr));

        inc(i);
      end
      else
        ResultStr := ResultStr + AnsiChar(AStr[i]);
    end
    else
      ResultStr := ResultStr + AnsiChar(AStr[i]);

    inc(i);
  end;

  Result := UTF8ToString(ResultStr);
end;

...

MyString := DecodeCStyleString('\xc4\x80\xc4\x86Hallo\xc4\x80');
// MyString ist nun "ĀĆHalloĀ"

Geändert von Rolf Frei (24. Jul 2019 um 17:20 Uhr)
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 15:44 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz