Einzelnen Beitrag anzeigen

Schokohase
(Gast)

n/a Beiträge
 
#19

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 21:02
aber wie bitte soll man aus \xc4\x80 ein Ā machen?
Das kann ich dir auch nicht sagen. Das wäre mir auch viel zu kompliziert.

Ich ziehe ja auch nicht das Hemd und die Hose gleichzeitig an, denn sonst falle ich auf die Fre**e.

Aber der umgekehrte Weg den ich dir gezeigt habe macht das ja auch nicht alles auf einen Schlag.

Da wird ein String in eine Byte-Folge umgewandelt.
Diese Byte-Folge wird nun in einen String kodiert und dort befinden sich nur noch 7-Bit ASCII Zeichen (bzw. solche die man mit 7-Bit ASCII darstellen könnte).

Also suchen wir nach einem Weg, um aus diesem wieder ein Byte-Folge zu machen (und nicht sofort den gesuchten String!).

Dazu könnten wir dieses TRegEx nehmen
Delphi-Quellcode:
type
  TRegDecoder = class
  private const
    pattern = '\\x((\d|[a-f]*){2})';
    function unescape(const match: TMatch): string;
  public
    function Decode(const str: string): TBytes;
  end;

  { TRegDecoder }

function TRegDecoder.Decode(const str: string): TBytes;
var
  decodedStr: string;
  idx: Integer;
begin
  decodedStr := TRegEx.Replace(str, pattern, unescape);
  SetLength(result, decodedStr.Length);
  for idx := 0 to decodedStr.Length - 1 do
    result[idx] := Ord(decodedStr.Chars[idx]) and $FF;
end;

function TRegDecoder.unescape(const match: TMatch): string;
var
  hexNumber: String;
begin
  hexNumber := '$' + match.Groups[1].Value;
  result := Chr(Byte.Parse(hexNumber));
end;

function DecodeBytes(const str: string): TBytes;
var
  decoder: TRegDecoder;
begin
  decoder := TRegDecoder.Create;
  try
    result := decoder.Decode(str);
  finally
    decoder.Free;
  end;
end;
Dann kommen wir schlussendlich zu
Delphi-Quellcode:
const
  SomeStr = 'ĀĆHallo';

var
  Utf8Buffer, OutBuffer: TBytes;
  EncodedBufferStr: string;
  str: string;

begin
  Utf8Buffer := TEncoding.UTF8.GetBytes(SomeStr);
  EncodedBufferStr := EncodeBytes(Utf8Buffer);
  Writeln(EncodedBufferStr);

  OutBuffer := DecodeBytes(EncodedBufferStr);
  str := TEncoding.UTF8.GetString(OutBuffer);
  // Achtung, kann die Konsole normal nicht korrekt darstellen!
  // Bitte den Wert im Debugger anschauen
  Writeln(str);

  Readln;

end.
Hinweis

Das ist bestimmt nicht die schnellste Variante, sondern nur eine die funktioniert und die man so mit den bisher gelieferten Informationen hätte lösen können.

Geändert von Schokohase (22. Jul 2019 um 21:06 Uhr)
  Mit Zitat antworten Zitat