AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Programmieren allgemein UTF8 Literale leserlich machen. Welche Unit / Funktion?
Thema durchsuchen
Ansicht
Themen-Optionen

UTF8 Literale leserlich machen. Welche Unit / Funktion?

Ein Thema von DieDolly · begonnen am 22. Jul 2019 · letzter Beitrag vom 25. Jul 2019
Antwort Antwort
DieDolly

Registriert seit: 22. Jun 2018
2.175 Beiträge
 
#1

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 19:03
Natürlich macht der das. Es gibt keine überladene Verision von Replace für diesen Aufruf.
Ich glaube das ist ein unlösbares Problem. Dafür gibts einfach zu viele Zeichen.

Ok ich glaube ich kapituliere.
Ich habe denselben String auch in Hex vor mir liegen und da kommt auch nichts richtiges bei raus
Delphi-Quellcode:
function HexToString(S: String): string;
var
 i: Integer;
begin
 Result := '';
 for i := 1 to Length(S) div 2 do
  Result := Result + Char(StrToInt('$' + Copy(S, (i - 1) * 2 + 1, 2)));
end;

// Hex: C480C486
Da sollte rauskommen
ĀĆ

In HexToString werden immer 2 Stellen ausgelesen das weiß ich. Aber woher soll der auch wissen, dass er mal 2 mal 4 auslesen muss und mal auch gar nix, wenn der Buchstabe schon im Klartext vorliegt.

Geändert von DieDolly (22. Jul 2019 um 19:28 Uhr)
  Mit Zitat antworten Zitat
Schokohase
(Gast)

n/a Beiträge
 
#2

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 19:37
In HexToString werden immer 2 Stellen ausgelesen das weiß ich. Aber woher soll der auch wissen, dass er mal 2 mal 4 auslesen muss und mal auch gar nix, wenn der Buchstabe schon im Klartext vorliegt.
Weil du das Gedöns erst in eine Byte-Folge umwandeln musst. Diese Byte-Folge ist dann UTF-8 kodiert und damit zauberst du aus dieser Byte-Folge auch das gewünschte
Zitat:
ĀĆHallo
  Mit Zitat antworten Zitat
DieDolly

Registriert seit: 22. Jun 2018
2.175 Beiträge
 
#3

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 19:40
Wie es aussieht ist das hier kläglich falsch
Delphi-Quellcode:
Bytes := TEncoding.UTF8.GetBytes('C480C486');
 ShowMessage(TEncoding.UTF8.GetString(Bytes));
Das hier gibt mir ÄÄ aus
Bytes := TEncoding.UTF8.GetBytes(HexToString('C480C486'));

Geändert von DieDolly (22. Jul 2019 um 19:43 Uhr)
  Mit Zitat antworten Zitat
Schokohase
(Gast)

n/a Beiträge
 
#4

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 19:48
Delphi-Quellcode:
var
  buffer: TBytes;
  str:string;
begin
  buffer := [$c4,$80,$c4,$86];
  str := TEncoding.UTF8.GetString(Buffer);
end;
  Mit Zitat antworten Zitat
DieDolly

Registriert seit: 22. Jun 2018
2.175 Beiträge
 
#5

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 19:51
Aber wie wandle ich \xc4\x80\xc4\x86 in  buffer := [$c4,$80,$c4,$86]; um darum gehts ja seit 2 Seiten.
Das ist nur ein Beispielstring. Da könnte alles stehen. Auch Klartext und Mischung aus Klartext und Kodierung.
  Mit Zitat antworten Zitat
Schokohase
(Gast)

n/a Beiträge
 
#6

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 20:02
Aber wie wandle ich \xc4\x80\xc4\x86 in  buffer := [$c4,$80,$c4,$86]; um darum gehts ja seit 2 Seiten.
Das ist nur ein Beispielstring. Da könnte alles stehen. Auch Klartext und Mischung aus Klartext und Kodierung.
Nein, aktuell ging es erst einmal darum, dass du verstehst, was du da denn eigentlich vor dir hast - ein UTF8 codiertes Gedöns.

Ich zeige dir jetzt einmal, wie man das bekommt, was du da verarbeiten musst:
Delphi-Quellcode:
function EncodeBytes(const Buffer: TBytes): string;
var
  idx: Integer;
begin
  result := string.Empty;
  for idx := Low(Buffer) to High(Buffer) do
  begin
    if (Buffer[idx] < $20) or (Buffer[idx] > $7F) then
      result := result + string.Format('\x%2.2x', [Buffer[idx]]).ToLowerInvariant()
    else
      result := result + Chr(Buffer[idx]);
  end;
end;

const
  SomeStr = 'ĀĆHallo';

var
  Utf8Buffer: TBytes;
  EncodedBufferStr: string;

begin
  Utf8Buffer := TEncoding.UTF8.GetBytes(SomeStr);
  EncodedBufferStr := EncodeBytes(Utf8Buffer);
  Writeln(EncodedBufferStr); // \xc4\x80\xc4\x86Hallo
  Readln;

end.
Jetzt solltest du auch den Rückweg hinbekommen ...
  Mit Zitat antworten Zitat
DieDolly

Registriert seit: 22. Jun 2018
2.175 Beiträge
 
#7

AW: UTF8 Literale leserlich machen. Welche Unit / Funktion?

  Alt 22. Jul 2019, 20:23
Delphi-Quellcode:
const
  SomeStr2 = '\xc4\x80\xc4\x86Hallo';
begin
 Utf8Buffer := TEncoding.UTF8.GetString(SomeStr2);
 EncodedBufferStr := EncodeBytes(Utf8Buffer);
 showmessage(EncodedBufferStr);
?? Absolut keine Ahnung sorry.

Da braucht man bestimmt eine Dekodierungsfunktion die das alles rückwärts macht aber wie bitte soll man aus \xc4\x80 ein Ā machen? Wenn ich \xc4\x80 in Bytes umwandle habe ich mehr als 1 Zeichen in dem Array. Insgesamt in dem Fall 8 lang ist das Array. Ich kann ja nicht einfach blind 8 Stellen auslesen. Da könnte auch \16 für ein Leerzeichen stehen wo ich weniger auslesen müsste.

Das ging wohl in die Hose. Ehrlich gesagt verstehe ich nicht einmal was ich da mache.
Ich dachte ich entferne alle \x-Vorkommen und jeweils die nächsten 2 Zeichen danach schreibe ich in ein TBytes-Array.
Delphi-Quellcode:
function DecodeBytes(const Buffer: TBytes): string;
var
 idx: Integer;
 skip: Integer;
 counter: Integer;
begin
 skip := 0;
 counter := 0;
 for idx := Low(Buffer) to High(Buffer) do
  begin
   if skip = 2 then
    begin
     Result[counter] := Chr(Buffer[idx]) + Chr(Buffer[idx + 1]);
     Inc(counter);
    end;

   if Chr(Buffer[idx]) + Chr(Buffer[idx + 1]) = '\xthen
    begin
     skip := 2;
    end
   else
    begin
     skip := 0;
     Result[counter] := Chr(Buffer[idx]);
     Inc(counter);
    end;
  end;
end;
Das deprimiert mich gerade so sehr, dass ich Delphi und auch sonst alles mit Programmierung am liebsten nie wieder anfassen möchte.

Geändert von DieDolly (22. Jul 2019 um 21:00 Uhr)
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 05:07 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz