Delphi-PRAXiS - Delphi Codierung/Decodierung von Umlauten

Seite 1 von 2

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)

- Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)

- - Delphi Codierung/Decodierung von Umlauten (https://www.delphipraxis.net/182475-codierung-decodierung-von-umlauten.html)

Codierung/Decodierung von Umlauten

Moin zusammen,

ich sitze gerade vor einem womöglich sehr einfachen Problem, finde aber derzeit keinen Weg dies entsprechend auszuräumen.

Nach einer Webabfrage erhalte ich als Ergebnis meines POST Nachnamen im repsonse übergeben.
Die Abfrage an sich funktioniert einwandfrei, ist jetzt jedoch jemand dabei, der Umlaute in seinem Namen hat, kommt Unicode zum tragen.

Anstelle von
Müller

erhalte ich deshalb
M\u00fcller

jetzt meine Frage, gibt es einen Befehl, der die Konvertierung generell übernimmt oder muss es tatsächlich (und das will ich nicht hoffen von Hand geschehen (Pos & RegEx)?

Zu meinen Voraussetzungen:
1. An der Webseite kann ich nichts ändern, da diese nicht von mir stammt.
2. Ich nutze Delphi XE 5

Für einen guten Ratschlag wäre ich sehr dankbar.

AW: Codierung/Decodierung von Umlauten

Das sieht sehr nach einer JavaScript Codierung von Unicode aus. Soweit ich weiß, gibt es standardmäßig keine Methode, die das umsetzt. Wäre mal interessant zu wissen, was ankommt, wenn der Name ein "\u" enthält.

AW: Codierung/Decodierung von Umlauten

Zitat:

Zitat von Uwe Raabe (Beitrag 1277617)

Code:

\\u

AW: Codierung/Decodierung von Umlauten

Jupp, knuffige Escape-Sequenzen.

Escape-Zeichen ist \

\\ = \ , könnte aber notfalls auch auch \u005C sein :stupid:
\uxxxx = Unicodezeichen, wobei xxxx der hexadezimale Zeichencode ist

Weitere Codes siehe

Tabelle 2.1 Escape-Sequenzen bei JavaScript

Hab jetzt nur die manuelle Umwandlung in der anderen Richtung gefunden

http://forum.delphi-treff.de/index.p...enden-Unicode/

Eventuell gibt es im Indy aber schon irgendwo etwas Fertiges?
Aber sonst wäre eine Umwandlung ja nicht sooooo schwer, wenn man die beiden oben genannten Sequenzen selber behandelt. (zeichen für Zeichen durchgehn, wenn \ nach dem nächsten Zeichen gucken und bei \ die zwei Zeichen durch \ ersetzen und bei u die 6 Zeichen durch das Zeichen mit dem Char-Code "xxxx")

PS: Char(StrToInt('$' + xxxx))
und kennt schon jemand die SuFu?

http://www.delphipraxis.net/165132-u...sequenzen.html

AW: Codierung/Decodierung von Umlauten

Dieses Escaping wird auch für JSON verwendet (das J in JSON steht ja für JavaScript), daher kann man einen Umweg über einen JSON Parser nehmen.

Dazu würde man eine JSON Dokument "manuell" als einen JSON Ausdruck zusammensetzen in dem der betroffene Name mit \u.... Escape enthalten ist. Und dann diesen Ausdruck parsen und den Wert als Unicodestring abfragen.

Unter

http://stackoverflow.com/a/4901205/80901 wird aber auch eine einfache Funktion zur Umwandlung gezeigt. Ist in JavaScript, dürfte aber leicht nach Delphi umsetzbar sein.

AW: Codierung/Decodierung von Umlauten

Seit XE5(?) ist doch Json rundum dabei. So ware es spontan für einen String doch ok, oder?

Delphi-Quellcode:

			uses

   System.SysUtils,

   System.Json; // Unter XE5 glaube ich Data.DBXJSON statt System.Json

procedure justEncodingThings();

const

   baseStrEnc: String = 'M\u00FCller';

   baseStrDec: String = 'Müller';

var

   decodedStr: String;

   jsonValue: TJSONValue;

begin

   jsonValue := TJSONObject.ParseJSONValue( baseStrEnc.QuotedString('"') );

   decodedStr := jsonValue.Value;

   Assert( decodedStr = baseStrDec );

   jsonValue.Free();

end;

AW: Codierung/Decodierung von Umlauten

Oder man klimpert sich das eben fix zusammen

Delphi-Quellcode:

			unit JavaString;

interface

function JavaString_Decode( const AStr: string ): string;

implementation

uses

  System.SysUtils;

function OctalStrToInt( AOctal: string ): Integer;

var

  LChar: Char;

begin

  Result := 0;

  for LChar in AOctal do

    begin

      Result := Result * 8 + Ord( LChar ) - Ord( '0' );

    end;

end;

function JavaString_Decode( const AStr: string ): string;

var

  LTempBuffer: string;

  LChar: Char;

  LState: Integer;

  procedure Normal;

  begin

    case LChar of

      '\':

        LState := 1;

    else

      Result := Result + LChar;

    end;

  end;

  procedure Escape;

  begin

    case LChar of

      '\', '/', '"', '''':

        ;

      'b': // Backspace

        LChar := #$0008;

      't': // Horizontal Tab

        LChar := #$0009;

      'n': // New Line

        LChar := #$000A;

      'v': // Vertical Tab

        LChar := #$000B;

      'f': // Form Feed

        LChar := #$000C;

      'r': // Carriage Return

        LChar := #$000D;

      '0' .. '3': // Latin1 Octal

        begin

          LTempBuffer := LChar;

          LState := 2;

          Exit;

        end;

      'x': // Latin1 Hex

        begin

          LTempBuffer := '';

          LState := 3;

          Exit;

        end;

      'u': // Unicode Hex

        begin

          LTempBuffer := '';

          LState := 4;

          Exit;

        end;

    else

      raise EArgumentException.Create( 'Parse Error' );

    end;

    Result := Result + LChar;

    LState := 0;

  end;

  procedure Latin1Octal;

  var

    LByte: Byte;

  begin

    case LChar of

      '0' .. '7':

        LTempBuffer := LTempBuffer + LChar;

    else

      raise EArgumentException.Create( 'Parse Error' );

    end;

    if Length( LTempBuffer ) = 3

    then

      begin

        LByte := OctalStrToInt( LTempBuffer );

        Result := Result + TEncoding.Default.GetString( TArray<Byte>.Create( LByte ) );

        LState := 0;

      end;

  end;

  procedure Latin1Hex;

  var

    LByte: Byte;

  begin

    case LChar of

      '0' .. '9', 'A' .. 'F', 'a' .. 'f':

        LTempBuffer := LTempBuffer + LChar;

    else

      raise EArgumentException.Create( 'Parse Error' );

    end;

    if Length( LTempBuffer ) = 2

    then

      begin

        LByte := StrToInt( '$' + LTempBuffer );

        Result := Result + TEncoding.Default.GetString( TArray<Byte>.Create( LByte ) );

        LState := 0;

      end;

  end;

  procedure UnicodeHex;

  var

    LWord: Word;

  begin

    case LChar of

      '0' .. '9', 'A' .. 'F', 'a' .. 'f':

        LTempBuffer := LTempBuffer + LChar;

    else

      raise EArgumentException.Create( 'Parse Error' );

    end;

    if Length( LTempBuffer ) = 4

    then

      begin

        LWord := StrToInt( '$' + LTempBuffer );

        Result := Result + TEncoding.Unicode.GetString( TArray<Byte>.Create( Lo( LWord ), Hi( LWord ) ) );

        LState := 0;

      end;

  end;

begin

  Result := '';

  LState := 0;

  for LChar in AStr do

    case LState of

      0:

        Normal;

      1:

        Escape;

      2:

        Latin1Octal;

      3:

        Latin1Hex;

      4:

        UnicodeHex;

    end;

  if LState <> 0

  then

    raise EArgumentException.Create( 'Parse Error' );

end;

end.

Delphi-Quellcode:

			procedure Main;

begin

  Writeln( JavaString_Decode( 'Copyright \251 \xA9 \u00A9' ) );

end;

ergibt dann

Code:

AW: Codierung/Decodierung von Umlauten

Bist du ein Zauberer? :o

AW: Codierung/Decodierung von Umlauten

Zitat:

Zitat von Der schöne Günther (Beitrag 1277652)

Bist du ein Zauberer? :o

Wieso? Die Konvention ist doch streng logisch und ich bin ganz stumpf danach vorgegangen (wie man auch am Quellcode sehen kann).

Ich hatte allerdings das \' unterschlagen :oops:

AW: Codierung/Decodierung von Umlauten

Jupp, wenn man einmal weiß wie etwas im Grundprinzip funktioniert, dann kann man es
- entweder als State-Machine umsetzen
- oder in der Art des StringReplace (so hatte ich es schon im Kopf, aber keine Zeit/Lust es vorhin umzusetzen)
- man kann es auch gern als RegEx-Replace versuchen (ich glaub da hatte ich einen Code in Java/JavaScript/PHP gesehn)

Und für State-Machines gibt es sogar Generatoren, welche den Code generieren, wenn man ihnen die Konventionen nennt.

Seite 1 von 2