Delphi-PRAXiS
Seite 1 von 2  1 2      

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   Delphi Codierung/Decodierung von Umlauten (https://www.delphipraxis.net/182475-codierung-decodierung-von-umlauten.html)

Shrek_III 27. Okt 2014 22:32

Codierung/Decodierung von Umlauten
 
Moin zusammen,

ich sitze gerade vor einem womöglich sehr einfachen Problem, finde aber derzeit keinen Weg dies entsprechend auszuräumen.

Nach einer Webabfrage erhalte ich als Ergebnis meines POST Nachnamen im repsonse übergeben.
Die Abfrage an sich funktioniert einwandfrei, ist jetzt jedoch jemand dabei, der Umlaute in seinem Namen hat, kommt Unicode zum tragen.

Anstelle von
Müller

erhalte ich deshalb
M\u00fcller

jetzt meine Frage, gibt es einen Befehl, der die Konvertierung generell übernimmt oder muss es tatsächlich (und das will ich nicht hoffen von Hand geschehen (Pos & RegEx)?


Zu meinen Voraussetzungen:
1. An der Webseite kann ich nichts ändern, da diese nicht von mir stammt.
2. Ich nutze Delphi XE 5

Für einen guten Ratschlag wäre ich sehr dankbar.

Uwe Raabe 27. Okt 2014 23:39

AW: Codierung/Decodierung von Umlauten
 
Das sieht sehr nach einer JavaScript Codierung von Unicode aus. Soweit ich weiß, gibt es standardmäßig keine Methode, die das umsetzt. Wäre mal interessant zu wissen, was ankommt, wenn der Name ein "\u" enthält.

Sir Rufo 28. Okt 2014 00:28

AW: Codierung/Decodierung von Umlauten
 
Zitat:

Zitat von Uwe Raabe (Beitrag 1277617)
Das sieht sehr nach einer JavaScript Codierung von Unicode aus. Soweit ich weiß, gibt es standardmäßig keine Methode, die das umsetzt. Wäre mal interessant zu wissen, was ankommt, wenn der Name ein "\u" enthält.

Code:
\\u

himitsu 28. Okt 2014 02:04

AW: Codierung/Decodierung von Umlauten
 
Jupp, knuffige Escape-Sequenzen.

Escape-Zeichen ist \

\\ = \ , könnte aber notfalls auch auch \u005C sein :stupid:
\uxxxx = Unicodezeichen, wobei xxxx der hexadezimale Zeichencode ist

Weitere Codes siehe Tabelle 2.1 Escape-Sequenzen bei JavaScript

Hab jetzt nur die manuelle Umwandlung in der anderen Richtung gefunden
http://forum.delphi-treff.de/index.p...enden-Unicode/

Eventuell gibt es im Indy aber schon irgendwo etwas Fertiges?
Aber sonst wäre eine Umwandlung ja nicht sooooo schwer, wenn man die beiden oben genannten Sequenzen selber behandelt. (zeichen für Zeichen durchgehn, wenn \ nach dem nächsten Zeichen gucken und bei \ die zwei Zeichen durch \ ersetzen und bei u die 6 Zeichen durch das Zeichen mit dem Char-Code "xxxx")

PS: Char(StrToInt('$' + xxxx))
und kennt schon jemand die SuFu?
http://www.delphipraxis.net/165132-u...sequenzen.html

mjustin 28. Okt 2014 06:47

AW: Codierung/Decodierung von Umlauten
 
Dieses Escaping wird auch für JSON verwendet (das J in JSON steht ja für JavaScript), daher kann man einen Umweg über einen JSON Parser nehmen.

Dazu würde man eine JSON Dokument "manuell" als einen JSON Ausdruck zusammensetzen in dem der betroffene Name mit \u.... Escape enthalten ist. Und dann diesen Ausdruck parsen und den Wert als Unicodestring abfragen.

Unter http://stackoverflow.com/a/4901205/80901 wird aber auch eine einfache Funktion zur Umwandlung gezeigt. Ist in JavaScript, dürfte aber leicht nach Delphi umsetzbar sein.

Der schöne Günther 28. Okt 2014 09:06

AW: Codierung/Decodierung von Umlauten
 
Seit XE5(?) ist doch Json rundum dabei. So ware es spontan für einen String doch ok, oder?

Delphi-Quellcode:
uses
   System.SysUtils,
   System.Json; // Unter XE5 glaube ich Data.DBXJSON statt System.Json

procedure justEncodingThings();
const
   baseStrEnc: String = 'M\u00FCller';
   baseStrDec: String = 'Müller';
var
   decodedStr: String;
   jsonValue: TJSONValue;
begin
   jsonValue := TJSONObject.ParseJSONValue( baseStrEnc.QuotedString('"') );
   decodedStr := jsonValue.Value;

   Assert( decodedStr = baseStrDec );

   jsonValue.Free();
end;

Sir Rufo 28. Okt 2014 09:13

AW: Codierung/Decodierung von Umlauten
 
Oder man klimpert sich das eben fix zusammen
Delphi-Quellcode:
unit JavaString;

interface

function JavaString_Decode( const AStr: string ): string;

implementation

uses
  System.SysUtils;

function OctalStrToInt( AOctal: string ): Integer;
var
  LChar: Char;
begin
  Result := 0;
  for LChar in AOctal do
    begin
      Result := Result * 8 + Ord( LChar ) - Ord( '0' );
    end;
end;

function JavaString_Decode( const AStr: string ): string;
var
  LTempBuffer: string;
  LChar: Char;
  LState: Integer;
  procedure Normal;
  begin
    case LChar of
      '\':
        LState := 1;
    else
      Result := Result + LChar;
    end;
  end;
  procedure Escape;
  begin
    case LChar of
      '\', '/', '"', '''':
        ;
      'b': // Backspace
        LChar := #$0008;
      't': // Horizontal Tab
        LChar := #$0009;
      'n': // New Line
        LChar := #$000A;
      'v': // Vertical Tab
        LChar := #$000B;
      'f': // Form Feed
        LChar := #$000C;
      'r': // Carriage Return
        LChar := #$000D;
      '0' .. '3': // Latin1 Octal
        begin
          LTempBuffer := LChar;
          LState := 2;
          Exit;
        end;
      'x': // Latin1 Hex
        begin
          LTempBuffer := '';
          LState := 3;
          Exit;
        end;
      'u': // Unicode Hex
        begin
          LTempBuffer := '';
          LState := 4;
          Exit;
        end;
    else
      raise EArgumentException.Create( 'Parse Error' );
    end;
    Result := Result + LChar;
    LState := 0;
  end;
  procedure Latin1Octal;
  var
    LByte: Byte;
  begin
    case LChar of
      '0' .. '7':
        LTempBuffer := LTempBuffer + LChar;
    else
      raise EArgumentException.Create( 'Parse Error' );
    end;
    if Length( LTempBuffer ) = 3
    then
      begin
        LByte := OctalStrToInt( LTempBuffer );
        Result := Result + TEncoding.Default.GetString( TArray<Byte>.Create( LByte ) );
        LState := 0;
      end;
  end;
  procedure Latin1Hex;
  var
    LByte: Byte;
  begin
    case LChar of
      '0' .. '9', 'A' .. 'F', 'a' .. 'f':
        LTempBuffer := LTempBuffer + LChar;
    else
      raise EArgumentException.Create( 'Parse Error' );
    end;
    if Length( LTempBuffer ) = 2
    then
      begin
        LByte := StrToInt( '$' + LTempBuffer );
        Result := Result + TEncoding.Default.GetString( TArray<Byte>.Create( LByte ) );
        LState := 0;
      end;
  end;
  procedure UnicodeHex;
  var
    LWord: Word;
  begin
    case LChar of
      '0' .. '9', 'A' .. 'F', 'a' .. 'f':
        LTempBuffer := LTempBuffer + LChar;
    else
      raise EArgumentException.Create( 'Parse Error' );
    end;
    if Length( LTempBuffer ) = 4
    then
      begin
        LWord := StrToInt( '$' + LTempBuffer );
        Result := Result + TEncoding.Unicode.GetString( TArray<Byte>.Create( Lo( LWord ), Hi( LWord ) ) );
        LState := 0;
      end;
  end;

begin
  Result := '';
  LState := 0;
  for LChar in AStr do
    case LState of
      0:
        Normal;
      1:
        Escape;
      2:
        Latin1Octal;
      3:
        Latin1Hex;
      4:
        UnicodeHex;
    end;
  if LState <> 0
  then
    raise EArgumentException.Create( 'Parse Error' );
end;

end.
Delphi-Quellcode:
procedure Main;
begin
  Writeln( JavaString_Decode( 'Copyright \251 \xA9 \u00A9' ) );
end;
ergibt dann
Code:
Copyright © © ©

Der schöne Günther 28. Okt 2014 09:19

AW: Codierung/Decodierung von Umlauten
 
Liste der Anhänge anzeigen (Anzahl: 1)
Bist du ein Zauberer? :o

Sir Rufo 28. Okt 2014 09:46

AW: Codierung/Decodierung von Umlauten
 
Zitat:

Zitat von Der schöne Günther (Beitrag 1277652)
Bist du ein Zauberer? :o

Wieso? Die Konvention ist doch streng logisch und ich bin ganz stumpf danach vorgegangen (wie man auch am Quellcode sehen kann).

Ich hatte allerdings das \' unterschlagen :oops:

himitsu 28. Okt 2014 12:55

AW: Codierung/Decodierung von Umlauten
 
Jupp, wenn man einmal weiß wie etwas im Grundprinzip funktioniert, dann kann man es
- entweder als State-Machine umsetzen
- oder in der Art des StringReplace (so hatte ich es schon im Kopf, aber keine Zeit/Lust es vorhin umzusetzen)
- man kann es auch gern als RegEx-Replace versuchen (ich glaub da hatte ich einen Code in Java/JavaScript/PHP gesehn)

Und für State-Machines gibt es sogar Generatoren, welche den Code generieren, wenn man ihnen die Konventionen nennt.


Alle Zeitangaben in WEZ +1. Es ist jetzt 18:44 Uhr.
Seite 1 von 2  1 2      

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz