Delphi-PRAXiS - Delphi Ascii oder Ansi

Seite 2 von 2

40 Beiträge dieses Themas auf einer Seite anzeigen

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)

- Sonstige Fragen zu Delphi (https://www.delphipraxis.net/19-sonstige-fragen-zu-delphi/)

- - Delphi Ascii oder Ansi (https://www.delphipraxis.net/71085-ascii-oder-ansi.html)

egal	9. Jun 2006 10:55

Re: Ascii oder Ansi

Zitat:

Zitat von Olli

Ähem, irgendwie kapiere ich noch immer nicht, wo es hängt. Warum kannst du nicht verstehen, daß in deiner Datei auch für jedes Zeichen 8bit benutzt werden und damit jedes Zeichen einen Wert von 0..255 hat?! ... und daß die Darstellung dieser jeweils 256 unterschiedlichen Entitäten allein dem lesenden Programm obliegt (bzw. beim Lesen und Speichern die "Abbildung" von Code zu darzustellendem Zeichen und umgekehrt).

Nur weil █ (Unicode-Zeichen $2588, EASCII-Zeichen $DB bei westeuropäischer DOS-Kodierung) unter DOS als "voller Block" erscheint, heißt das nicht, daß es unter einer anderen Kodierung (ANSI-westlich $DB == Û) genauso sein muß. Nochmal: nimm Unicodezeichen, wenn du das Erscheinungsbild der Zeichen eineindeutig festlegen willst.

Irgendwie verstehe ich deine Antwort nicht, was hat es mit meiner Frage zu tun?

himitsu

9. Jun 2006 13:18

Re: Ascii oder Ansi

Es ist doch einfach.
Nur das Programm, welches die Daten erstellt (und vielleicht wieder ließt) entscheidet/weiß 100%ig was für ein Format die Daten in der Datei haben.

ANSI und ASCII sind halt nur Interpretationen der BYTEs (8-Bit-Daten).

Wenn also keine Definition (um welche Daten es sich genau handelt) in der Datei vorhanden sind, dann gibt es keine sichere Möglichkeit zu prüfen um was es sich handelt.

Für reine Textdateien sind aber auch schon verschiedene Markerbytes definiert:
kein Markerbyte am Dateianfang = ANSI
$FF $FE am Dateianfang = UniCode (Low Endian)
$FE $FF am Dateianfang = UniCode (Big Endian)
$FF $FE $00 $00 am Dateianfang = UniCode4 (Low Endian)
$00 $00 $FE $FF am Dateianfang = UniCode4 (Big Endian)

Du kannst es dir so vorstellen ... man nehme Byte, aber wie willst du entscheiden, was in diesem Byte steckt?
ShortInt, Byte, AnsiChar, ASCII-Char, UTF8-Char, Boolean, Set ...

xaromz

9. Jun 2006 13:30

Re: Ascii oder Ansi

Hallo,

Zitat:

Zitat von himitsu

Für reine Textdateien sind aber auch schon verschiedene Markerbytes definiert:
kein Markerbyte am Dateianfang = ANSI
$FF $FE am Dateianfang = UniCode (Low Endian)
$FE $FF am Dateianfang = UniCode (Big Endian)
$FF $FE $00 $00 am Dateianfang = UniCode4 (Low Endian)
$00 $00 $FE $FF am Dateianfang = UniCode4 (Big Endian)

Da fehlt noch:
$EF $BB $BF am Dateianfang = UTF8

Gruß
xaromz

himitsu

9. Jun 2006 15:51

Re: Ascii oder Ansi

Jupp, hatte es nur nicht mehr im Kopf -.-''
Und natürlich gibt es noch mehr, aber das sind dann wohl erstmal die Markerbytes, welche von den meisten Programmen erkannt werden (abgesehn vom UCS4)

Olli	9. Jun 2006 16:14

Re: Ascii oder Ansi

War UCS nicht inzwischen zugunsten von UTF "deprecated" deklariert worden (also alle UCS)?!

Nachtrag: Hah, ich habe eine Idee. "egal", versuche mal folgendes: öffne eine Bitmap-Datei mit deinem Lieblings-Bildbetrachter. Danach öffne die gleiche Datei mit Notepad und danach, insofern vorhanden, mit einem Hexeditor. Was siehst du? Richtig, die gleichen Daten, aber unterschiedlich repräsentiert. Und die Repräsentation ergibt sich daraus wie die Informationen/Daten dekodiert wurden.

Olli	9. Jun 2006 23:09

Re: Ascii oder Ansi

Das habe ich in einer PM an himitsu geschrieben:

Ich glaube

deswegen meine Aussage. Allerdings trog mich wohl meine Erinnerung. Die Aussage gilt nur für UCS-2 in Relation zu UTF-16 (macht ja Sinn). Also nicht UCS sondern UCS-2 sollte nicht mehr benutzt werden, weil ja in UTF-16 die Surrogates (zusammengesetzte Codes) dazugekommen sind.

Meine obige Aussage zu "allen UCS" trifft also nicht zu. Gemeint ist, daß UCS-2 nicht mehr benutzt werden soll (auch als Begriff), weil in UTF-16 Surrogates eingeführt wurden, die eben dann mehr als 2 Byte pro Zeichen lang sind ... deswegen wäre "Unicode Character String 2 Byte" (UCS 2) falsch.

Alle Zeitangaben in WEZ +1. Es ist jetzt 17:24 Uhr.

Seite 2 von 2

40 Beiträge dieses Themas auf einer Seite anzeigen

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz