AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Programmieren allgemein Textfiles mit unterschiedlichen codepages gesucht
Thema durchsuchen
Ansicht
Themen-Optionen

Textfiles mit unterschiedlichen codepages gesucht

Ein Thema von Jazzman_Marburg · begonnen am 22. Mai 2010 · letzter Beitrag vom 22. Mai 2010
Antwort Antwort
Benutzerbild von Jazzman_Marburg
Jazzman_Marburg

Registriert seit: 2. Aug 2004
359 Beiträge
 
#1

Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 12:17
Hallo Leute.

Ich bastle gerade an einem "Codepage Indetifizierer" -- d.h. das Ding versucht die Codepage zu ermitteln, in welcher die Datei gespeichert worden ist. (Bitte keine Diskussion über die Unmöglichkeit dieses Vorhabens. Eine gute Schätzung reicht völlig aus -- und die habe ich.) Jetzt suche ich irgendwo im Netz nach Text-Files; toll wäre wenn sie alle den gleichen -- Standardtext -- enthielten, aber ganz sicher in verschiedenen Codepages gespeichert worden sind, so dass ich diese Files als Stichproben für mein Projekt verwenden kann.

Habt ihr eine Idee wo ich solche Text-Files (am liebsten auch von verschiedenen Plattformen (Macs, Linux etc.) herbekommen könnte?

Lieben Dank & Gruß
Jasmin
--- Delphi XE Starter, Windows 8 ---
  Mit Zitat antworten Zitat
Benutzerbild von Bernhard Geyer
Bernhard Geyer

Registriert seit: 13. Aug 2002
17.171 Beiträge
 
Delphi 10.4 Sydney
 
#2

Re: Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 12:30
Zitat von Jazzman_Marburg:
Jetzt suche ich irgendwo im Netz nach Text-Files; toll wäre wenn sie alle den gleichen -- Standardtext -- enthielten, aber ganz sicher in verschiedenen Codepages gespeichert worden sind, so dass ich diese Files als Stichproben für mein Projekt verwenden kann.
Gleicher Text, aber sicherlich doch übersetzt? Ansonsten wird ein deutscher Umlaug auf russischer Codepage "zerschossen" werden.

Zitat von Jazzman_Marburg:
Habt ihr eine Idee wo ich solche Text-Files (am liebsten auch von verschiedenen Plattformen (Macs, Linux etc.) herbekommen könnte?
Da gibt es keinen Unterschied. Einzig das/die Zeichen für eine neue Zeile sind bei Windows/Unix/Mac unterschiedlich.
Windows Vista - Eine neue Erfahrung in Fehlern.
  Mit Zitat antworten Zitat
Benutzerbild von Jazzman_Marburg
Jazzman_Marburg

Registriert seit: 2. Aug 2004
359 Beiträge
 
#3

Re: Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 12:55
Zitat von Bernhard Geyer:
Gleicher Text, aber sicherlich doch übersetzt?
Ja.
--- Delphi XE Starter, Windows 8 ---
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
43.139 Beiträge
 
Delphi 12 Athens
 
#4

Re: Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 12:56
Zitat von Jazzman_Marburg:
Bitte keine Diskussion über die Unmöglichkeit dieses Vorhabens.
Sowas gab es schonmal (letzes Jahr) hier in der DP und dort wurden auch ein paar Lösungen diskutiert.

Zitat von Bernhard Geyer:
Da gibt es keinen Unterschied. Einzig das/die Zeichen für eine neue Zeile sind bei Windows/Unix/Mac unterschiedlich.
Jupp.

#13 = Mac
#10 = Linux
#13#10 = Windows

Aber dieses ist auch nicht ganz zuverlässig, denn z.B. das neue RichEdit-Control in Windows arbeitet standardmäßig mit #10.


Im Endefekt geht sowas nur über eine Sprachanalyse, wobei du da dann schauen kannst, wie die jeweiligen Nicht-ASCII-Zeichen kodiert sind, um die verwendete Codepage abzuschätzen.

Was man relativ leicht abschätzen kann, ist ob UnicodeBE, UnicodeLE (UTF-16), UTF-7, UTF-8, Ansi (in unbekannter Codepage).
Garbage Collector ... Delphianer erzeugen keinen Müll, also brauchen sie auch keinen Müllsucher.
my Delphi wish list : BugReports/FeatureRequests
  Mit Zitat antworten Zitat
Benutzerbild von Jazzman_Marburg
Jazzman_Marburg

Registriert seit: 2. Aug 2004
359 Beiträge
 
#5

Re: Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 13:27
Zitat von himitsu:
Was man relativ leicht abschätzen kann, ist ob UnicodeBE, UnicodeLE (UTF-16), UTF-7, UTF-8, Ansi (in unbekannter Codepage).
Sicher -- die BOMs lassen sich einfach erkennen.

Aber ich glaube ich schon was gefunden, was mir erstmal helfen wird:
Codepage Conversion
Vielen Dank & Gruß
Jazzman
--- Delphi XE Starter, Windows 8 ---
  Mit Zitat antworten Zitat
Benutzerbild von Luckie
Luckie

Registriert seit: 29. Mai 2002
37.621 Beiträge
 
Delphi 2006 Professional
 
#6

Re: Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 17:06
Zitat von Jazzman_Marburg:
Sicher -- die BOMs lassen sich einfach erkennen.
http://blogs.msdn.com/oldnewthing/ar...7/2158334.aspx
http://blogs.msdn.com/oldnewthing/ar.../24/95235.aspx

Dann solltest du Raymond mal deinen Trick verraten.
Michael
Ein Teil meines Codes würde euch verunsichern.
  Mit Zitat antworten Zitat
Benutzerbild von Jazzman_Marburg
Jazzman_Marburg

Registriert seit: 2. Aug 2004
359 Beiträge
 
#7

Re: Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 18:49
Zitat von Luckie:
Zitat von Jazzman_Marburg:
Sicher -- die BOMs lassen sich einfach erkennen.
Dann solltest du Raymond mal deinen Trick verraten.
Hallo.

Och, ich denke Raymond wird den Trick (der keiner ist) schon kennen, denn er schreibt ja selbst:

Zitat:
If a BOM is found, then life is easy, since the BOM tells you what encoding the file uses. The problem is when there is no BOM. Now you have to guess, and when you guess, you can guess wrong. For example, consider this file: ...
Also, wenn BOMs da sind, ist es easy -- leider hält sich die halbe (IT)Welt nicht daran, und ohne wird es tricky!

Danke für den Hinweis (ich kannte die Taexte nicht -- aber soweit ich es erkennen kann, bestätigen sie mein Vorgehen).

Gruß
Jazzman
--- Delphi XE Starter, Windows 8 ---
  Mit Zitat antworten Zitat
Benutzerbild von Luckie
Luckie

Registriert seit: 29. Mai 2002
37.621 Beiträge
 
Delphi 2006 Professional
 
#8

Re: Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 18:53
Ach so OK. Mit BOM ist es einfach, das ist klar. Ich dachte, du hättest für ohne BOM einen Trick gefunden.
Michael
Ein Teil meines Codes würde euch verunsichern.
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
43.139 Beiträge
 
Delphi 12 Athens
 
#9

Re: Textfiles mit unterschiedlichen codepages gesucht

  Alt 22. Mai 2010, 19:00
Im Europäischen und ähnlichen Sprachräumen kann man, durch 'ne sehr einfache Musteranalyse, derartige Formate auch ohne BOM relativ zuverlässig erkennen.
Sobald aber z.B. Unicode und oder asiatische Sprachräume ins Spiel kommen können, dann kann man es eigentlich vergessen und man ist auf ein BOM oder externe Informationen angewiesen.

Wie gesagt, wenn du jetzt nur von Multibyte-Codepages ausgehst, dann kommst du um eine Sprachanalyse nicht drumrum, da ein Byte nunmal ein Byte bleibt, egal was für ein Buchstabe sich darin versteckt.
Ob nun ein Byte, mit dem Wert $A9 z.B. ein deutsches Ä darstellt oder ein Russisches Irgendwas, das bkommst du aus diesem Byte niemals raus.
Sowas geht eben nur über eine Verbindung der umliegenden Bytes, z.B. indem man signifikante Muster der zu erkennenden Sprachen (codiert in mehreren Codepages) sucht.

Wenn man UTF-7 ignoriert, dann ist diesbezüglich ASCII das Einzige Format, welches man relativ sicher erkennen kann.


Wie gesagt, es gab in den letzten Jahren schonmal soein Thema und dieses wurde dann nach vielen Diskusionen unter dem Ergebnis "teilweise nicht zuverlässig genug und im Rest nicht lösbar" aufgegeben.
(wobei die Sprachanalyse damals auch, Aufgrund von "zu aufwändig" ignoriert wurde)


PS: Du kannst dein Vorhaben hiermit vergleichen:
http://www.delphipraxis.net/internal...t.php?t=177809
Nur daß du als Lösung das Passwort&Algorithmus (Codepage) suchst, womit dieser Text verschlüsselt (gespeichert) wurde.
Garbage Collector ... Delphianer erzeugen keinen Müll, also brauchen sie auch keinen Müllsucher.
my Delphi wish list : BugReports/FeatureRequests
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 22:54 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz