Delphi-PRAXiS
Seite 3 von 3     123   

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Algorithmen, Datenstrukturen und Klassendesign (https://www.delphipraxis.net/78-algorithmen-datenstrukturen-und-klassendesign/)
-   -   FreePascal Eine sehr große textbasierte Datei durchsuchen? (https://www.delphipraxis.net/194540-eine-sehr-grosse-textbasierte-datei-durchsuchen.html)

begin.delphi 6. Dez 2017 10:41

AW: Eine sehr große textbasierte Datei durchsuchen?
 
Zitat:

Zitat von p80286 (Beitrag 1388046)

Wenn die Datei vorhanden ist, kennt man vllt. die Struktur, aber nicht den Inhalt. Der erschließt sich erst beim Lesen. Und irgendwie werde ich das Gefühl nicht los, daß es nicht darum geht einen Namen zu finden, sondern einen Datensatz, der an Hand eines Namens identifiziert wird.

Ja, das stimmt. Da muss der passende Nachname gefunden werden, und wenn das gefunden wird, muss das Jahr ausgelesen werden, wann es diesen Nachnamen gab. Mehr nicht.

bra 6. Dez 2017 10:47

AW: Eine sehr große textbasierte Datei durchsuchen?
 
Ich würde auch sagen dass die Daten in eine Datenbank überführt werden sollten. Alles andere ist doch ein Heidenaufwand mit vermutlich unterirdischer Geschwindigkeit.

jobo 6. Dez 2017 10:49

AW: Eine sehr große textbasierte Datei durchsuchen?
 
Zitat:

Zitat von begin.delphi (Beitrag 1388034)
Unter arbeiten meine ich die ged-Datei lesen. Aber auch nicht alles, sondern nur nach bestimmten Namen suchen. Und mit schnell meine ich irgendwelche Vorgehensweise (TFileStream oder ReadLn) die schneller als die restlichen ist. Aus diesen zwei wäre das z.B. TFileStream.

Arbeiten:
Gut, ich meinte eigentlich nur die funktionalen Seite. Was sind die "Arbeits"Szenarien/Anforderungen?
Einen(1) Namen suchen bedeutet idR in einer solchen Datei, dass man zunächst den ersten findet
-wenn die Codierung stimmt. Und:
Formatbedingt kommen solche Gemeinheiten dazu, das Werte in mehreren Zeilen verstreut stehen können, Steuerzeichen dazwischen. Das findet man ohne passende Algorithmen nie, wenn man die Rohdaten durchsucht.

Wie auch immer, findet man was, dann kann man weitersuchen, (über)springen, ausschließen, anzeigen usw.
Man kann auch alle Zeilen suchen, in denen dieser Name vorkommt
oder hier vielleicht besser alle Zeilengruppen, wo er vorkommt.

Schnell:
Auch hier interessiert mich eher, was schnell wäre in Sekunden, nicht welche Technik.
In einer 2 GB Logdatei Suche nach einem Wert der ziemlich am Ende steht dauert mit einem alten Ultraedit bei mir grad ca 30 Sekunden. Ein "gib mir alle Zeilen mit [einBestimmterWert]" hab ich noch nicht probiert, dauert vermutlich genauso lang, wenn es geht.

Worauf ich hinaus will:
Wenn Du nur 10 Namen suchen musst und dann fertig bist, nimm einfach einen geeigneten Editor.
Wenn du mehr "musst", dann wäre es bei dem Volumen nicht verkehrt, die Anforderungen genauer zu kennen und dann eine geeignete Technik zu suchen.

BTW
Es gibt Opensource Software, die GEDCOM kann. Hast Du die schon probiert? Versagen sie den Dienst?

P.S: Ich seh grad, das Thema Anforderungen und geeignete Technik ist eh schon im Gang.

himitsu 6. Dez 2017 11:33

AW: Eine sehr große textbasierte Datei durchsuchen?
 
Zitat:

Zitat von p80286 (Beitrag 1388046)
Zitat:

Zitat von himitsu (Beitrag 1388041)
...
Man könnte sich vorher auch einen Index aufbauen, wo der Anfang jedes Datensatzes in einer Namensliste steht, ...

Und der Index fällt vom Himmel?

aufbauen :zwinker:

Am Anfang einmal die Datei durchlaufen und in 'ner Liste das speichern (TStringList/TDictionary<>/...)

Es kommt vorallem darauf an wie oft er in dieser Datei was sucht.
Man kann den Inhalt auch in eine Datenbank schieben und dort weiterarbeiten.

p80286 6. Dez 2017 12:01

AW: Eine sehr große textbasierte Datei durchsuchen?
 
Zitat:

Zitat von himitsu (Beitrag 1388061)
Zitat:

Zitat von p80286 (Beitrag 1388046)
Zitat:

Zitat von himitsu (Beitrag 1388041)
...
Man könnte sich vorher auch einen Index aufbauen, wo der Anfang jedes Datensatzes in einer Namensliste steht, ...

Und der Index fällt vom Himmel?

aufbauen :zwinker:

Am Anfang einmal die Datei durchlaufen und in 'ner Liste das speichern (TStringList/TDictionary<>/...)

Genau! Den meisten von uns ist klar, das die Datei mindestens einmal vollständig gelesen werden muß. Alle weiteren Zugriffe sind dann je nach gewählter Technik weniger aufwendig. Nur es geht nicht ohne mindestens einmal vollständiges Lesen.

Gruß
K-H

himitsu 6. Dez 2017 13:52

AW: Eine sehr große textbasierte Datei durchsuchen?
 
Zitat:

Zitat von p80286 (Beitrag 1388065)
Nur es geht nicht ohne mindestens einmal vollständiges Lesen.

Wenn die Daten in der Datei sortiert sind, dann muß man nicht vollständig lesen.

https://de.wikipedia.org/wiki/Bin%C3%A4re_Suche
- zur Mitte
- den Anfang des Blocks suchen
- schauen ob passend oder größer/kleiner
- wenn nicht passend, dann zur Mitte des Blocks davor oder dahinter usw.

Delphi.Narium 6. Dez 2017 14:18

AW: Eine sehr große textbasierte Datei durchsuchen?
 
Die binäre Suche dürfte schwierig werden, man hat (selbst bei Sortierung) nicht eine Information pro Zeile (dann ginge das) sondern eine Information verteilt sich auf n bis m Zeilen.

Selbst wenn man das in eine Datenbank packt, muss man da erstmal eine 1 : n : m : keineahnungwieviele-Beziehung "aufbröseln".

Ein paar (kleine) Testdateien sind hier zu finden: http://www.familienbande-genealogie....ad/TestGED.zip

TiGü 6. Dez 2017 14:35

AW: Eine sehr große textbasierte Datei durchsuchen?
 
Wer sich mal richtig austoben will:
http://genealogyoflife.com/tng/gedcom/Royal92.ged

3010 Personen. Europäische Königshäuser.

Kostenlose Windows-Software zum Anschauen:
http://www.ahnenblatt.de/


Alle Zeitangaben in WEZ +1. Es ist jetzt 04:20 Uhr.
Seite 3 von 3     123   

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz