Delphi-PRAXiS
Seite 1 von 4  1 23     Letzte »    

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Win32/Win64 API (native code) (https://www.delphipraxis.net/17-win32-win64-api-native-code/)
-   -   Delphi Viele Dateien performant einlesen (https://www.delphipraxis.net/180173-viele-dateien-performant-einlesen.html)

Der schöne Günther 28. Apr 2014 11:12

Viele Dateien performant einlesen
 
Ich habe eine Vielzahl (ein paar Tausend) CSV-Dateien. Die möchte ich allesamt auswerten.

Der naive Ansatz
  1. Datei einlesen mit
    Delphi-Quellcode:
    TStrings::LoadFromFile(..)
  2. Datei zerstückeln mit
    Delphi-Quellcode:
    myStrings.Split(..)
  3. Eventuell weitere Verarbeitung

funktioniert auch bestens. Es dauert aber zu lange. Bei ca. 5000 Dateien zu 24 KB braucht das Delphi-Programm auf meinem System (mit SSD) ca. 45 Sekunden.

Der Flaschenhals ist eindeutig (und überraschenderweise)
Delphi-Quellcode:
TStringList::LoadFromFile
. Lade ich genau die gleiche Datei ein zweites mal ein, ist das in "Null Millisekunden" getan.

Es wird also technisch:
  • Windows
  • NTFS-Dateisystem. Clustergröße wahrscheinlich fest 512 Bytes.
  • Eine Menge von Dateien im gleichen Verzeichnis möglichst schnell in den Speicher befördern

Was muss ich tun? Gibt es etwas, um alle Dateien einmal am Stück zu holen? Windows' Memory Mapped Files habe ich bislang immer nur für das Gegenteil- Viele, andauernde Operationen auf großen Dateien gehört...

Uwe Raabe 28. Apr 2014 11:15

AW: Viele Dateien performant einlesen
 
Beim zweiten Mal ist die Datei noch im Cache, dann geht das schneller.

Evtl. der Virenscanner?

Der schöne Günther 28. Apr 2014 11:19

AW: Viele Dateien performant einlesen
 
An Virenscanner habe ich jetzt nicht gedacht. Aber ja, das sollte ich auch mal testen.

Aber dass es am Windows-Datei-Cache liegt ist klar. Ich weiß von Anfang an, welche Dateien ich mir jetzt anschauen werde- Deshalb muss ich die doch sicher alle auf einmal einlesen können?

Uwe Raabe 28. Apr 2014 11:47

AW: Viele Dateien performant einlesen
 
Zitat:

Zitat von Der schöne Günther (Beitrag 1257236)
An Virenscanner habe ich jetzt nicht gedacht. Aber ja, das sollte ich auch mal testen.

Aber dass es am Windows-Datei-Cache liegt ist klar. Ich weiß von Anfang an, welche Dateien ich mir jetzt anschauen werde- Deshalb muss ich die doch sicher alle auf einmal einlesen können?

Das wird an der Zeit, die Windows zum Lesen braucht, nicht viel ändern.

Der schöne Günther 28. Apr 2014 12:03

AW: Viele Dateien performant einlesen
 
Ich weiß nicht. Deshalb frage ich ja.

Meine Hoffnung ist, dass es deutlich besser wird zu sagen
Zitat:

Lies alle Dateien im Verzeichnis X
als 5000x zu sagen
Zitat:

Lies Datei X

himitsu 28. Apr 2014 12:05

AW: Viele Dateien performant einlesen
 
Nein, kannst du nicht.

Du kannst maximal das machen, was z.B. MSOffice, Adobe und Co. machen. Die haben einen Service im Hintergrund laufen, welcher ihre (vermutlich) benötigten Dateien bereits beim Windowsstart und regelmäßig immer wieder läd, damit sie in der Windows-File-Cache landen und es dann schneller geht, wenn du irgendwann eventuell mal dein Office startest.



Du könntest die Dateiliste schneller erstellen, denn auch das auslesen (vorallem großer Verzeichnisse) dauert "ewig".
Aber dafür müsstest du dich z.B. direkt an die MFT wenden. (aber auch so kann man ein PreFetch erzwingen, indem das Verzeichnis schonmal vorher in den WFC geladen wird)

OK, wenn du Admin Backup-Rechte besitzt, dann kannst du die Dateien direkt aus dem Dateisystem ziehen und wenn du diese vorher schön hintereinander gelegt hast (defragmentiert und neu positioniert), dann könntest du sie nun in einem Ruck schnell einlesen. :stupid:

Union 28. Apr 2014 12:14

AW: Viele Dateien performant einlesen
 
Du könntest aber mehrere Threads zur Verarbeitung einsetzen, vielleicht wird es dann schneller.

Dejan Vu 28. Apr 2014 12:17

AW: Viele Dateien performant einlesen
 
Zitat:

Zitat von Union (Beitrag 1257244)
Du könntest aber mehrere Threads zur Verarbeitung einsetzen, vielleicht wird es dann schneller.

Auch bei einer SSD? Bei ner HDD ist der Lesekopf doch der Flaschenhals,...

himitsu 28. Apr 2014 12:21

AW: Viele Dateien performant einlesen
 
Bei einer SSD kommt es auf die Controller an, wie viele Leseoperationen dort parallel behandelt werden können. Und auch auf die anderen Caches, wie und ob sie beim MultiThreading die Daten verwalten/blocken.

Bei Festplatten macht ein paralleles Lesen alles viel Schlimmer, da der Lesekopf dort womöglich/bestimmt mehr hin und her rennen muß, als wenn man das sequentiell lesen würde ... Besser wird nichts, höchstens langsamer. (außer die Daten liegen bereits im Cache)



Das Einzige was man noch machen kann, ist die Cache zu umgehen. (MSDN-Library durchsuchenFILE_FLAG_NO_BUFFERING)
Beim "ersten" Laden ist es dann einen Hauch schneller, wenn andere Daten nicht erst aus dem Cache rausgeworfen werden müssen.
Aber beim zweiten Durchgang ist es dann langsamer, da die Dateien ja nicht im Cache gelandet sind.
Allerdings ist es insgesamt dennoch schneller, wenn man mehr Daten lesen will, als freier RAM zur Verfügung steht.

Deine Dateien sind aber auch so klein, daß vermutlich MSDN-Library durchsuchenFILE_FLAG_SEQUENTIAL_SCAN nichts bringt, da es impliziet schon gemacht wurde, vorallem wenn die Sektorgröße Clustergröße groß genug ist.


MMF ist eher für RandomAccess geeignet, oder wenn man direkt in dem speicher mit Pointern rumrennen will, ohne einen eigenen Buffer verwalten zu müssen.
Und bei so kleinen Dateien bringt das keinen großen Vorteil. Wobei auch und vorallem hier die Datei erst (nahezu unkontroliert) vom windows erst in den WFC geladen werden muß, dessen Speicher dann windows in deinen virtuellen RAM mappt/verlinkt.

user0815 28. Apr 2014 12:22

AW: Viele Dateien performant einlesen
 
Hatte hier im Forum mal was von einem "BULK INSERT" gelesen, habe allerdings keine Ahnung (da noch nie gemacht) ob dieser auch für viele Dateien geeignet ist.


Alle Zeitangaben in WEZ +1. Es ist jetzt 08:28 Uhr.
Seite 1 von 4  1 23     Letzte »    

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz