AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Win32/Win64 API (native code) Delphi Viele Dateien performant einlesen

Viele Dateien performant einlesen

Ein Thema von Der schöne Günther · begonnen am 28. Apr 2014 · letzter Beitrag vom 30. Apr 2014
Antwort Antwort
Seite 1 von 4  1 23     Letzte » 
Der schöne Günther

Registriert seit: 6. Mär 2013
6.093 Beiträge
 
Delphi 10 Seattle Enterprise
 
#1

Viele Dateien performant einlesen

  Alt 28. Apr 2014, 12:12
Ich habe eine Vielzahl (ein paar Tausend) CSV-Dateien. Die möchte ich allesamt auswerten.

Der naive Ansatz
  1. Datei einlesen mit TStrings::LoadFromFile(..)
  2. Datei zerstückeln mitmyStrings.Split(..)
  3. Eventuell weitere Verarbeitung

funktioniert auch bestens. Es dauert aber zu lange. Bei ca. 5000 Dateien zu 24 KB braucht das Delphi-Programm auf meinem System (mit SSD) ca. 45 Sekunden.

Der Flaschenhals ist eindeutig (und überraschenderweise) TStringList::LoadFromFile . Lade ich genau die gleiche Datei ein zweites mal ein, ist das in "Null Millisekunden" getan.

Es wird also technisch:
  • Windows
  • NTFS-Dateisystem. Clustergröße wahrscheinlich fest 512 Bytes.
  • Eine Menge von Dateien im gleichen Verzeichnis möglichst schnell in den Speicher befördern

Was muss ich tun? Gibt es etwas, um alle Dateien einmal am Stück zu holen? Windows' Memory Mapped Files habe ich bislang immer nur für das Gegenteil- Viele, andauernde Operationen auf großen Dateien gehört...
  Mit Zitat antworten Zitat
Benutzerbild von Uwe Raabe
Uwe Raabe

Registriert seit: 20. Jan 2006
Ort: Lübbecke
10.934 Beiträge
 
Delphi 12 Athens
 
#2

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 12:15
Beim zweiten Mal ist die Datei noch im Cache, dann geht das schneller.

Evtl. der Virenscanner?
Uwe Raabe
Certified Delphi Master Developer
Embarcadero MVP
Blog: The Art of Delphi Programming
  Mit Zitat antworten Zitat
Der schöne Günther

Registriert seit: 6. Mär 2013
6.093 Beiträge
 
Delphi 10 Seattle Enterprise
 
#3

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 12:19
An Virenscanner habe ich jetzt nicht gedacht. Aber ja, das sollte ich auch mal testen.

Aber dass es am Windows-Datei-Cache liegt ist klar. Ich weiß von Anfang an, welche Dateien ich mir jetzt anschauen werde- Deshalb muss ich die doch sicher alle auf einmal einlesen können?
  Mit Zitat antworten Zitat
Benutzerbild von Uwe Raabe
Uwe Raabe

Registriert seit: 20. Jan 2006
Ort: Lübbecke
10.934 Beiträge
 
Delphi 12 Athens
 
#4

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 12:47
An Virenscanner habe ich jetzt nicht gedacht. Aber ja, das sollte ich auch mal testen.

Aber dass es am Windows-Datei-Cache liegt ist klar. Ich weiß von Anfang an, welche Dateien ich mir jetzt anschauen werde- Deshalb muss ich die doch sicher alle auf einmal einlesen können?
Das wird an der Zeit, die Windows zum Lesen braucht, nicht viel ändern.
Uwe Raabe
Certified Delphi Master Developer
Embarcadero MVP
Blog: The Art of Delphi Programming
  Mit Zitat antworten Zitat
Der schöne Günther

Registriert seit: 6. Mär 2013
6.093 Beiträge
 
Delphi 10 Seattle Enterprise
 
#5

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 13:03
Ich weiß nicht. Deshalb frage ich ja.

Meine Hoffnung ist, dass es deutlich besser wird zu sagen
Zitat:
Lies alle Dateien im Verzeichnis X
als 5000x zu sagen
Zitat:
Lies Datei X
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
43.017 Beiträge
 
Delphi 12 Athens
 
#6

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 13:05
Nein, kannst du nicht.

Du kannst maximal das machen, was z.B. MSOffice, Adobe und Co. machen. Die haben einen Service im Hintergrund laufen, welcher ihre (vermutlich) benötigten Dateien bereits beim Windowsstart und regelmäßig immer wieder läd, damit sie in der Windows-File-Cache landen und es dann schneller geht, wenn du irgendwann eventuell mal dein Office startest.



Du könntest die Dateiliste schneller erstellen, denn auch das auslesen (vorallem großer Verzeichnisse) dauert "ewig".
Aber dafür müsstest du dich z.B. direkt an die MFT wenden. (aber auch so kann man ein PreFetch erzwingen, indem das Verzeichnis schonmal vorher in den WFC geladen wird)

OK, wenn du Admin Backup-Rechte besitzt, dann kannst du die Dateien direkt aus dem Dateisystem ziehen und wenn du diese vorher schön hintereinander gelegt hast (defragmentiert und neu positioniert), dann könntest du sie nun in einem Ruck schnell einlesen.
Garbage Collector ... Delphianer erzeugen keinen Müll, also brauchen sie auch keinen Müllsucher.
my Delphi wish list : BugReports/FeatureRequests

Geändert von himitsu (28. Apr 2014 um 13:38 Uhr)
  Mit Zitat antworten Zitat
Benutzerbild von Union
Union

Registriert seit: 18. Mär 2004
Ort: Luxembourg
3.487 Beiträge
 
Delphi 7 Enterprise
 
#7

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 13:14
Du könntest aber mehrere Threads zur Verarbeitung einsetzen, vielleicht wird es dann schneller.
Ibi fas ubi proxima merces
sudo /Developer/Library/uninstall-devtools --mode=all
  Mit Zitat antworten Zitat
Dejan Vu
(Gast)

n/a Beiträge
 
#8

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 13:17
Du könntest aber mehrere Threads zur Verarbeitung einsetzen, vielleicht wird es dann schneller.
Auch bei einer SSD? Bei ner HDD ist der Lesekopf doch der Flaschenhals,...
  Mit Zitat antworten Zitat
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
43.017 Beiträge
 
Delphi 12 Athens
 
#9

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 13:21
Bei einer SSD kommt es auf die Controller an, wie viele Leseoperationen dort parallel behandelt werden können. Und auch auf die anderen Caches, wie und ob sie beim MultiThreading die Daten verwalten/blocken.

Bei Festplatten macht ein paralleles Lesen alles viel Schlimmer, da der Lesekopf dort womöglich/bestimmt mehr hin und her rennen muß, als wenn man das sequentiell lesen würde ... Besser wird nichts, höchstens langsamer. (außer die Daten liegen bereits im Cache)



Das Einzige was man noch machen kann, ist die Cache zu umgehen. (MSDN-Library durchsuchenFILE_FLAG_NO_BUFFERING)
Beim "ersten" Laden ist es dann einen Hauch schneller, wenn andere Daten nicht erst aus dem Cache rausgeworfen werden müssen.
Aber beim zweiten Durchgang ist es dann langsamer, da die Dateien ja nicht im Cache gelandet sind.
Allerdings ist es insgesamt dennoch schneller, wenn man mehr Daten lesen will, als freier RAM zur Verfügung steht.

Deine Dateien sind aber auch so klein, daß vermutlich MSDN-Library durchsuchenFILE_FLAG_SEQUENTIAL_SCAN nichts bringt, da es impliziet schon gemacht wurde, vorallem wenn die Sektorgröße Clustergröße groß genug ist.


MMF ist eher für RandomAccess geeignet, oder wenn man direkt in dem speicher mit Pointern rumrennen will, ohne einen eigenen Buffer verwalten zu müssen.
Und bei so kleinen Dateien bringt das keinen großen Vorteil. Wobei auch und vorallem hier die Datei erst (nahezu unkontroliert) vom windows erst in den WFC geladen werden muß, dessen Speicher dann windows in deinen virtuellen RAM mappt/verlinkt.
Garbage Collector ... Delphianer erzeugen keinen Müll, also brauchen sie auch keinen Müllsucher.
my Delphi wish list : BugReports/FeatureRequests

Geändert von himitsu (28. Apr 2014 um 13:24 Uhr)
  Mit Zitat antworten Zitat
Benutzerbild von user0815
user0815

Registriert seit: 5. Okt 2007
331 Beiträge
 
Delphi XE2 Professional
 
#10

AW: Viele Dateien performant einlesen

  Alt 28. Apr 2014, 13:22
Hatte hier im Forum mal was von einem "BULK INSERT" gelesen, habe allerdings keine Ahnung (da noch nie gemacht) ob dieser auch für viele Dateien geeignet ist.
  Mit Zitat antworten Zitat
Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht

Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 01:50 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz