![]() |
Suche Container-Klasse zur ERstellung eines Index
Hallo,
meine Frage in Kurzform: Kann mir jemand eine Container-Klasse empfehlen, die gut als Nachschlage-Index geeignet ist? Sie sollte dazu auf folgende Beschreibung passen: 1. Die Einträge sind sortiert nach Key: TDateTime. Value ist int64. 2. Schnelle Suche nicht nach dem Key: TDateTime, sondern nach Item[i].Time <= Key < Item[i+1].Time. Gesucht wird also nicht nur der Eintrag mit dem exakten Schlüsselwert, sondern der Vorgänger- und Nachfolger-Eintrag. Leider kenne ich keine Container-Klasse die das von sich aus unterstützt. 3. Schnelles Laden und Schreiben aus/von einer Datei. 4. Gut wäre die Verwendung von "Memory-Mapped Files", weil dann das Laden und Speichern praktisch entfällt. Im Gegenzug wäre das Sortieren, bzw. Einfügen, dann aber sicher sehr schwierig. Deshalb dies nur optional, als alternative Variante. Die lange Fassung meiner Frage, damit der Verwendungszweck gut beschrieben wird: Der Zugriff auf eine binären Daten-Datei soll beschleunigt werden, in dem ein Index (bzw. eine Index-Datei) aufgebaut wird. Die Daten-Datei enthält Zeitreihen Daten, die durch folgenden Code-Schnipsel beschrieben wird:
Delphi-Quellcode:
Die Datei kann beliebig groß werden (typisch sind 10.000.000 TDataRecord Einträge). Bei einer fehlerfrei geschriebenen Daten-Datei sind die Einträge nach Time aufsteigend sortiert (recs[i].Time<=recs[i+1].Time).
const
REC_PER_TILE = 4096; type TDataRecord = packed record Time: TDateTime; Value: double; end; TDataRecordArray = array[0..REC_PER_TILE-1] of TDataRecord; // Eine Kachel PDataRecordArray = PDataRecordArray; // Zeiger auf Kachel TIndexRecord = packed record Time: TDateTime; // Der Schlüssel im Index-Container RecNr: int64; // Der Verweis in die Daten-Datei end; Der Lesezugriff erfolgt Kachelweise über ein "Memory-Mapped File". Hier der Pseudocode ohne Index:
Delphi-Quellcode:
Mit Index würde ich unter 1. zuerst Prüfen, ob der Suchbereich sich durch einen Vorgänger und/oder Nachfolger einschränken lässt.
function ReadSeek(ATime: TDataTime; out RecNr: int64): boolean;
var Left, Right,dcnt: int64; MinTime, MaxTime, dt: TDateTime; TileNr: int64; recs: PDataRecordArray; cnt: integer; begin // 1. Suche initialisieren und auf gültigen Bereich beschränken Left := 0; Right:= RecordCount-1; MinTime:= StartTime; MaxTime:= EndTime; if (ATime ... ) then ... // binäre Suche bis gefunden found := False; repeat // 2. Schätze die Position in der Datei: dcnt:= (Right-Left); found := dcnt<=0; if found then break; dt := (MaxTime-MinTime)/ dcnt; RecNr := Left+(ATime-MinTime) / dt; // 3. zugehörige Kachel einlesen: TileNr := RecNr div REC_PER_TILE; Read(TileNr, recs, cnt); // 4. Im gelesenen Buffer recs den Vorgänger zu ATime suchen. Es gibt 3 mögliche Fälle: // 4.1 ATime gefunden. Sonderfall, dass i+1 in der nächsten Kachel liegt, hier nicht berücksichtigt found := (recs[i].Time<=ATime) and (recs[i+1].Time>=ATime); ... // 4.2 recs[0].Time>ATime Right := TileNr * REC_PER_TILE; MaxTime := recs[0].Time; ... // 4.3 recs[cnt-1].Time<ATime Left := (TileNr+1) * REC_PER_TILE; MinTime := recs[cnt-1].Time; ... until(found); end; Unter 3. könnte man dann, nach jedem Read Aufruf, recs[0] in den Container eintragen. So könnte man den Index nebenbei, bei der Benutzung, weiter aufbauen. Ich überlege, ob man sich das Laden und Speichern sogar sparen könnte, wenn man nach den Öffnen der Daten-Datei jede n-te Kachel liest und deren recs[0] in den Index einträgt. Bei kleinen Dateien ist n=1, also jede Kachel. Bei größeren Dateien wird solange n erhöht, bis die Anzahl der Lesevorgänge einen Grenzwert unterschreitet. Über Ideen und Anregungen würde ich mich freuen. |
AW: Suche Container-Klasse zur ERstellung eines Index
So wie du es beschreibst ist der Index-Record genauso groß wie der Daten-Record. Wenn du den Index komplett im Speicher halten kannst, dann kannst du auch direkt die Daten in den Speicher laden und sortieren.
TDataRecord enthält faktisch zwei Double (8 Byte) (was das packed schon mal überflüssig macht). Somit hat ein TDataRecord eine Größe von 16 Byte, was bei 10.000.000 Datensätzen weniger als 160 MB ergibt - sollte also problemlos alles in den Speicher passen. Speichert man die TDataRecords in einem TArray<TDataRecord> und baut sich einen IComparer<TDataRecord>, der auf den Time-Anteil prüft, kann man die TArray-Methoden Sort und BinarySearch verwenden um den exakten bzw. nächst-höheren Time-Eintrag zu finden. Ach ja, da das Array einen zusammenhängenden Speicherbereich verwendet, kann es auch relativ schnell aus einer Datei gelesen und in eine geschrieben werden. |
AW: Suche Container-Klasse zur ERstellung eines Index
Hallo Uwe,
Zitat:
Zitat:
Zitat:
Zitat:
|
AW: Suche Container-Klasse zur ERstellung eines Index
Zitat:
Danke Uwe! |
AW: Suche Container-Klasse zur ERstellung eines Index
Ich weiß zwar noch nicht wie der Index dann aufgebaut werden soll, aber hier mal ein paar Ansätze:
Delphi-Quellcode:
type
TTimeRecord<T> = record Time: TDateTime; Value: T; end; type TDataRecord = TTimeRecord<Double>; TDataArray = TArray<TDataRecord>; TIndexRecord = TTimeRecord<Int64>; TIndexArray = TArray<TIndexRecord>; function MakeIndexRecordComparer: IComparer<TIndexRecord>; begin Result := TComparer<TIndexRecord>.Construct( function(const Left, Right: TIndexRecord): Integer begin Result := CompareDateTime(Left.Time, Right.Time); end ); end; var FIndex: TIndexArray; procedure SortIndex; begin TArray.Sort<TIndexRecord>(FIndexArray, MakeIndexRecordComparer); end; function FindIndexValue(const ATime: TDateTime; out AIndex: Int64): Boolean; var foundIndex: NativeInt; begin var item: TIndexRecord; item.Time := ATime; Result := TArray.BinarySearch<TIndexRecord>(FIndexArray, item, foundIndex, MakeIndexRecordComparer); { falls bei nicht gefunden der kleinere Record verwendet werden soll } // if not Result then // Dec(foundIndex); if not Result and (foundIndex < 0) then begin AIndex := -1; Exit; end; AIndex := FIndexArray[foundIndex].Value; end; |
AW: Suche Container-Klasse zur ERstellung eines Index
Uwe, ich kann meine Begeisterung kaum Ausdruck verleihen - Ich freue mich wie Rumpelstilzchen!
SortIndex werde ich nicht brauchen, weil es ein Fehler wäre, wenn es einen Rücksprung bei der Aufnahmezeit gibt. Dann wäre eine Reparatur der Daten nötig. Das muss ich nur erkennen und den Anwender entscheiden lassen. Zwischenzeitlich hatte ich einen einfachen Testfall geschrieben, bei dem ich für 1024*1024*1024 Daten-Records jede 4096 Records große Kachel einlese und in den Index stecke. Das ist zwar noch zu langsam, aber nach deiner Vorlage ist es sehr einfach einen kleineren Index aufzubauen und zwischen den Stützstellen einfach linear zu interpolieren, so wie oben angedacht. Das wird so schnell, dass ich mir ein Speichern und Laden sparen kann. Vielen, vielen Dank! |
Alle Zeitangaben in WEZ +1. Es ist jetzt 11:12 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz