Delphi-PRAXiS
Seite 6 von 6   « Erste     456   

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Sonstige Fragen zu Delphi (https://www.delphipraxis.net/19-sonstige-fragen-zu-delphi/)
-   -   PDF-Dokumente in eine Datenbank oder nicht (https://www.delphipraxis.net/183571-pdf-dokumente-eine-datenbank-oder-nicht.html)

Nersgatt 22. Jan 2015 07:45

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Oder nur ein inkrementelles Backup täglich machen und vielleicht nur wöchentlich ein Vollbackup.

Dumpfbacke 22. Jan 2015 08:46

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Zitat:

Zitat von IBExpert (Beitrag 1287216)

Wir nutzen gescannte pdfs schon seit mehr als 10 Jahren, um die in eine Firebird DB zu packen und haben ein kleines viewer programm da drauf, mit dem man im extrahierten Text in einer zweiten Blobtabelle mit fk auf den PDF in der PDFBlob Tabelle eine Volltextsuche machen kann.

Wie kann man den den Text einer PDF Datei extrahieren ? Nutzt Ihr dazu eine Texterkennung die aus einem Programm angesteuert wird oder wie bekomme ich so etwas den hin ?

Zitat:

Zitat von IBExpert (Beitrag 1287216)
Für das Auslesen der DB nutze ich eine SP, die einfach die Blobs aus der Produktions DB zu einem PK ausliest und wenn die dort nichts gefunden hat, dann sucht die eben per execute statement on external auf der Archiv DB.

Könnte ich hierzu einmal bitte ein Beispiel bekommen wie ich so etwas zaubern kann ? So etwas habe ich schon mal benötigt aber niemals hinbekommen. Ich hoffe ich habe es richtig verstanden habe. Ich habe hier zwei Datenbanken mit jewals einer Tabelle. Nun mache ich eine Suche und wenn der Datensatz nicht in der 1. DB ist wird in der 2. DB nachgesucht. Dises geht mit einem SQL ?

Des weiteren hatte ich noch eine Frage. Ich habe Delphi 7 un benutzte die IBX Komponeneten. Wie bekomme ich eine PDF Datei denn in die Datenbank rein und später erneut raus un sie anzuzeigen ? :oops:

Tanja

Sir Rufo 22. Jan 2015 08:49

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Zitat:

Zitat von Nersgatt (Beitrag 1287377)
Oder nur ein inkrementelles Backup täglich machen und vielleicht nur wöchentlich ein Vollbackup.

Wie sieht denn ein inkrementelles Backup von einer Datei aus?
(Denn darauf läuft es hinaus, wenn alle Dateien in der Datenbank sind)

Wie unterscheidet sich das vom Vollbackub? - Gar nicht :mrgreen:

Nersgatt 22. Jan 2015 08:50

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Zitat:

Zitat von Sir Rufo (Beitrag 1287384)
Zitat:

Zitat von Nersgatt (Beitrag 1287377)
Oder nur ein inkrementelles Backup täglich machen und vielleicht nur wöchentlich ein Vollbackup.

Wie sieht denn ein inkrementelles Backup von einer Datei aus?
(Denn darauf läuft es hinaus, wenn alle Dateien in der Datenbank sind)

Wie unterscheidet sich das vom Vollbackub? - Gar nicht :mrgreen:

Du kannst mit nbackup von Firebirddatenbank inkrementelle Backups erstellen:
http://www.firebirdsql.org/manual/de...e-backups-incr

Natürlich nicht auf Dateiebene.

mkinzler 22. Jan 2015 08:54

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Zitat:

Wie kann man den den Text einer PDF Datei extrahieren ? Nutzt Ihr dazu eine Texterkennung die aus einem Programm angesteuert wird oder wie bekomme ich so etwas den hin ?
Viele PDF-Dateien haben einen Volltextindex. Mit Acrobat o. ähnlichen Programmen kann man diesen auch nachträglich erzeugen lassen ( wenn notwendig auch per OCR z.B. wenn die Dokumente eingescannt wurden).
Zur Beschleunigung der Suche bietet es sich aber an, den Inhalt noch einmal gesondert zu Verwalten (Volltextindex o.ä.)

Perlsau 22. Jan 2015 09:41

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Zitat:

Zitat von Dumpfbacke (Beitrag 1287383)
Des weiteren hatte ich noch eine Frage. Ich habe Delphi 7 un benutzte die IBX Komponeneten. Wie bekomme ich eine PDF Datei denn in die Datenbank rein und später erneut raus un sie anzuzeigen ? :oops:

Zum Einlesen der PDF-Datei in den Speicher verwendest du TFilestream. Diesen kopierst du dann in einen TBlobstream:
Delphi-Quellcode:
Function TDatMod.FileToBlob(Feld: TField; Datei: String): Boolean;
Var
   S    : TStream;
   FileS : TFileStream;

begin
   Result := False;
   If Not FileExists(Datei) Then Exit; // aussteigen, wenn Datei nicht existiert
   If Not Feld.IsNull Then Feld.Clear; // Feld löschen, wenn es bereits befüllt ist

   Try
     S     := Feld.DataSet.CreateBlobStream(Feld, bmReadWrite); // Blob-Stream erzeugen
     FileS := TFileStream.Create(Datei, fmOpenRead); // File-Stream erzeugen

     Try
       S.CopyFrom(FileS, FileS.Size); // Inhalt des File-Streams in Blob-Stream kopieren
       Result := True;
     Finally
       FileS.Free; // File-Stream freigeben
       S.Free; // Blob-Stream freigeben
     End;
   Except
     on e:exception Do
     Begin
       If Assigned(FileS) Then FileS.Free;
       If Assigned(S) Then S.Free;
       GLD.Fehlertext := e.Message;
     End;
   End;
end;

DeddyH 22. Jan 2015 10:10

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Das Exception-Handling sollte man aber noch einmal überdenken, FileS kann im blödesten Fall ein Dangling Pointer sein, da kann man später doppelt auf Assigned prüfen, nützt nix.

IBExpert 22. Jan 2015 10:40

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Zitat:

Zitat von Dumpfbacke (Beitrag 1287383)
Könnte ich hierzu einmal bitte ein Beispiel bekommen wie ich so etwas zaubern kann ? So etwas habe ich schon mal benötigt aber niemals hinbekommen. Ich hoffe ich habe es richtig verstanden habe. Ich habe hier zwei Datenbanken mit jewals einer Tabelle. Nun mache ich eine Suche und wenn der Datensatz nicht in der 1. DB ist wird in der 2. DB nachgesucht. Dises geht mit einem SQL ?

hier der reale sp quelltext aus unserer BRP Software, aber du solltest schon wissen, nach welchem Blob PK du suchst, weil du den parameter id an die sp brpgetdatei übergibt. In der Spalte TEXT haben wir aber immer den Volltext aus den PDFs extrahiert, so das man darüber mit containing gut und vergleichsweise schnell beliebige Suchen kombinieren kann. Es liesse sich aber auch das ggf noch in eine andere DB auslagern, die man dann auf einer ramdisk liegen hat oder andere lustige verfahren, wie zum Beispiel n superserverinstanzen, jeweils an die cores gebunden, die jeweils nur die volltextdaten zu einem teil der gesamt db haben und so weiter, haben wir alles schon mal so gemacht. In IMG ist übrigens ein preview des pdfs, so das ich in einer vorschau zumindest schon mal die vorschau als kachel anzeigen kann, ohne einen pdf client starten zu müssen, der ja meistens auch nur eine datei zur zeit kann.

Code:
--info: diese tabelle gibt es in beiden datenbanken
CREATE TABLE DATEI (
    ID    BIGINT NOT NULL PRIMARY KEY,
    TXT   VARCHAR(80),
    TS    TIMESTAMP,
    DATEI BLOB SUB_TYPE 0 SEGMENT SIZE 1024,
    TEXT  BLOB SUB_TYPE 1 SEGMENT SIZE 1024,
    IMG   BLOB SUB_TYPE 0 SEGMENT SIZE 1024
);


--die proozeduren sind nur in der produktivdb

create or alter procedure BRPMOVEDATA (MAXDATE date)
as
declare variable ID bigint;
declare variable DATEI blob sub_type 0 segment size 1024;
begin
  for
    select datei.id, datei.datei
    from datei
    where datei.ts<:maxdate
    and datei.datei is not null
    into :id,:datei
  do
  begin
    execute statement ('update or insert into DATEI (ID, DATEI) values (:ID, :DATEI) matching (ID)') (ID:=ID,DATEI:=DATEI)
    on external 'brpdat';

    update datei set datei.datei=null where id=:id;
  end
end;

create or alter procedure BRPGETDATEI (
    IDX bigint)
returns (
    ID bigint,
    TXT varchar(80),
    DATEI blob sub_type 0 segment size 80,
    TS timestamp)
as
begin
  select
    datei.txt,
    datei.ts,
    datei.datei
  from datei
  where datei.id=:idx
  into :txt, :ts, :datei;
  if (datei is null) then
  execute statement ('select datei from datei where id=:id') (ID:=IDX)
    on external 'brpdat'
    into datei;
  id=idx;
  suspend;
end
brpdat ist ein serverseitiger alias in der alias.conf, der auf die archiv db verweist. das könnte auch ein connectionstring auf einen ganz anderen server sein. Mit dre Prozedur BRPMOVEDATA kannst du einen zeitpunkt festlegen, ab dem alle älteren PDFs in die archiv DB wandern. Wir rufen die per aufgabenplanung am monatsanfang auf und übertragen die dateien, die älter als 30 tage sind. vorher wird per batch und gfix die db auf readwrite und danach wieder auf readonly gesetzt.

IBExpert 22. Jan 2015 11:04

AW: PDF-Dokumente in eine Datenbank oder nicht
 
Zitat:

Zitat von Perlsau (Beitrag 1287375)
Aus Interesse: Wie lange dauert bei dir so ein Backup einer 10 Gigabyte Firebird-Datenbank? Ich hab eben mal bei mir nachgemessen. Das Backup meiner derzeit größten FB-DB mit ca. 2,7 GB dauerte 95 Sekunden auf demselben Laufwerk.

ist schon ein relativ guter Wert für nomale datenbank, d.h. übliche Verteilung maximal 10-20 Prozent Blobkram, der rest NON Blob daten. Dafür rechne ich auf brauchbaren Servern beim Backup 2-3 GB pro Minute. Das gibt aber aufgrund der sehr seriellen Bearbeitung der Daten noch keine Hinweis auf den Serverspeed, dafür ist der Restore wesentlich interessanter.

Eine reine BLOB Datenbank geht wesentlich schneller zu sichern. Hab gerade mal einen Kundenserver für den Test gequält und dessen 50GB Archiv DB (nur mit den ausgelagerten Blobs) wurde in 6 Minuten mit gbak gesichert, während der Srever und die db ganz normal vom Kunden benutzt wird.

Hardware sind jeweils die von uns gelieferten IFS Server, die nicht zaubern, aber auch nicht mit aller Gewalt (Virtualisierung, externe Storage, Raid, ...) jegliche Datenbankleistung auf USB Stick Niveau runterdrücken. Wer eine IBExpert vollversion (menü services-benchmark)hat, kann das ja mal mit seinem eigenen vergleichen: die Kiste hat einen Driveindex von 160% und einen cpu Index von 135% und kostet 2000€

Zum anderen Beitrag: inkrementelles Backup mit nbackup rate ich persönlich von ab, es sei denn, man hat extrem große Datenbank (250Gb oder noch mehr). wenn im Rahmen deine updates und deletes nämlich viele pages geändert wreden, dann sind die alle in der teilsicherung. wenn deine db 50% der pages verändert, wird deine Teilsicherung etwa 50% der originalgröße sein. Am zwiten Tag hättest du dann schon die gleiche größe wie beim normalen backup mit gbak. Spätestens am Ende der Woche wird es dann unsinn


Alle Zeitangaben in WEZ +1. Es ist jetzt 06:53 Uhr.
Seite 6 von 6   « Erste     456   

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz