AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Programmieren allgemein HTML einlesen, Parsen und Einträge zählen

HTML einlesen, Parsen und Einträge zählen

Ein Thema von toomuchcoffee · begonnen am 8. Jun 2021 · letzter Beitrag vom 21. Jun 2021
Antwort Antwort
toomuchcoffee

Registriert seit: 8. Jun 2021
2 Beiträge
 
#1

HTML einlesen, Parsen und Einträge zählen

  Alt 8. Jun 2021, 14:57
Hallo zusammen,

ich bin schon Ewigkeiten raus aus Delphi und war sicherlich eh nie so der Crack im Programmieren. Nun muss ich aber ein gefühlt riesengroßes HTML-Dokument analysieren bzw zählen. Das HTML-Dokument sieht im Prinzip aus wie ein Thread in einem Forum, allerdings sind die einzelnen Posts nicht in Seiten unterteilt sondern alle auf einer Seite dargestellt. Ich muss nun zählen, wie viele Einträge an einem bestimmten Datum getätigt wurden (sind insg. mehrere Tausend).

Im Prinzip also folgender Ablauf:
- HTML einlesen (kann ich die als TXT behandeln?)
- HTML parsen und Eintrag der Form XX.XX.XXXX, XX:XX suchen (Datum, Uhrzeit)
- erster Eintrag gefunden: Datum merken, Counter 1
- folgende Einträge, Datum alt? -> Counter +1
- folgende Einträge, Datum neu? -> altes Datum und Count ausgeben (Konsole oder Textbox o.ä.), neues Datum merken, Counter mit 1 initialisieren

Das sollte es ja eigentlich tun. Da es nur um eine Datei geht bzw. der Name gleich bleibt, kann dieser sogar hart codiert werden und die Daten sind nicht durcheinander, ganz zu Beginn steht immer der neuste Eintrag. Das Ergebnis ist dann beispielhaft hoffentlich eine Liste in der Form
Datum: 01.01.2021 - 104 Einträge
Datum: 02.01.2021 - 93 Einträge
usw.

Damit ich einigermaßen zügig voran komme könnt ihr mir vielleicht Komponenten nennen, mit denen ich das einigermaßen flott umsetzen kann? Hatte schon überlegt einfach per Hand zu zählen, aber so macht es vielleicht dann auch etwas Spaß statt das studpide zu zählen. Ich habe ein altes RAD Studio XE2 hier auf meinem Rechner.

Danke für jedwede Hilfe
TMC
  Mit Zitat antworten Zitat
Der schöne Günther

Registriert seit: 6. Mär 2013
6.093 Beiträge
 
Delphi 10 Seattle Enterprise
 
#2

AW: HTML einlesen, Parsen und Einträge zählen

  Alt 8. Jun 2021, 15:26
Das heißt, eigentlich musst du gar nichts auf HTML-Ebene parsen, sondern nur diese Text-Bestandteile finden, richtig?

Wenn ja, dann wäre die Sache mit regulären Ausdrucken evtl. sehr einfach zu lösen.
  Mit Zitat antworten Zitat
toomuchcoffee

Registriert seit: 8. Jun 2021
2 Beiträge
 
#3

AW: HTML einlesen, Parsen und Einträge zählen

  Alt 9. Jun 2021, 07:53
Ja, ich erinnere mich dunkel und ja, du hast recht. Das sollte klappen. Danke dir. Das ist alles schon so lange her, daran habe ich gar nicht gedacht.
  Mit Zitat antworten Zitat
davtix

Registriert seit: 29. Mai 2003
Ort: Berlin
87 Beiträge
 
Delphi 10.2 Tokyo Professional
 
#4

AW: HTML einlesen, Parsen und Einträge zählen

  Alt 21. Jun 2021, 17:31
Ziel, eine vorhandene Unit nach einem Quellcode durchsuchen (hier das gerade geschriebene Project selber ) und diesen in die Zwischenablage packen

ACHTUNG, nicht durchdacht, eher schnell hingetippselt. Funktioniert aber ...



auswahl in einem treeview ->
Code:

procedure TFormEinst.TreeView1DblClick(Sender: TObject);
type TproceArray    = Array of Array of string;
var node :TTreenode; myTreeView:TTreeView; pA: TproceArray; sT,eT :string;  indI, tempI :integer;
begin
  node := formeinst.TreeView1.Selected;
  myTreeView := formeinst.TreeView1;
  setlength(pA, 10,3);
  log(0, 'TV.Node: ' + node.Text );


  pA[0,0] :='copy_procedure_start';
  pA[0,1] :='procedure StarteProg( prog, P_DLL_DAT, para, user, U_DLL_DAT_PW : string; runAS, ADT, as_Thread, is_Thread :integer );';
  pA[0,2] :='end;// ENDE Procedure StarteProg //';

  pA[1,0]:= 'copy_function_GCP_array';
  pA[1,1]:= 'function GCP_array( RW , index : integer; wert1, wert2 :PChar ):string;';
  pA[1,2]:= 'end;  // function GCP_array ende';

  pA[2,0] := 'copy_TFormLOG_JvStringGrid1DrawCell';
  pA[2,1] := 'procedure TFormLOG.JvStringGrid1DrawCell(Sender: TObject; ACol, ARow: Integer; Rect: TRect; State: TGridDrawState);';
  pA[2,2] := 'end; //ende procedure TFormLOG.JvStringGrid1DrawCell';

  pA[3,0] := 'copy_procedure_EINSTELLUNG';
  pA[3,1] := 'procedure EINSTELLUNG( RW: integer; ObjName , wertS1, wertS2 :String; wertI, HalteOffen :integer );';
  pA[3,2] := 'end;   //procedure EINSTELLUNG end';

  pA[4,0] := 'copy_function_EINSTELLUNG_Records_IO';
  pA[4,1] := 'function EINSTELLUNG_Records_IO( func, s1, s2 :string):string;';
  pA[4,2] := 'end;//ende function EINSTELLUNG_Records_IO';

  pA[5,0] := 'copy_function_EINSTELLUNG_translate_WertS1';
  pA[5,1] := 'function EINSTELLUNG_translate_WertS1( s1 :string):string;';
  pA[5,2] := 'end;           //ende function EINSTELLUNG_translate_WertS1';

  pA[6,0] := 'copy_procedure_log';
  pA[6,1] := 'procedure log(svn: integer; msg :string );';
  pA[6,2] := 'end;//end procedure log';

// eintrag suchen

for indI := 0 to length( pA ) - 1 do
  begin
    if ( node.Text = pA[ indI,0] ) then
      begin
        tempI := indI;
        break;
      end;
  end;


  FormEinst.Memo2.Clear;
  Copy_Quellcodes( node.Text , pA[ tempI,1] , pA[ tempI , 2] );

end;

grundeinstellungen für parser setzen, treeview füllen usw. -->

Code:
Procedure Copy_Quellcodes( func, startTag, endTag :string );
var node :TTreenode; myTreeView:TTreeView;  indI:integer;
begin
log(1, 'Copy_Quellcodes-> func : ' + func + ' -> begin');
// PROBLEMCHEN ---> die Conditionen dürfen NICHT im zu durchsuchenden Dokument stehen <<<<<<<<<<<<<<
// date fup.pas laden - durchsuchen - inhalt is memo             or ( func = '00000000000000000')
  node := formeinst.TreeView1.Selected;
  myTreeView := formeinst.TreeView1;


if ( func = 'fill_treeview' ) then
  begin
    for indI := FormEinst.TreeView1.Items.Count - 1 downto 0 do
      begin
        node := formeinst.TreeView1.Items[ indI ];
        myTreeView.Items.Delete( node );
      end;

    node := myTreeView.Items.Add(nil, 'copy_procedure_start');
    node := myTreeView.Items.Add(nil, 'copy_function_GCP_array');
    node := myTreeView.Items.Add(nil, 'copy_procedure_EINSTELLUNG');
    myTreeView.Items.AddChild( node, 'copy_function_EINSTELLUNG_Records_IO');
    myTreeView.Items.AddChild( node, 'copy_function_EINSTELLUNG_translate_WertS1');
    node := myTreeView.Items.Add(nil, 'copy_procedure_log');

    node := myTreeView.Items.Add(nil, 'copy_TFormLOG_JvStringGrid1DrawCell');
  end;




if ( func = 'copy_procedure_start' ) or ( func = 'copy_function_GCP_array') or ( func = 'copy_procedure_EINSTELLUNG')
or ( func = 'copy_function_EINSTELLUNG_Records_IO') or ( func = 'copy_function_EINSTELLUNG_translate_WertS1') or ( func = 'copy_procedure_log') then
  begin
    // parser settings setzen
    Parser( 'set_PArrayZeilen', 1 );
    ParserArray[0,0] := 'E:\**********************\FuP.pas'; // pfad zur datei
    ParserArray[0,1] := 'FormEinst.Memo2'; // ausgabe element
    ParserArray[0,2] := '0'; // ergebnisvariante
    ParserArray[0,3] := '1'; // startTag und endTag mit einfügen 1/0

    //procedure_start suchstrings als
    ParserArray[1,0] := func;
    ParserArray[1,1] := startTag;
    ParserArray[1,2] := endTag ;

    Parser('parser_start',0);
  end;

if ( func = 'copy_TFormLOG_JvStringGrid1DrawCell' ) then
  begin
    // parser settings setzen
    Parser( 'set_PArrayZeilen', 1 );
    ParserArray[0,0] := 'E:\**********************\UnitLog.pas'; // pfad zur datei
    ParserArray[0,1] := 'FormEinst.Memo2'; // ausgabe element
    ParserArray[0,2] := '0'; // ergebnisvariante
    ParserArray[0,3] := '1'; // startTag und endTag mit einfügen 1/0

    //procedure_start suchstrings als
    ParserArray[1,0] := 'copy_procedure_start';
    ParserArray[1,1] := startTag;
    ParserArray[1,2] := endTag ;

    Parser('parser_start',0);
  end;

log(1,'Copy_Quellcodes-> func : ' + func + ' -> end');
end;
parser parameter setzen -->

Code:

function Parser( func: string; PArrayZeilen: integer ):string;
var indI : integer;
begin
// zeile 0 sind die einstellungen für den Parser
// 0 = pfad zur datei, 1 = ausgabeelement bsp:memo1 , 2 ausgabevariante, 3 = startTag und endTag mit einfügen 1/0
// array dynamischer inhalt 0 = Key, 1 = starttag, 2 = endtag;

if ( func = 'set_PArrayZeilen' ) and ( PArrayZeilen <> 0 ) then
  begin
    setlength( ParserArray , PArrayZeilen + 1, 5 );
    log(0,'Parser->set_PArrayZeilen: ' + inttostr( length(ParserArray) ));
  end;


if ( func = 'parser_start' ) and ( length( ParserArray ) > 1 ) then
  begin
    // zum lesen kann der parser direkt von datei lesen
    form1.JvHTMLParser1.FileName := ParserArray[0,0];     // pfad zur datei

    //parser suchstrings
    form1.JvHtmlParser1.ClearConditions;



    for indI := 1 to length(ParserArray) - 1 do
      begin
        form1.JvHtmlParser1.AddCondition( ParserArray[indi,0] , ParserArray[indi,1] , ParserArray[indi,2] , strtoint(ParserArray[0,2]) );
        log(0,'Parser->AddCondition->startT->' + ParserArray[indi,1] );
        log(0,'Parser->AddCondition->endT->' + ParserArray[indi,2] );
      end;

    //parser starten
    form1.JvHtmlParser1.AnalyseFile;  log(0,'Parser1.AnalyseFile');
  end;
end;

ergebnisse -->
Code:

procedure TForm1.JvHTMLParser1KeyFound(Sender: TObject; Key, Results,
  OriginalLine: string);
var indI :integer; compo : Tcomponent;
begin
  //ausgabe element suchen wenn vorhanden
  if ( ParserArray[0,1] <> '' ) then      // 1 = ausgabeelement bsp:memo1
    begin
      compo := nil;
      compo := FindComponentEx( ParserArray[0,1] );
      if ( compo <> nil ) then
        begin
          log(0,'Form1.JvHTMLParser1KeyFound->compo found');
        end else
        begin
          log(9,'Form1.JvHTMLParser1KeyFound->ERROR');
          EXIT;
        end;
    end;

  // arrayzeilen ermitteln

  for indI := 1 to length(ParserArray) - 1 do
    begin
      log(0,'Form1.JvHTMLParser1KeyFound->durchgang: ' + inttostr( indi ) +' key:' + ParserArray[indi,0] );

      if ( compo.ClassType = TMemo ) and ( key = ParserArray[indi,0] ) then
        begin
          log(0,'Form1.JvHTMLParser1KeyFound->key found');
          //startTag und endTag mit einfügen 1/0
          if ( ParserArray[0,3] = '1' ) then TMemo( compo ).lines.add( ParserArray[indi,1] );

          TMemo( compo ).lines.add( results );

          //startTag und endTag mit einfügen 1/0
          if ( ParserArray[0,3] = '1' ) then TMemo( compo ).lines.add( ParserArray[indi,2] );

          {zur ersten Zeile:}
          TMemo( compo ).Perform(EM_LineScroll, 0 , - TMemo( compo ).Lines.Count-1);

        end;



    end;
end;

schreiben wenn fertig -->

Code:
procedure TForm1.JvHTMLParser1KeyFoundEx(Sender: TObject; Key, Results,
  OriginalLine: string; TagInfo: TTagInfo; Attributes: TStrings);
  var compo : Tcomponent;
begin
// im array schreiben fertig
  log(0,'Form1.JvHTMLParser1KeyFoundEx->Parser Done');
  if ( ParserArray[0,1] <> '' ) then      // 1 = ausgabeelement bsp:memo1
    begin
      compo := nil;
      compo := FindComponentEx( ParserArray[0,1] );
      if ( compo <> nil ) then
        begin
          log(0,'Form1.JvHTMLParser1KeyFoundEx->compo found');

          clipboard.AsText := TMemo( compo ).Text;
        end else
        begin
          log(9,'Form1.JvHTMLParser1KeyFoundEx->ERROR');
          EXIT;
        end;
    end;
end;
  Mit Zitat antworten Zitat
Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht

Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 06:42 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz