Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Algorithmen, Datenstrukturen und Klassendesign (https://www.delphipraxis.net/78-algorithmen-datenstrukturen-und-klassendesign/)
-   -   Wikipedia Text rauslesen (https://www.delphipraxis.net/160254-wikipedia-text-rauslesen.html)

mb1996 4. Mai 2011 17:09

Wikipedia Text rauslesen
 
Guckt doch mal diese Website an: http://www.pediaphon.org/~bischoff/r...dia/index.html
Mit dem Programm kann man Wikipedia-Artikel vorlesen lassen.
Wie kann man den Haupttext aus dem HTML-Code lesen?

himitsu 4. Mai 2011 17:36

AW: Wikipedia Text rauslesen
 
Es kommt darauf an, was du mit dem ausgelesenem text erreichen willst.

Das blose Vorlesen ist schon grenzwertig, mag aber vermutlich noch tolleriert werden,
aber ansonsten ist das Auslesen der Wikipedia ganz bestimmt nicht erlaubt. (und wenn es erlaubt ist, dann gibt es dafür meißt eine passende Schnittstelle)

geskill 4. Mai 2011 17:46

AW: Wikipedia Text rauslesen
 
Wenn du den Quelltext von einer Webseite haben möchtest und diese keine API anbietet oder die entsprechende API ansprechen möchtest, geht das in der Regel über das normale HTTP Protokoll. Die Indys liefern dazu die passende Komponente und ich hatte vor ein paar Tage ein Tutorial dazu geschrieben (http://www.delphipraxis.net/160152-i...protokoll.html).

mb1996 4. Mai 2011 18:03

AW: Wikipedia Text rauslesen
 
Ich möchte bestimmte Artikel aus einen Quellcode rauslesen. Wie ich den ganzen Quellcode bekomme weiß ich 8-)

BUG 4. Mai 2011 18:07

AW: Wikipedia Text rauslesen
 
Eventuell ist diese Seite für dich interessant: Seiten exportieren

-187- 4. Mai 2011 19:50

AW: Wikipedia Text rauslesen
 
Wenn du weisst wie man einen Quelltext ausließt, warum parst du diesen dann nicht einfach ?

Pos, PosEx, Copy sind deine Freunde.

Culxxaw 4. Mai 2011 20:42

AW: Wikipedia Text rauslesen
 
Zumal im Quelltext von Wikipedia zusätzlich zu den CSS Klassen und IDs sogar noch recht eindeutige Kommentare zu finden sind.

Delphi-Quellcode:
<!-- content -->
   <!-- firstHeading -->
   Überschrift
   <!-- /firstHeading -->
   <!-- bodytext -->
   Inhalt
   <!-- /bodytext -->
<!-- /content -->


Alle Zeitangaben in WEZ +1. Es ist jetzt 03:09 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz