AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

HTML parsen

Ein Thema von Robert Marquardt · begonnen am 28. Jul 2005 · letzter Beitrag vom 29. Jul 2005
 
Robert Marquardt
(Gast)

n/a Beiträge
 
#1

HTML parsen

  Alt 28. Jul 2005, 14:05
Ich habe HTML-Texte mit ein bischen XML-Extras (Mobipocket Files fuer meinen Palm).
XML-Code:
<HTML><HEAD><metadata>
<dc-metadata xmlns:dc="http://purl.org/metadata/dublin_core" xmlns:oebpackage="http://openebook.org/namespaces/oeb-package/1.0/">
<dc:Identifier id="uid">1khead</dc:Identifier>
<dc:Title>THE THOUSAND-HEADED MAN</dc:Title>
<dc:Author>A Doc Savage Adventure by Kenneth Robeson</dc:Author>
<dc:Creator>David Moynihan</dc:Creator>
<dc:Date>10/6/2001</dc:Date>
<dc:Copyrights>None</dc:Copyrights>
<dc:Publisher>Blackmask Online</dc:Publisher>
<dc:Subject></dc:Subject>
</dc-metadata>
</metadata>
<GUIDE>
<REFERENCE TYPE="toc" TITLE="Table Of Contents" HREF="1kheadcon.htm" filepos="0000000783">
</GUIDE>
<METADATA HREF="xyz_metadata.htm" filepos="0000379119"><hr></HEAD><BODY>
<DIV align=center>[img]BMP[/img] </DIV><hr><!"1KHEAD!>
</P>








THE THOUSAND-HEADED MAN</H4>




<A HREF="1khead.htm#1_0_2" filepos="0000005174">Chapter 1. CELEBRITY
Der Rest ist einfaches HTML.
Ich will das Zeug parsen und die Extras entfernen und einfuegen koennen. Ich bin recht sicher das weder das XML noch das HTML valide sind.
Entsprechend moechte ich zumindest das HTML von den groebsten Fehlern befreien koennen. Namentlich verschraenkte oder ungepaarte Tags.

Was ich also brauche ist ein freier (vorzugsweise MPL aber nicht GPL) Parser dafuer.
Ich bitte um Empfehlungen.

Wenn ich das hinkriege, dann kann ich eBooks fuer Mobipocket generieren.
  Mit Zitat antworten Zitat
 


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 20:28 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz