HTML parsen

Ich habe HTML-Texte mit ein bischen XML-Extras (Mobipocket Files fuer meinen Palm).

XML-Code:

			<HTML><HEAD><metadata>

<dc-metadata xmlns:dc="http://purl.org/metadata/dublin_core" xmlns:oebpackage="http://openebook.org/namespaces/oeb-package/1.0/">

<dc:Identifier id="uid">1khead</dc:Identifier>

<dc:Title>THE THOUSAND-HEADED MAN</dc:Title>

<dc:Author>A Doc Savage Adventure by Kenneth Robeson</dc:Author>

<dc:Creator>David Moynihan</dc:Creator>

<dc:Date>10/6/2001</dc:Date>

<dc:Copyrights>None</dc:Copyrights>

<dc:Publisher>Blackmask Online</dc:Publisher>

<dc:Subject></dc:Subject>

</dc-metadata>

</metadata>

<GUIDE>

<REFERENCE TYPE="toc" TITLE="Table Of Contents" HREF="1kheadcon.htm"  filepos="0000000783">

</GUIDE>

<METADATA HREF="xyz_metadata.htm"  filepos="0000379119"><hr></HEAD><BODY>

<DIV align=center>[img]BMP[/img] </DIV><hr><!"1KHEAD!>

</P>

THE THOUSAND-HEADED MAN</H4>

<A HREF="1khead.htm#1_0_2"  filepos="0000005174">Chapter 1. CELEBRITY

Der Rest ist einfaches HTML.
Ich will das Zeug parsen und die Extras entfernen und einfuegen koennen. Ich bin recht sicher das weder das XML noch das HTML valide sind.
Entsprechend moechte ich zumindest das HTML von den groebsten Fehlern befreien koennen. Namentlich verschraenkte oder ungepaarte Tags.

Was ich also brauche ist ein freier (vorzugsweise MPL aber nicht GPL) Parser dafuer.
Ich bitte um Empfehlungen.

Wenn ich das hinkriege, dann kann ich eBooks fuer Mobipocket generieren.

HTML parsen

HTML parsen

Forumregeln