11.4. Tagsoup

A modulokról szóló fejezetben három eset is említésre került, ahol a HTML fájlokat szükséges érdemben is feldolgozni, nem csak karakterek sorozatának tekinteni (ParseLinks modul, weblapok komplett figyelése, karakterkódolás meghatározása).

A weben fellelhető HTML fájlok többségéről nem mondható el, hogy érvényes, vagy akár csak jól formázott XML-ek lennének, így a szokásos eszközök (SAX, DOM) nehezen használhatóak a feldolgozásukra. Erre a problémára nyújt megoldást a tagsoup ([27]), amely SAX-kompatibilis parserként, SAX-interfészen keresztül teszi feldolgozhatóvá a HTML fájlokat.

Tartalom átvétel