A modulokról szóló fejezetben három eset is említésre került, ahol a HTML fájlokat szükséges érdemben is feldolgozni, nem csak karakterek sorozatának tekinteni (ParseLinks modul, weblapok komplett figyelése, karakterkódolás meghatározása).
A weben fellelhető HTML fájlok többségéről nem mondható el, hogy érvényes, vagy akár csak jól formázott XML-ek lennének, így a szokásos eszközök (SAX, DOM) nehezen használhatóak a feldolgozásukra. Erre a problémára nyújt megoldást a tagsoup ([27]), amely SAX-kompatibilis parserként, SAX-interfészen keresztül teszi feldolgozhatóvá a HTML fájlokat.
Legutóbbi hozzászólások
9 év 12 hét
10 év 1 hét
10 év 5 hét
10 év 23 hét
11 év 25 hét
11 év 30 hét
11 év 31 hét
11 év 32 hét
11 év 42 hét
12 év 12 hét