6.1. ParseLinks modul

Sok oldalra jellemző, hogy az új információk egy rövidített változata megjelenik a főoldalon, a teljes hír elolvasásához pedig egy aloldalra kell navigálni a bevezető, vagy a bevezető mellett található linkre történő kattintással. Az ilyen oldalakhoz készíthető egy modul, amely a HTML kódban található linkekből hoz létre bejegyzéseket az RSS csatorna számára. Minden link egy bejegyzés. Ha új hír kerül fel az oldalra, akkor új bejegyzés kerül az RSS csatornába.

Az XHTML szabványnak megfelelő weboldalak esetén a linkek kinyerésére használható a SAX ([8]) vagy a DOM ([9]), de mindkét eszköz használhatatlan a weben oly gyakorta hibás, illetve nem érvényes HTML dokumentumok esetén. A megoldást egy speciális elemző jelenti, amely képes megbirkózni a weben fellelhető HTML fájlokkal. Ezt a 11.4. fejezet tárgyalja.

Tartalom átvétel