6.2. Minta alapú hírkinyerés, RegExp modul

Egy dinamikusan előállított weblap megjelenítésének oroszlánrészét a legtöbb esetben egy SQL lekérdezés és egy, a lekérdezés eredményét feldolgozó ciklus végzi. A ciklus a hírhez megfelelő HTML kódrészletbe, sablonba illeszti az aktuális rekord adatait (cím, bevezető szövegrészlet, link stb.). Ez a sablon tipikusan ritkán változik és a legtöbb esetben szabad szemmel is könnyű felismerni az oldal forrásában.

Egy ilyen sablonra készíthető egy reguláris kifejezés, amely az elkészült HTML kódból nyeri az SQL eredménytábla rekordjainak értékeit, amelyek az RSS csatorna elemeivé formázva továbbíthatóak a felhasználók felé. A felhasználók így nem csak oldalanként egy dátumot, és egy főoldalra mutató linket kapnak meg, hanem az egyes hírek címeit, bevezető szövegét és közvetlen hivatkozást a teljes hírt tartalmazó aloldalra – ezzel még kényelmesebbé téve az ilyen felépítésű weblapok figyelését. A működést megvalósító modulra ezentúl RegExpModule illetve RegExp néven fogok hivatkozni.

Gondolni kell arra is, hogy az átlagfelhasználók valószínűleg nehezen boldogulnak a reguláris kifejezésekkel, így számukra egy egyszerűbb felületet kell biztosítani az RSS csatornába kerülő adatok összegyűjtésére.

Tartalom átvétel