adatbányászat

Adatbányász-barát, privacy ellenes RSS

Pár éve, Adatbányászati alkalmazások c. tantárgyamhoz írtam a következő szösszenetet.

Mondjuk ilyen egy alap RSS:

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE rss PUBLIC "-//Netscape Communications//DTD RSS 0.91//EN"
 "http://my.netscape.com/publish/formats/rss-0.91.dtd">

<rss version="0.91">

<channel>
<title>bme feeds</title>
<link>http://akarmii.hu/</link>
<description>bme feeds</description>
<language>hu-hu</language>

	<item>
		<title>bme-kth - Felvételi - Rajz alkalmassági vizsga beosztás</title>
		<link>http://www.kth.bme.hu/index.php?news_show&amp;amp;news_id=45546</link>
	</item>
	<item>
		<title>bme-kth - OEP-hez bejelentettek adatai</title>
		<link>http://www.kth.bme.hu/index.php?news_show&amp;amp;news_id=45538</link>
	</item>
</channel>
</rss>

Vannak más formátumok is, de szerintem a következő máshol is működik: Az oldalon az RSS-csatorna linkjét kell csak mindig változóan összeállítani, amire a felhasználó feliratkozik. Mondjuk ez az alap:

  • http://akarmii.hu/rss.xml

Ebből csinálhatunk ilyeneket, ha megvannak hozzá az adatok:

  • http://akarmii.hu/rss.xml?username
  • http://akarmii.hu/rss.xml?sessionid
  • http://akarmii.hu/rss.xml?randomnumber

A username a felhasználó neve az oldalon, ha nincs, akkor a cookie-ban lévő sessionid, amúgy meg generálhatunk minden oldalra egy véletlenszerű azonosítót. Elsőre ez utóbbi tűnik a legegyszerűbbnek, és ha nagy a lehetséges számok köre, akkor meg tudjuk hosszú távon is különböztetni egymástól a felhasználókat.

Ezután csak annyi kell, hogy ha az rss.xml (ami mondjuk egy PHP szkript, és nem statikus tartalom) talál valamit a kérdőjel után, azt a <link> tag-ek végére is beilleszti. Például:

<item>
	<title>bme-kth - OEP-hez bejelentettek adatai</title>
	<link>http://www.kth.bme.hu/index.php?news_show&amp;news_id=45538&id=rss_username</link>
</item>

Itt figyelni kell a megfelelő kódolásra, csak egy kérdőjel legyen az URL-ben stb., de megoldható.

Ezután ha RSS-ben található linkről jön vissza a felhasználó, akkor tudni fogunk róla. Adatbányászatnál pedig ugyanazok a módszerek használhatóak, mint a hírleveles adatbányászat esetén. Továbbá itt ténylegesen lehet figyelni, hogy benne van-e még az RSS olvasóban a csatornánk, hiszen azt az olvasóprogram periodikusan lekéri a szervertől.

Érdemes meghagyni, hogy az azonosító kitörlésével is működjön az RSS. Így azok is olvashatják a csatornát, akik nem akarják, hogy mindig tudjuk az IP-címüket.

Az RSS-hez még annyit, hogy ez közelebb áll az e-mailhez mint a böngészéshez abból a szempontból, hogy hányan használnak közösen egy e-mail címet, valamint egy böngészőt. Böngészőnél előfordulhat a közös használat, de ahogy az e-mail esetében is, az RSS-olvasónál valószínűleg nem lehet annyira jelentős. (Már csak az olvasott/nem olvasott hírek megkülönböztetésének igénye miatt is.)

Tartalom átvétel