2008. február 4., hétfő

Wikipédia - gráf

Szóval sokan meglepődtek rajta, de a wikipédia adatbázis dumpjai tényleg publikusak és letölthetőek (persze nem a felhasználók és jelszavaik). Ez most nem lesz túl tudományos: úgy 1 éjszaka alatt be lehet tölteni a scriptemmel PostgreSQL-be, az indexelés még úgy néhány óra. (Sokkal inkább proc- mint I/O-intenzív művelet, úgyhogy egy jobb géppel simán felezheted ezt az időt) A MySQL-be ennyi idő alatt nem sikerült, mert persze azt is próbáltam, csak nem ismerem annyira mint a postgrest és 3-4 nap után elfogyott a türelmem.
Valahol egy hack is került bele, mert a dumpban egy decimal oszlop méretéből kilóg már az első pár beinsertelendő érték is. Furcsa, ez a MySQL-nek nem tűnik fel?

Méretek:
  • ~11millió page, nem sok helyigény, pár giga - Ebbe csak a legfrissebb oldal-verziók értendőek bele
  • ~208millió pagelink, ez úgy 15 giga helyet zabált fel
  • ~1.5 millió redirect (itt van némi kavar, a constraint-ek hiánya miatt)
  • Valamennyi indexelés után úgy 40 giga lesz az ebből a pár táblából képezett adatbázis
Ennyi mára arról ami bárkit érdekelhet...

Ja és az Amex kiküldte a paypal tesztelésből származó tranzakciós logot postán, a4-es lapokra kinyomtatva. Szép vaskos boríták volt...