Zookabot 1.0 BETA er sendt af sted i cyberspace. Denne gang skal den besøge ca. 450.000 sites (kun .dk) – Ved sidste besøg genererede det ca. 50 (mio) unikke sider, så det tager lidt tid at fuldføre dette gennemløb.
Nogle vil sikkert spørge: ”er der virkelig så mange .dk feeds?” Nej, desværre langt fra endnu, i hvert fald ikke i Zooka. Der er kun 370.000 unikke feeds registret i Zooka’s systemer. Af dem er der ca. 150.000 feeds, der indeholder fulde/halve fragmenter fra andre feeds – dvs. duplikeret indhold - enten fra samme site eller andre sites.
Desuden er der en mærkelig gruppe på ca. 10.000 mystiske feeds. Disse feeds er på ingen måde valide og indeholder ikke skyggen af xml, til trods for MIME typen angiver noget andet ved download.
Zookabot kan hente ca. 2.7 (mio) sider pr. dag – det er dét som den får lov til - dette tal er dog meget varieret grundet alverdens server opsætninger og force majeure. Dette giver en smugle pres på den ene IP som Zookabot bruger – linjen er en (60/60) mbit fiberlinje – derfor kan Zooka.dk svare lidt sløvt engang imellem indtil systemet får regnet lidt frem og tilbage på trafikken der skal ind og ud.
En ny algoritme i dette gennemløb testes:
-
”hvis et site genererer mere end 10 fejl (4xx eller 5xx)” så stopper Zookabot øjeblikkeligt sit foretagende på det pågældende site – ingen vil lave samme fejl som cuil’s bot - Alle fejl logges og sites med 8 - 10 fejl kan blive manuelt kravlet i Debug-mode. Denne metode har virket ret effektivt og løst mange udfordringer.
-
”hvis en URL giver en timeout (408 Request Timeout)” prøves der max 3 gange mod samme URL - hver gang efterfulgt af en kunstnerisk pause selvfølgelig - lykkes det ikke at skabe kontakt mistes pågældende URL.
Kommer Zookabot forbi et site du ejer eller er web-master på, og kan du se på statistikken den laver ballade – definitionen af dét er helt op til den enkelte – så e-mail mig, skab kontakt eller send en brevdue.. således dét kan blive løst i en fart.
Tags:
Categories: Zookabot