Zooka.dk kan nu tilslutte sig realtids søgemaskinerne

Fase 3 er i gang, endelig! og puha for en sværdfisk at få i land. Lige nu laver den et gigantisk system ping - og lad mig være ærlig, jeg aner overhovedet ikke hvordan systemet regerer - den har jo ligesom 400.000+ feeds den er bagefter der potentialitet kan have N antal enheder, der skal indsættes i sorteret lister m.v. – det går simpelthen imod enhver form for logik.

På den anden side, klare den dét her, er det en udmærket stress- og validerings test af de nye algoritmer.

Alt er alligevel skruet ned på lavt blus – så en real stress er det nok ikke, men alligevel - og der bliver kørt alle de moniteringsværktøjer jeg har til min rådighed.
Det er en nødvendighed, da debugging af de milliarder af ord Zooka jonglere med nu, ellers vil være ophørt når vores egen sol er brændt ud.

I første omgang koncentreres fokus omkring inserts, derefter kommer så deletes - der ikke er lavet 404 tests da jeg er lidt i vildrede omkring det mønster der skal vælges (mere om det i sin egen post) , men det kommer Daniel Smile - og til sidst updates.

Derudover kan jeg konstaterer at der skal laves nogle seriøse filtre til at håndtere spam, dupletter og andet gøgl. Puha, der kommer hele tiden noget på listen.
Lige nu, er det sådan: at et filter der hæver flaget og siger "spam/støj" automatisk vil fjerne den pågældene side, så den IKKE bliver indsat. Det kommer der styr på så snart de dele af systemet er trænet lidt mere (neurale netværk)

9jdshuk67e

 

Tags:
Categories: Realtime | Zooka

| Comments (1)

De første skridt mod realtime

Udviklingen med at implementerer realtime systemet i Zooka skrider fremad. Om det så gør det i et rimeligt tempo, ville være en overdrivelse. Det går praktisktalt langsomt lige nu. Ikke fordi jeg skyder fra hoften når det gælder nyudvikling og bare prøver mig frem – det kan man også engang i mellem, bare man er klar over konsekvensen - mere fordi jeg går med livrem og seler lige nu.

Dem der har fulgt lidt med på twitter.com/ZookaDK har sikkert bemærket at det gik både op og ned. Faktisk mangler der lidt før trin 1 et helt komplet. Zooka er stort system fordelt på mange maskiner, og det kræver fuldt fokus at opdaterer så meget på én gang.

Og ved i hvad, den klassiske fejl viste sit grimme ansigt. En simpel konfiguration fil manglede at blive opdateret, hvilket resulteret i et systemnedbrud på én time, indtil jeg fik lokaliseret den - Jeg må få bygget noget automatisk deploy snart!

Jeg er kommet frem til at en fuld implementering bliver lidt som en tretrins raket. Først og fremmest skal hele backend delen opdateres, således den kan håndtere syndikations data og ikke bare ekkoer fra Zookabots normale runder.

Det system der kontrollerer Zookabots runder, skal derfor til at opererer med to spor. Det store spor håndterer praktisk talt alle sites som Zooka kender – ligge et site der, tager det lang tid før ændringer ses.

Det lille spor vil være realtime sporet. For at forebygge at et site besøges mere end en gang på en runde, må samme site derfor aldrig eksistere i begge spor samtidig. Men et site der befinder sig i det lille spor kan praktisk talt godt besøges flere gange, selv om det store spor ikke er fuldført.

Hvordan bliver et site så flyttet til realtime sporet?

For at kickstarte realtime systemet vil samtlige sites der ligger i det store spor vil blive løbet igennem, og har et site bare skyggen af et feed bliver det overført med det samme. Bemærk dette sker kun én gang, via en specialbygget applikation til formålet.

Zooka tror på at alle sites med et xml feed opdaterer deres indholdet jævnligt. Derfor simuleres der et globalt system ping 1 gang i døgnet. Dette vil sende Zookabot af sted mod samtlige feeds i systemet – 406.489 lige nu.

For at give Zookabot et beslutnings mandat, har den feed informationer med i bagagen om den pågældende URL. Hvis der er tilføjet nyt indhold som kan aflæses i et eller flere feeds, vil Zookabot på baggrund af historikken omkring opdateringsfrekvensen, anmode om flytning af domænet til realtime sporet, eller tilbage til det sløve spor, hvis der ikke sker øjensynlige ændringer i en periode. Derefter overdrages det nye feed til syndikations systemet.

Et ping er derimod en sikker vinder her, det vil følge samme metodik som et system ping men Zookabot behøver ikke her, at anmode om noget som helst, for den er der allerede i realtime sporet før Zookabot sendes af sted.

Ved en logfil analyse vil dette mønster snart vise sig i en nær fremtid.

 

Tags:
Categories: Realtime | Zookabot

| Comments (2)