Søgemaskine retorik

Der har virkelig været en travl her på det sidste. I Zooka land er der aldrig kedeligt, først fik jeg lige lagt feed4me.dk ned – 2 gange - så noget må bare ikke ske.
Dernæst, er jeg jævnligt til møder om strategier og hvad der dertil tilhører – de mere kommercielle tiltag. De dele kommer jeg til at skrue gevaldigt op for i den nærmeste fremtid, hvilket bliver rigtigt interessant.

Her kommer Fatter med kost og spand 

Der bliver renset op i indekset nu. Det der konkret kommer til at foregå er, at der bliver oprettet et skyggeindeks hvor nye indlæg vil blive registret i.
Samtidig med at live indekset forbliver aktivt indtil et system ping har fuldført sit gennemløb - derefter skifter indekset.

Pt. er der over 700.000+ unikke feeds registeret i Zooka. Faktisk kommer der nye feeds ind - lige nu - i en 1:1 hastighed mod hvad der bliver behandlet, hvilket er ret vildt, hvis jeg selv skal sige det.

Derudover er der blevet rettet mange fejl siden sidst. Desværre har nogle af disse fejl, sat sit tydelige spor i indekset og/eller mangel på samme. f. eks, kastede Zooka forfatter informationen væk. Emne informationer blev i nogle tilfælde ikke fastgjort til en given side, men kun sektioner af teksten.

Kategorier på vej

Disse feeds vil blive opdelt i følgende tre hovedkategorier: Feeds, Blogs og Kommentarer. Det er målet at disse kategorier yderligere skal kunne opdeles i et mere emne orienteret hierarki – mere om det i en anden post.

Sprog

Zooka forstår betydningen af sprog – det skrevne sprog vel og mærke - Jo, den er god nok. 11 sprog er Zooka født med. Her er de: Dansk, Norsk, Svensk, Finsk, Tysk, Hollandsk, Engelsk, Fransk, Spansk, Italiensk, Russisk (for at få et andet alfabet med)

Selv om søgemaskinen kan tolke sprog er det på nuværende tidspunkt ikke søgbart – der er enkelte smuttere kan jeg se. Anyway, det er Zooka ved at blive forberedt til nu. Således bliver søgemaskinen ikke kun dansk. Jeg arbejder ud fra sub domæne teorien, og har følgende sprog strategi som jeg arbejder imod.
Dansk vil kunne findes på zooka.dk, Norsk vil befinde sig under domænet no.zooka.dk osv.

Ehm, hardware

Nu er der jo lige den ”lille” detalje omkring kapacitet, router etc. derfor lukkes der et sprog ind af gangen, også ser vi hvad der sker.

Målet er at ”Norden” først bliver lukket ind – dvs. Dansk, Norsk, Svensk og Finsk i nævnte rækkefølge.

 

Tags:
Categories: Beretninger

| Comments (4)

Betragtninger fra Zooka land

Der er foregået rigtig meget siden sidst. Hovedfokus har været på meget af det man ikke lige ser, sådan er det nu engang med en søgemaskine, og dog. Der er kommet lidt mere grafik på Zooka, dog er det er slet ikke færdigt eller fastlagt endegyldigt. Men det er nu spændene at teste forskellige elementer af, da det er et område jeg har forsømt lidt.

I fejlretnings tegn

Jeg vil sige at der nu er næsten 100% styr på encodingen. Det har været en svær udfordring da internettet af natur er et fantastisk kaotisk sammensurium af veldefineret dokumenter og deres diametrale modsætninger, også selv om meget kommer i xml form. Det kræver noget ordentligt kode til den håndtering.

Som nævnt tidligere skal der således ryddes kraftigt op i indekset, og da det nok ikke bliver sidste gang der skal ryddes op i samme omfang, er det derfor planen at automatiserer dette punkt. Der var også lige en uheldig svipser, med et filter, der lukkede alle www. sub sites ude. (Beklager)

Efter jeg annoncerede at Zooka nu kunne tilslutte sig real-time søgemaskinerne, glemte jeg i min iver at opdaterer et lille sted. Nemlig den cache del der holder/holdte dybde søgningerne for en bruger. Det resulterede i en hulens masse fejl til brugerne fra søgemaskinen, der ikke kunne finde noget som helst. Det var til trods for at dét faktisk eksisterede og var søgbart - Cache systemet havde en anden dagsorden og fortalte de algoritmer der spurgte, at det hér, det findes altså ikke. (meget uheldigt)

Da den fejl så blev rettet, gik de store bots næste amok, og downloadede på livet løs, så var dét et problem, derfor:

Mere rå power

Infrastrukturen har desuden fået et ordentligt hak opad. Zooka operer nu i 100% gigabit intern – udvalgte steder på to gigabit - hvilke gør det muligt at lave spændende nye tiltag, og holde andre Bots stangen. Lige nu står der gigabit router og venter på at blive sat i produktion. Det bliver nok næste weekend det sker.

Så de mere dumme, dumme fejl!

Har du 1 havde jeg 2, næ 4! Selve fronten har/havde da også sine problemer, for at nævne et par stykke kan jeg berette at forsiden hos bla. Google eksisterede 4 gange – med www og uden samt med og uden default.aspx. Den var ikke god, og efter jeg rettede det og andre små ting kunne det ses i logfilerne på den gode måde.

Jeg kunne også se at det ikke lige var super smart at overføre camel-casing og pascal-casing principper ned på fil niveau – det sker gerne for en udvikler, så hold os i ørene! - da Google ser filen Tags.aspx og tags.aspx som selvstændige filer. Vupti, så havde jeg et par stykker af dem også, igen med samme indhold, og det får man ikke points for hos Google.

En lille side bemærkning
jeg kunne/kan se på mine log filer at Google altid crawler/gen crawler en URL bestemt efter længden: dvs. at "hans" altid bliver taget før "hansen" Det er jo fint, så kan man jo næsten styre en GoogleBot mere intelligent.

Zooka’s bigdaddy

ja, hvad er nu det for noget. Det er simpelthen duplikeret indhold, link spam m.v. jeg må her ærligt indrømme, at jeg ikke troede der var så meget. Men det er der, og en søgemaskine uanset størrelse og formål, bliver nød til at tage hånd om problemet, jo før jo bedre faktisk.

Jeg vil ikke sige at jeg havde syltede den del, jeg var bare ikke klar over af det var så ”stort” og udspekuleret. Ja nogle steder næsten genialt lavet. Men jeg skulle jo have en masse rå data indenbords før det kunne analyseres.

 

 

Tags:
Categories: Beretning | Beretninger

| Comments (7)