Betragtninger fra Zooka land

Der er foregået rigtig meget siden sidst. Hovedfokus har været på meget af det man ikke lige ser, sådan er det nu engang med en søgemaskine, og dog. Der er kommet lidt mere grafik på Zooka, dog er det er slet ikke færdigt eller fastlagt endegyldigt. Men det er nu spændene at teste forskellige elementer af, da det er et område jeg har forsømt lidt.

I fejlretnings tegn

Jeg vil sige at der nu er næsten 100% styr på encodingen. Det har været en svær udfordring da internettet af natur er et fantastisk kaotisk sammensurium af veldefineret dokumenter og deres diametrale modsætninger, også selv om meget kommer i xml form. Det kræver noget ordentligt kode til den håndtering.

Som nævnt tidligere skal der således ryddes kraftigt op i indekset, og da det nok ikke bliver sidste gang der skal ryddes op i samme omfang, er det derfor planen at automatiserer dette punkt. Der var også lige en uheldig svipser, med et filter, der lukkede alle www. sub sites ude. (Beklager)

Efter jeg annoncerede at Zooka nu kunne tilslutte sig real-time søgemaskinerne, glemte jeg i min iver at opdaterer et lille sted. Nemlig den cache del der holder/holdte dybde søgningerne for en bruger. Det resulterede i en hulens masse fejl til brugerne fra søgemaskinen, der ikke kunne finde noget som helst. Det var til trods for at dét faktisk eksisterede og var søgbart - Cache systemet havde en anden dagsorden og fortalte de algoritmer der spurgte, at det hér, det findes altså ikke. (meget uheldigt)

Da den fejl så blev rettet, gik de store bots næste amok, og downloadede på livet løs, så var dét et problem, derfor:

Mere rå power

Infrastrukturen har desuden fået et ordentligt hak opad. Zooka operer nu i 100% gigabit intern – udvalgte steder på to gigabit - hvilke gør det muligt at lave spændende nye tiltag, og holde andre Bots stangen. Lige nu står der gigabit router og venter på at blive sat i produktion. Det bliver nok næste weekend det sker.

Så de mere dumme, dumme fejl!

Har du 1 havde jeg 2, næ 4! Selve fronten har/havde da også sine problemer, for at nævne et par stykke kan jeg berette at forsiden hos bla. Google eksisterede 4 gange – med www og uden samt med og uden default.aspx. Den var ikke god, og efter jeg rettede det og andre små ting kunne det ses i logfilerne på den gode måde.

Jeg kunne også se at det ikke lige var super smart at overføre camel-casing og pascal-casing principper ned på fil niveau – det sker gerne for en udvikler, så hold os i ørene! - da Google ser filen Tags.aspx og tags.aspx som selvstændige filer. Vupti, så havde jeg et par stykker af dem også, igen med samme indhold, og det får man ikke points for hos Google.

En lille side bemærkning
jeg kunne/kan se på mine log filer at Google altid crawler/gen crawler en URL bestemt efter længden: dvs. at "hans" altid bliver taget før "hansen" Det er jo fint, så kan man jo næsten styre en GoogleBot mere intelligent.

Zooka’s bigdaddy

ja, hvad er nu det for noget. Det er simpelthen duplikeret indhold, link spam m.v. jeg må her ærligt indrømme, at jeg ikke troede der var så meget. Men det er der, og en søgemaskine uanset størrelse og formål, bliver nød til at tage hånd om problemet, jo før jo bedre faktisk.

Jeg vil ikke sige at jeg havde syltede den del, jeg var bare ikke klar over af det var så ”stort” og udspekuleret. Ja nogle steder næsten genialt lavet. Men jeg skulle jo have en masse rå data indenbords før det kunne analyseres.

 

 

Tags:
Categories: Beretning | Beretninger

| Comments (7)

Comments

Comments are closed