AOL “frigiver” 20 millioner søgeord fra 650.000 af deres brugere.

AOL har for nyligt frigivet en rasende mængde data vedr. 658.000 af deres brugeres søgeadfærd. Dataen er ret omfattende og indeholder over 20 millioner søgninger udført af brugerne over en 3 måneders periode.

Mange kritikere angriber nu AOL for faktisk at afsløre nogle af brugernes identitet, idet søgeadfærden er ret afslørende. Dataen indholder nemlig anonyme bruger identiteter, men den er sorteret således, at en enkelt brugers søgninger kan sammenlignes og dermed gøres til genstand for (måske) at kunne finde identiteten på den enkelte bruger.

Dataen er nu fjernet fra AOL research område, men har selvfølgelig spredt sig som en steppebrand over hele nettet og kan downloades mange steder.

Nogle bloggere har analyseret dataen og fundet uhyre obskure søgninger og kombinationer af søgeord, som vi ikke vil gengive her. Jeg har set en del eksempler og er mildest talt noget overrasket – til trods for at have arbejdet med søgeord og søgeadfærd i mange år.

AOL kritiseres kraftigt for at dataen indeholder søgeord, som virker ret stødende på mange mennesker. Det handler bl.a. om voldtægter, selvmord, fremstilling af bomber, terrorisme, hvordan man planlægger et mord og mange andre uhyggelige søgninger. Læs evt. mere her.

Generelt er SEO-branchen dog ret begejstret, idet denne store mængde data giver mulighed for at lave interessante søgeordsanalyser og måske spotte trends og søgetermer, som man ikke før havde tænkt over. Desuden giver dataen et godt indblik i “den almindelige” brugers søgeadfærd, som i mange tilfælde er mere avanceret end jeg havde forventet at den typiske AOL-bruger. Interessant om ikke andet.

AOL er dog tilsyneladende ikke særligt “stolte” af deres stunt:

“This was a screw up, and we’re angry and upset about it,” Andrew Weinstein, an AOL spokesman said.

AOL hævder, at frigivelsen skulle være møntet på forskningsmiljøet, men blev opsnappet af offentligheden. “Hvis vi vidste, at dette ville ske, ville vi aldrig have frigivet dataen” siger AOL [via Reuters]

Hvad dælen havde de regnet med?! Data af denne type er utrolig populær blandt internettets markedsføringsfolk og personer med interesse i menneskets søgeadfærd.

En interessant vinkel er desuden, at præcis denne type data har Google kategorisk afvist at udlevere til den amerikanske stat tidligere på året.

Troede AOL virkelig at ingen udenfor “forskningsmiljøet” ville få fat i dataen? Er det i virkeligheden et PR stunt?!

Bedøm selv.

Læs mere hos:
Digg
News.com
Technorati
ComputerWorld

UPDATE:

Google udgav tidligere på året “en trillion ord“. Hvor de tilbyder data på en trillion ord – søgeord fra deres egne datacentrer:

We processed 1,011,582,453,213 words of running text and are publishing the counts for all 1,146,580,664 five-word sequences that appear at least 40 times. There are 13,653,070 unique words, after discarding words that appear less than 200 times.

Google arbejder med mange forskellige områder omkring deres søgemaskiner, og de skriver bl.a. på bloggen, at såkaldte “n-gram models” bruges til analyse af sprog, oversættelse, stavekontrol og mange andre områder i deres jagt på data. Jo mere jo bedre tilsyneladende:

We found that there’s no data like more data

Google mener, at den massive søgeordsstatistik har stor værdi for hele forskningen og miljøet, og derfor de det hele væk gratis. Hold øje med The Linguistic Data Consortium, som står for distributionen af 6 DVD skiver!

God fornøjelse.

Dette indlæg blev udgivet i Forskning og research, SEO, Søgemaskiner. Bogmærk permalinket.

En Kommentar til AOL “frigiver” 20 millioner søgeord fra 650.000 af deres brugere.

  1. Rasmus Sørensen skriver:

    Det tyder på, at det ikke var et presse stunt fra AOL’s side, da de har fyret flere medarbejdere på baggrund af skandalen. Blandt andet CIO Maureen Govern, en research manager og en ansat på søgemaskineprojektet hos AOL. Av.

Skriv en kommentar

Din e-mail-adresse vil ikke blive offentliggjort. Krævede felter er markeret med *

*

Disse HTML koder og attributter er tilladte: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>