Som jag tidigare har skrivit om är det allt fler företag och organisationer som inser värdet av att tillgängliggöra sina data (och göra det på ett sätt som underlättar vidareförädling). Men även om så inte sker kan det finnas möjligheter att själv samla in data, eller ägna sig åt så kallad _data scraping_. Det innebär helt enkelt att man låter datorer samla in data och konvertera dem till någon bearbetningsbar form. Pete Warden gjorde precis det. Han skrev ett litet program som hämtade information om publika profiler hos Facebook, hyrde ett antal servrar hos Amazon och fick på så vis till en billig penning ett enormt dataset med information om 220 miljoner Facebook-användare. Med hjälp av den informationen kunde han se hur vänskapsband mellan amerikaner rent geografiskt sträcker sig mellan städer. Och han illustrerade dessa band med nedanstående karta.
Som ni ser har han delat in USA i olika kluster, som t.ex. Mormonia som i huvudsak består av städer i Utah. Där finns täta band mellan städerna, men relativt sett få har vänner i andra kluster. Pete har även tagit ut information om vilka namn som är vanligast i olika städer och områden och vad som är på toppen av olika gillar-listor. I San Franscisco är Barack Obama i topp, medan Glenn Beck är mer populär i östra Idaho. Läs mer i det här inlägget på Petes blogg.
Petes tanke var att han skulle dela med sig av datamaterialet till alla som var intresserade och framför allt till forskningen, men Facebook var inte lika glada och inför hot om stämningar valde han att förstöra datamaterialet. Han är dock enligt egen utsago inte så arg på Facebook längre.
Det finns dock en hel del intressant information att kolla in. Pete har skapat webbsidan Fan Page Analytics där man kan leka lite med de data som han samlade in från Facebook. Tyvärr har han inte kunnat uppdatera datamängden, utan den är från början av 2010. I alla fall, man kan kolla in Sverige och få en bild av hur vi svenskar var för ett drygt år sedan. Det man kan se är att det land där vi har flest vänner är USA följt av Norge. Våra vanligaste namn är Anna och Johan. Och i topp bland våra gillar-markeringar hamnar, stor trumvirvel, ICA-Jerry, följt av “Sverigedemokraterna i riksdagen - Nej tack” och “Älskar att bli kliad på ryggen”. Kolla själva här. Tyvärr finns ingen information om hur många svenskar detta bygger på.
Kolla även in Pete Wardens nya projekt Open Heat Map och hör honom själv berätta hela historien kring Facebook (och om Data Science Toolkit, som är riktigt coolt):
Watch live streaming video from gigaombigdata at livestream.com