Varför blir det inte fler Twittercensus?

Twitter håller på att stänga ner sitt API 1.0 till förmån för version 1.1. Men det handlar inte bara om en uppgradering – samtidigt gör de om själva “rate limit”-systemet, alltså hur ofta och hur många gånger varje klient eller app får ställa frågor till Twitter. Sanningen är att det är flera år sedan de började strypa tillgången till API:t, och den typen av vitlistade konton som vi har (och som möjliggör att ställa 20 000 frågor per timme) har inte har delats ut på flera år. Så egentligen är det inte själva API-uppgraderingen som är problemet, utan snarare att samtidigt som Twitter fasar ut API1.0 så försvinner alla vitlistade konton.

Vad är det så som är så speciellt med behoven i Twittercensus? Jo, till skillnad från andra mätningar tittar inte Twittercensus alls på realtidsdata (det Twitter erbjuder via sitt “streaming API”). Istället fokuserar Twittercensus på relationer, och följer ett kontos alla relationer för att söka efter ytterligare svenskspråkiga konton. Det spelar alltså ingen roll om en person inte har skrivit sedan 2006 eller tweetar under tiden vi gör mätningen – har kontot skrivit på svenska ska den fångas in. Oavsett om vi har tillgång till alla Tweets som skrivs i hela världen så hjälper inte det, vi behöver fortfarande hämta alla relationer och de senaste tweetsen för alla konton från REST API:t. Det innebär minst två frågor till Twitter per konto (och många fler om konton har många följare eftersom maximalt 5000 relationer kan hämtas per fråga). Det går att köpa data från olika återförsäljare som samlar. Men de är alla fokuserade på realtidsdata eller tweets – och ännu har jag inte hittat någon som kan sälja den informationen som behövs för Twittercensus (alltså relationsdata).

De nya begränsningarna som införs kommer alltså att gälla för oss. Det innebär att varje timme kan vi ställa 60 frågor om följare, 60 frågor om följer och hämta tweets för 720 konton. Förutsatt att kontona i fråga följer och följs av mindre än 5000  kan vi scanna 60 svenska konton per timme, samt göra språkanalyser av 720 konton. Med tanke på att senaste Twittercensus sammanlagt scannade  analysera 6 171 929 twitterkonton och hämtade relationer från 475 474 konton skulle datainsamlingen ta 357 dagar.

Men en tanke har redan börjat gro [och som föreslogs av @beantin]: vad sägs om att vi distribuerar ut själva datainsamlingen på SETI-vis? På kvällen surfar ni in på en webbplats och lämnar datorn på. En dator skickar information om vilka konton som ska scannas och klienterna rapporterar in resultaten.

Eller så hjälper någon till med en kontakt på Twitter som förstår varför Twittercensus är ett häftigt projekt som borde få fortsätta! Eller så tar vi gärna mot andra tips och idéer!