Tempo di Lettura: 7 minuti
In questi giorni mi sono sorti alcuni dubbi sulla validità delle statistiche dei blog dopo aver letto interessanti post in giro per la blogosfera. Due in particolare mi hanno colpito: quello di TagliaBlog e quello di Tommaso Tessarolo.
In questi giorni stiamo assistendo ad uno stravolgimento epico delle classifiche e dei criteri di ranking dei blog, e ad una svalutazione del potere, fin’ora indiscusso, di Feedburner, a tutto svantaggio per coloro che con questi numeri ci vivevano. Per la maggior parte della media e bassa blogosfera (un buon 90-95%) ciò non stravolgerà molto la loro vita ma è un evento che comunque ha una sua importanza e che, almeno parzialmente, vede protagonista la blogosfera italiana in un panorama internazionale. Stiamo vivendo un periodo di transizione dove si ridefiniscono le regole del gioco e mi è sembrato opportuno spiegare cosa stesse accadendo.
I primi dubbi sulla validità della classifiche
TagliaBlog ha, infatti, evidenziato che alcuni blog autorevoli (blogstar) detengono posizioni di tutto rispetto nelle classifiche più autorevoli per i blog italiani (BlogBabel e Wikio) ma quando poi si vanno ad analizzare il numero di visite e di pagine viste si rimane sconcertati che, le stesse autorità della blogosfera contano non più di 1.500 pagine viste al giorno! Ma questo, non è un problema solo italiano, in quanto, da un recente sondaggio di Problogger, il il 35% dei votanti blogger ha risposto di avere meno di 100 visitatori al giorno. TagliaBlog conclude che:
Forse c’è qualcosa che non funziona nelle classifiche dei blog: i piazzamenti in BlogBabel e Wikio sono infatti calcolati (quasi) esclusivamente in base al numero/importanza dei link che il blog riceve (da altri blog)… un pò come il tanto amato/odiato PageRank, ma solamente circoscritto alla Blogsfera.
Forse bisognerebbe considerare altri parametri, […] come il numero “reale” di iscritti al feed […] il numero dei commenti, la presenza del blog all’interno dei vari social site… o tornare al caro vecchio numero di utenti unici e pageview (che ci renderebbe tutti un pò più nanetti davanti a certi giganti del web).
E’ interessante notare come un blog, può risultare autorevole anche pochi accessi. Infatti:
l’autorevolezza è sostanzialmente collegata al numero di citazioni (link) che si ricevono. Un pensiero postato su un blog molto autorevole, che però ha una media di soli 1000 visitatori al giorno, può essere ripreso da decine o centinaia di altri blog amplificando enormemente la platea. Mentre è molto più difficile che ciò accada con un blog meno autorevole nonostante abbia magari 3000 visitatori.
Il caso Tessarolo e la risposta di Blogbabel
Tommaso Tessarolo, invece, fa finalmente chiarezza sul caso esploso nella blogosfera riguardo all’esplosione del numero dei feed reader conteggiati per il suo blog in seguito all’inclusione del suo flusso rss nella toolbar di Coolstreaming (il servizio italiano di P2PTV).
Infatti il problema è che ogni volta che un utente fa partire il proprio browser dove è installata la toolbar quest’ultima scarica automaticamente tutti i feed dei siti selezionati da Coolstreaming, che viene automaticamente contato da Feedburner, come una lettura del feed stesso.
Quindi in sostanza basta che un utente apra il proprio browser perché il feed count di Tessarolo veda per quel giorno un nuovo lettore, questo anche se l’utente in questione non vada mai a leggere effettivamente il contenuto delle notizie riportate in toolbar. La sola toolbar viene usata ogni giorno da oltre 70 mila persone. Ecco quindi che chiunque abbia la fortuna di essere selezionato per la toolbar di Coolstreaming (o di qualsiasi altro servizio analogo) veda il suo numero di feed reader crescere a dismisura, senza in realtà sapere quanti veri lettori possieda.
Blogbabel, la classifica ritenuta da molti come la più attendibile per misurare il ranking dei blog italiani, considerava nel computo totale del peso di un blog anche il numero dei suoi lettori ai feed RSS, dato preso direttamente da Feedburner. Ecco quindi che il blog di Tessarolo dalla 49° posizione assoluta in cui si trovava schizzò immediatamente alla 19° posizione, attirando l’attenzione di chi gestisce la classifica di Blogbabel, che il giorno dopo Blogbabel decise di non considerare più il numero dei miei lettori di feed di Feedburner per compilare la classifica, facendo quindi scendere il blog di Tessarolo dal 18° posto al 160° (e oltre al suo tanti altri, come il mio blog).
Oggi ho comunque visto che è ritornato alla posizione 18!
Il bug di Feedburner e come alterare il numero di iscritti ai feed
Insomma una vera e propria rivoluzione, uno stravolgimento epico delle classifiche dei blog ma il problema sollevato sul funzionamento di Feedburner si va a sommare ad un altro bug già noto da mesi, come i bravi Simone Carletti e Daniele Simonin, fecero notare all’epoca.
Infatti, sembra che navigando il proprio feed — e non il proprio blog — con una user agent opportunamente modificata è possibile falsare il numero di utenti iscritti al feed inducendo FeedBurner ad un calcolo errato.
Anche se apparentemente sembra un bug, in realtà è il metodo di funzionamento di Feedburner, uno dei sistemi di tracciamento dei feed più diffusi.
Questo perché l’arte della web analytics non è per nulla semplice. Infatti, tracciare il numero di iscritti al feed è molto complicato se si considera che il bot di Google, ad esempio, passa una sola volta indipendentemente se Google Reader conta 1 o 1000 iscritti al nostro feed. Come capire dunque se gli iscritti sono 1 o 1000? Sono nati così vari metodi per tracciare i visitatori:
- Conteggio della singola hit: Ogni qual volta arriva una richiesta al feed si verifica se in un certo arco di tempo è presente un’altra richiesta con lo stesso IP.
In caso affermativo il visitatore è lo stesso, in caso alternativo è un nuovo iscritto. - Conteggio del valore visitatori nella User Agent: Molti web aggregator, per ovvie ragioni di performance, visitano il feed una volta sola indipendentemente dal numero degli utenti iscritti. Per fornire un valore indicativo degli utenti iscritti inseriscono all’interno della user agent del proprio crawler un numero corrispondente al conteggio dei lettori.
- Conteggio del valore negli Header HTTP: Altri aggregatori, invece di fornire il valore di iscritti nella user agent lo accodano tra gli header HTTP inviati al client.
E’ infatti possibile aggiungere alla richiesta o risposta HTTP un numero indefinito di header non standard semplicemente anteponendo la stringa x- al nome dell’header.
Ad esempio:
x-subscribers: 123
A questo punto è facile riprodurre questo bug semplicemente modificando la user agent del proprio browser. Se usate Firefox potete installare l’estensione User Agent Switcher, da cui è possibile impostare la vostra user agent su una stringa riconducibile ad uno dei lettori per feed con indicazione di numero di iscritti, come ad esempio Bloglines:
Bloglines/3.1 (http://www.bloglines.com; 5001 subscriber)
Non appena visiterete il feed verrete tracciati da FeedBurner che identificherà la vostra user agent analizzando il contenuto e ciò causerà un aumento del numero dei visitatori di un valore almeno pari a quanto indicato nella stringa.
Il tool online Tessarolizr
E’ su tale principio che, Tony Siino fondatore di Blog Italia, per evidenziare il problema del conteggio di Feedburner facilmente alterabile, ha creato un tool online Tessarolizr dove chiunque in pratica può aumentare a piacere il numero dei lettori di un feed RSS, sfruttando per l’appunto l’anomalia di funzionamento di Feedburner, rendendo di fatto inaffidabili qualsiasi criterio di ranking per blog.
Il bello è che qualcuno ha avuto l’idea di raddoppiare il numero dei lettori di feed di Techcrunch, un famoso blog tecnologico americano.
Ciò ha prodotto un post sull’argomento sul blog di Techcrunch che ha subito sentito un parere di Feedburner (che vi ricordo è ora proprietà di Google), e che per bocca del suo CEO ha fatto sapere che:
Feedburner’s CEO Dick Costolo has confirmed it was a bug and that it will be fixed shortly.
Quindi ci è voluto che qualcuno toccasse gli interessi dei grandi siti americani per far ammettere a Feedburner l’evidente anomalia? In effetti, in gioco, vi sono campagne pubblicitarie da centiaia di migliaia o milioni di dollari che andrebbero in fumo se i criteri di ranking non si dimostrano affidabili e facilmente alterabili.
Questa delle statistiche di visita, in questo caso Feedburner, e’ un vero problema. E il problema nasce dal fatto che intorno a queste classifiche ci girano soldi, non e’ piu’ solo un modo per averne una soddisfazione personale. E’ anche difficile da risolvere in se perche’ qualsiasi sistema quando lo si conosce bene lo si puo’ anche aggirare, senza concentrarsi sulla qualita’ di quanto si scrive ma su altri mezzi.