«I motori di ricerca sono attori che prendono senza dare, che non producono contenuti ma poggiano la loro forza sulla tecnologia. Con software che somigliano a parassiti, hanno bisogno di un muro per arrampicarsi, cioè le informazioni dei giornali, ma poi lo distruggono prosciugandone le fonti pubblicitarie»
A lanciare questa pesante j’accuse è stato, nel 2007, Luca Cordero di Montezemolo, allora presidente Confindustria ed ex presidente Fieg. E questo è solo la punta dell’iceberg delle preoccupazione che oggi hanno gli editori con Google News. Infatti, Google News, è accusato di aggregare e diffondere contenuti prodotti dagli editori (soprattutto quelli di agenzie stampa e quotidiani) con sacrifici e costi, e per i quali, invece, Google non paga nulla.
Una soluzione: ACAP
Per risolvere il problema gli editori hanno proposto un nuovo protocollo di protezione dei contenuti editoriali online, chiamato ACAP (Automated Control Access Protocol, lanciato dalla World Association of Newspapers), che consentirebbe ai motori di ricerca di capire meglio le condizioni di utilizzo dei materiali e consentirebbe anche agli editori di controllare in quali modo aggregatori e motori di ricerca li usano. Insomma, attraverso questa specie di bollino digitale, il motore di ricerca saprebbe cosa fare con ciascuna pagina prodotta dall’editore: se usarla tutta, o solo una parte, o non usarla per nulla.
La soluzione attuale: Robots.txt
In realtà l’ACAP non è altro che la versione formale e mirata a Google News di un già efficiente sistema dedicato agli spider dei motori di ricerca: il Robots Exclusion Standard (standard per l’esclusione dei robot), un sistema che consentirebbe, attraverso la generazione di un file Robots.txt appositamente generato e formattato, di bloccare l’indicizzazione (anche ad un solo bot di motore di ricerca), di alcune pagine dei giornali online che, per questioni di copyright o altri motivi, non vogliano che i loro testi vengano ripresi dai motori di ricerca. Se non siete esperti, Google ha messo a disposizione un tool nella sezione Strumenti di Google per il Webmaster per autogenerare un file Robots.txt su misura per i crawler dei motori di ricerca.
Addirittura esistono meta tag espressamente dedicati al motore di ricerca Google e molto utili se si applicano a singole pagine web: uno (NOARCHIVE) che impedisce a Google di tenere una copia della pagina e rimuove dai risultati delle ricerche la visualizzazione del link con la dicitura “Copia cache”, mentre un altro (NOSNIPPET) che consente di rimuovere dai risultati delle ricerche lo “snippet”, ovvero l’estratto della pagina che Google crea “al volo” e che mostra sotto il link alla stessa.
Forse, l’unico vero problema, evidenziato dagli stessi editori, è che il sistema dei Robots è solamente un sistema di bloccaggio che dice solo “sì” o “no”, mentre ACAP comunica automaticamente con i motori di ricerca, dicendo ai robot interni che cosa devono fare con ciascuna pagina: pubblicala tutta, pubblicane solo una parte, assolutamente vietato toccarla.
Impossibile discriminare i bot di Google da quelli di Google News
Insomma, già esistono dei mezzi per avere un controllo maggiore su quante e quali pagine HTML far prelevare da quali spider. Il problema, però, è che al momento non esiste un Crawler dedicato a Google News per cui, con il file Robotx.txt si verrebbe esclusi sia da Google News che dal motore di ricerca Google, e credo che questa non sia la soluzione ideale per gli editori che vorrebbero comunque essere rintracciabili sul web (è noto che essere su Google significa essere visibili a tutto il mondo). Infatti, come si legge nella nota in Assistenza per Editori di Google News:
Posso richiedere la rimozione di un articolo o di un link inattivo da Google News?
Se desidera che il link ad uno dei sui articoli venga rimosso da Google News, ci contatti qui e procederemo alla rimozione richiesta. Le ricordiamo tuttavia che per evitare che il Googlebot indicizzi articoli o particolari sezioni del suo sito può utilizzare i file robots.txt e meta tags. Per ulteriori informzioni sui file robots.txt e meta tag, la invitiamo a visitare la pagina https://www.motoricerca.info/robots.phtml. Il Googlebot segue le stesse linee guide relative ai robots.txt sia per la Ricerca Google sia per Google News. Pertanto, se desidera rimuovere i suoi contenuti soltanto da Google News, la invitiamo a contattarci.
Come vedete, attualmente, non esiste un metodo rapido e veloce per non farsi indicizzare da Google News, senza però, sparire dal motore di ricerca Google!
In effetti, attualmente esistono solo i seguenti User-Agent di Google:
Googlebot
Googlebot-Mobile
Googlebot-Image
Mediapartners-Google
Adsbot-Google
Per risolvere velocemente il problema, basterebbe che, come è avvenuto per i feed rss di Google Blog Search con l’introduzione del crawler Feedfetcher , si crei un nuovo Google’s News Grabber. Infatti, al pari di Feedfetcher, che altro non è che uno spider usato dal motore di ricerca per visitare, leggere e raccogliere i contenuti di un feed, Google potrebbe creare una sorta di Newsfetcher per popolare i contenuti di Google News! A tal punto, basterebbe inserire questo bot nel file Robots e risolvere per sempre le diatribe che attualmente stanno animando gli editori online.
La posizione di Google
Insomma, a quanto pare gli editori non hanno tutti i torti e forse l’introduzione di un sistema come ACAP o, più semplicemente, una gestione più documentata e trasparente degli spider che alimentano Google News sarebbe auspicabile nel breve tempo.
In effetti, dal punto di vista degli editori, Google è un vero e proprio avversario che, pur non producendo direttamente contenuti, attraverso l’aggregatore di notizie Google News, potrebbe diventare un potentissimo concorrente sul piano del controllo dell’ accesso all’ informazione.
Google, intanto, non ne vuole sapere di Acap: inizialmente ha rivendicato il ruolo di Google News come assolutamente positivo a favore degli editori e del traffico dei loro siti. Google intende solo indirizzare traffico sui siti dei giornali e con Google News si aggregano solamente titoli e sommari delle notizie, facendo poi convogliare gli utenti verso i siti delle singole testate. Ne è un clamoroso esempio il sito del Financial Times che si è aperto a Google News nell’ottobre del 2007, mettendo a disposizione 30 articoli gratis al mese. Da allora quel sito ha avuto un incremento del traffico del 75%, con 230 mila nuovi utenti registrati!
In seguito, poi, Google è tornata sulle sue dichiarazioni che avevano suscitato scalpore, e ha precisato, per voce dell’amministratore delegato Eric Schmidt, che le uniche barriere da parte di Google all’ implementazione di Acap erano di natura tecnica, negando che la sua società fosse riluttante ad applicarlo per difendere i propri interessi. Il protocollo, così come è attualmente impostato, è incompatibile con la tecnologia di base di Google search, ma al momento la società sta valutando la possibilità di effettuare modifiche in modo che Acap possa funzionare secondo i criteri con cui lavora il motore di ricerca.
C’è anche da dire che, però, Google si è anche comportato bene nei confronti dei giornali online perché è stato molto attento a non monetizzare il marchio attraverso la pubblicità di Adsense: questa mossa avrebbe fatto infuriare ancora di più gli editori, i quali avrebbero potuto protestare accusando Google di fare soldi con i loro contenuti.
Insomma, come al solito la verità sta nel mezzo e la guerra tra Google News ed editori di giornali online avrà fine solo se ognuno farà la sua parte, per il bene di tutta la comunità internet!
Commenti Recenti