Levysoft
  • Home
  • Portfolio
  • WordPress Plugin
  • Contattami

Dal 2004 il blog di Antonio Troise

RSS FeedTwitterFacebook
Apr 18 2008

Impossibile discriminare i bot di Google da quelli di Google News: gli editori propongono ACAP al posto del file Robots.txt per escludere i propri giornali solo da Google News e avere un controllo completo delle notizie

Posted by Antonio Troise
Tweet

ACAP «I motori di ricerca sono attori che prendono senza dare, che non producono contenuti ma poggiano la loro forza sulla tecnologia. Con software che somigliano a parassiti, hanno bisogno di un muro per arrampicarsi, cioè le informazioni dei giornali, ma poi lo distruggono prosciugandone le fonti pubblicitarie»

A lanciare questa pesante j’accuse è stato, nel 2007, Luca Cordero di Montezemolo, allora presidente Confindustria ed ex presidente Fieg. E questo è solo la punta dell’iceberg delle preoccupazione che oggi hanno gli editori con Google News. Infatti, Google News, è accusato di aggregare e diffondere contenuti prodotti dagli editori (soprattutto quelli di agenzie stampa e quotidiani) con sacrifici e costi, e per i quali, invece, Google non paga nulla.

Una soluzione: ACAP

Per risolvere il problema gli editori hanno proposto un nuovo protocollo di protezione dei contenuti editoriali online, chiamato ACAP (Automated Control Access Protocol, lanciato dalla World Association of Newspapers), che consentirebbe ai motori di ricerca di capire meglio le condizioni di utilizzo dei materiali e consentirebbe anche agli editori di controllare in quali modo aggregatori e motori di ricerca li usano. Insomma, attraverso questa specie di bollino digitale, il motore di ricerca saprebbe cosa fare con ciascuna pagina prodotta dall’editore: se usarla tutta, o solo una parte, o non usarla per nulla.

La soluzione attuale: Robots.txt

In realtà l’ACAP non è altro che la versione formale e mirata a Google News di un già efficiente sistema dedicato agli spider dei motori di ricerca: il Robots Exclusion Standard (standard per l’esclusione dei robot), un sistema che consentirebbe, attraverso la generazione di un file Robots.txt appositamente generato e formattato, di bloccare l’indicizzazione (anche ad un solo bot di motore di ricerca), di alcune pagine dei giornali online che, per questioni di copyright o altri motivi, non vogliano che i loro testi vengano ripresi dai motori di ricerca. Se non siete esperti, Google ha messo a disposizione un tool nella sezione Strumenti di Google per il Webmaster per autogenerare un file Robots.txt su misura per i crawler dei motori di ricerca.

Addirittura esistono meta tag espressamente dedicati al motore di ricerca Google e molto utili se si applicano a singole pagine web: uno (NOARCHIVE) che impedisce a Google di tenere una copia della pagina e rimuove dai risultati delle ricerche la visualizzazione del link con la dicitura “Copia cache”, mentre un altro (NOSNIPPET) che consente di rimuovere dai risultati delle ricerche lo “snippet”, ovvero l’estratto della pagina che Google crea “al volo” e che mostra sotto il link alla stessa.

Forse, l’unico vero problema, evidenziato dagli stessi editori, è che il sistema dei Robots è solamente un sistema di bloccaggio che dice solo “sì” o “no”, mentre ACAP comunica automaticamente con i motori di ricerca, dicendo ai robot interni che cosa devono fare con ciascuna pagina: pubblicala tutta, pubblicane solo una parte, assolutamente vietato toccarla.

Impossibile discriminare i bot di Google da quelli di Google News

Insomma, già esistono dei mezzi per avere un controllo maggiore su quante e quali pagine HTML far prelevare da quali spider. Il problema, però, è che al momento non esiste un Crawler dedicato a Google News per cui, con il file Robotx.txt si verrebbe esclusi sia da Google News che dal motore di ricerca Google, e credo che questa non sia la soluzione ideale per gli editori che vorrebbero comunque essere rintracciabili sul web (è noto che essere su Google significa essere visibili a tutto il mondo). Infatti, come si legge nella nota in Assistenza per Editori di Google News:

Posso richiedere la rimozione di un articolo o di un link inattivo da Google News?
Se desidera che il link ad uno dei sui articoli venga rimosso da Google News, ci contatti qui e procederemo alla rimozione richiesta. Le ricordiamo tuttavia che per evitare che il Googlebot indicizzi articoli o particolari sezioni del suo sito può utilizzare i file robots.txt e meta tags. Per ulteriori informzioni sui file robots.txt e meta tag, la invitiamo a visitare la pagina http://www.motoricerca.info/robots.phtml. Il Googlebot segue le stesse linee guide relative ai robots.txt sia per la Ricerca Google sia per Google News. Pertanto, se desidera rimuovere i suoi contenuti soltanto da Google News, la invitiamo a contattarci.

Come vedete, attualmente, non esiste un metodo rapido e veloce per non farsi indicizzare da Google News, senza però, sparire dal motore di ricerca Google!

In effetti, attualmente esistono solo i seguenti User-Agent di Google:

Googlebot
Googlebot-Mobile
Googlebot-Image
Mediapartners-Google
Adsbot-Google

Per risolvere velocemente il problema, basterebbe che, come è avvenuto per i feed rss di Google Blog Search con l’introduzione del crawler Feedfetcher , si crei un nuovo Google’s News Grabber. Infatti, al pari di Feedfetcher, che altro non è che uno spider usato dal motore di ricerca per visitare, leggere e raccogliere i contenuti di un feed, Google potrebbe creare una sorta di Newsfetcher per popolare i contenuti di Google News! A tal punto, basterebbe inserire questo bot nel file Robots e risolvere per sempre le diatribe che attualmente stanno animando gli editori online.

La posizione di Google

Insomma, a quanto pare gli editori non hanno tutti i torti e forse l’introduzione di un sistema come ACAP o, più semplicemente, una gestione più documentata e trasparente degli spider che alimentano Google News sarebbe auspicabile nel breve tempo.

In effetti, dal punto di vista degli editori, Google è un vero e proprio avversario che, pur non producendo direttamente contenuti, attraverso l’aggregatore di notizie Google News, potrebbe diventare un potentissimo concorrente sul piano del controllo dell’ accesso all’ informazione.

Google, intanto, non ne vuole sapere di Acap: inizialmente ha rivendicato il ruolo di Google News come assolutamente positivo a favore degli editori e del traffico dei loro siti. Google intende solo indirizzare traffico sui siti dei giornali e con Google News si aggregano solamente titoli e sommari delle notizie, facendo poi convogliare gli utenti verso i siti delle singole testate. Ne è un clamoroso esempio il sito del Financial Times che si è aperto a Google News nell’ottobre del 2007, mettendo a disposizione 30 articoli gratis al mese. Da allora quel sito ha avuto un incremento del traffico del 75%, con 230 mila nuovi utenti registrati!

In seguito, poi, Google è tornata sulle sue dichiarazioni che avevano suscitato scalpore, e ha precisato, per voce dell’amministratore delegato Eric Schmidt, che le uniche barriere da parte di Google all’ implementazione di Acap erano di natura tecnica, negando che la sua società fosse riluttante ad applicarlo per difendere i propri interessi. Il protocollo, così come è attualmente impostato, è incompatibile con la tecnologia di base di Google search, ma al momento la società sta valutando la possibilità di effettuare modifiche in modo che Acap possa funzionare secondo i criteri con cui lavora il motore di ricerca.

C’è anche da dire che, però, Google si è anche comportato bene nei confronti dei giornali online perché è stato molto attento a non monetizzare il marchio attraverso la pubblicità di Adsense: questa mossa avrebbe fatto infuriare ancora di più gli editori, i quali avrebbero potuto protestare accusando Google di fare soldi con i loro contenuti.

Insomma, come al solito la verità sta nel mezzo e la guerra tra Google News ed editori di giornali online avrà fine solo se ognuno farà la sua parte, per il bene di tutta la comunità internet!

Tag:ACAP, bot, copyright, crawler, giornali, Google, google-news, googlebot, motore-di-ricerca, news, robot, spider
CONTINUE READING >
1 comment
Giu 16 2007

La guida per un buon blogger: installare il correttore ortografico di Firefox per rendere efficiente l’indicizzazione delle keyword e come personalizzare il dizionario

Posted by Antonio Troise
Tweet

correttore ortografico di Firefox Chiunque abbia avuto esperienza di blogging sa che, molto spesso, nella fretta di scrivere i post è possibile incappare in errori di digitazione. Se ad una prima valutazione questo fattore potrebbe non essere importante, è però necessario pensare che gli errori ortografici, oltre a rendere più difficoltosa la lettura, possono dare una brutta reputazione all’autore. Inoltre, se l’errore avviene su una particolare parola keyword, può rendere meno realistica l’indicizzazione e il peso che il crawler dei motori di ricerca da alla vostra pagina.
Provate per esempio a cercare la parola “maicrosoft”: come vedete è facile trovare siti che vengono indicizzati con parole sbagliate e che non verranno mai trovati se la si scrive correttamente!

E’ per questo che consiglio a tutti di installare un buon correttore ortografico sia per la lingua italiana che per quella inglese: infatti, specie se si parla di cose tecniche, è facile incappare in tecnicismi di madrelingua anglosassone.
Siccome, però, la maggior parte dei blogger aggiornano il proprio sito direttamente online, non posso che consigliarvi l’estensione per Firefox del Dizionario, un ottimo correttore ortografico automatico che evidenzia, con una sottolineatura rossa, la parola presente in una qualsiasi casella di testo di cui non viene trovata la corrispondenza nel dizionario selezionato. Ovviamente il dizionario non contiene tutte le parole: per aggiungerle basterà cliccare col tasto destro del mouse sulla parola evidenziata e sotto le voci suggerite, cliccate su “Aggiungi al dizionario” o “Add to dictionary”.

Il problema che un blogger italiano può incorrere è che, se di default installa il dizionario italiano, tutte le parole inglesi di uso comune non verranno riconosciute a meno che non si aggiungono manualmente ogniqualvolta le si incontra. Per automatizzare o perlomeno velocizzare l’inserimento di parole straniere di uso comune, dovete sapere che quando si aggiunge al dizionario una nuova parola, non si fa altro che aggiornare il file persdict.dat presente sotto la directory:

C:\Documents and Settings\\Application Data\Mozilla\Firefox\Profiles\

Infatti, questo file, non contiene tutto il dizionario bensì solo le parole nuove. A questo punto basterà editare il file con un qualsiasi editor di testo e aggiungere le parole desiderate. Se volete, potete trovare una lista già compilata dei termini più comuni (con un semplice filtro sul testo) per le varie categorie, come la lista dei nomi delle compagnie o dei termini per il computer.

Addirittura è possibile integrare nel file persdict.dat i termini del dizionario personale di Word custom.dic presente in:

C:\Documents and Settings\\Application Data\Microsoft\Proof

La conoscenza del file persdict.dat vi aiuterà anche nel caso in cui inseriate, per errore, un termine nel dizionario che magari era sbagliato. Basterà aprirlo con Notepad e cancellare la riga voluta. Oppure vi potrà servire se volete usare il ricco dizionario personale di un vostro amico: basterà fare un semplice copia e incolla tra i due file ed il gioco è fatto!

Tag:Blog, blogger, crawler, estensione, firefox, keyword, motore-di-ricerca
CONTINUE READING >
3 comments
SeguiPrezzi - Risparmia con Amazon.it

Categorie

Commenti Recenti

  • Antonio Troise on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Fioredicollina on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Antonio Troise on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Emanuele on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Luca on iDatabase: la valida alternativa di Bento per macOS e iOS per i database personali

Meta

  • Accedi
  • Entries RSS
  • Comments RSS
  • WordPress.org

Friends Link

  • GamerTagMatch
  • SeguiPrezzi.it – Risparmia con Amazon.it
  • Trendy Nail

Seguimi su:

  • facebook
  • twitter
  • rss
Creative Commons License
Levysoft by Antonio Troise is licensed under a Creative Commons Attribuzione-Non commerciale 2.5 Italia License.
© Copyright 2004 - 2014 - Levysoft by Antonio Troise