Levysoft
  • Home
  • Portfolio
  • WordPress Plugin
  • Contattami

Dal 2004 il blog di Antonio Troise

RSS FeedTwitterFacebook
Set 13 2013

Topsy: il motore di ricerca sociale che raccoglie tutti i tweet dal 2006 ad oggi sondando l’umore della rete

Posted by Antonio Troise
Tweet

Topsy-ricerche-twitter-500x283

Topsy è la startup di un ex dipendente Google che raccoglie tutti i cinguettii di 140 caratteri che sono stati lanciati in Rete dal 2006 ad oggi, sopperendo ad una evidente mancanza di Google e dello stesso Twitter. Il database di Topsy parte dal primo tweet in assoluto, inviato dal fondatore del social network Jack Dorsey nel lontano 21 Marzo 2006, e arriva fino ad oggi arrivando a contenere a qualcosa come 475 miliardi di elementi tra messaggi (oltre 300 miliardi), link, immagini e video. Se considerate che ogni ogni giorno vengono inviati 400 milioni di messaggi attraverso Twitter (278.000 ogni minuto) da 190 milioni di utenti unici, capirete quanto sia enorme il lavoro che deve fare questa piccola startup, in grado di gestire con estrema efficienza e velocità questa enorme mole di informazioni mettendo a disposizione della rete tutta la storia di Twitter.

Ed ecco che, se si cerca oculatamente e filtrando opportunamente per data di inserimento (“Sort by oldest“, dal più vecchio al più recente, e selezionando nella sidebar a sinistra il filtro “All Time“) è possibile scoprire le origini di molti hashtag o di modi di dire.

  • L’hashtag #FollowFriday (ora noto come #FF), ovvero l’abitudine di suggerire ogni venerdì altri utenti da seguire, è nato nell’Ottobre 2008 con il tweet di Elwyn Jenkins, uno studente universitario australiano, che suggeriva ai suoi amici di seguire l’account di Louise Curtis:

    #FollowFriday @Louise_Curtis_ Here is a Twitter Novel in the making.

  • L’hashtag #sapevatelo, l’hashtag tutto italiano usato per attirare l’attenzione su informazioni non essenziali, è stato tweettato nel Maggio 2009 dal web designer Davide Rapetti, per consigliare la app iPhone Nike Goal.

    La nuova app. iPhone Nike Goal permette di segnalare i risultati via facebook, e offre uno sconto del 10% per su nikestore.com #sapevatelo

  • In Italia, la prima volta che la gente si domanda perché su Twitter, per rispettare la netiquette, si debba parlare in terza persona (moda oramai persa da tempo) risale a ben 7 anni fa, precisamente 31 Dicembre 2006 (qualche mese dopo ci scrissi anche un articolo):

    Forte che Bru parli di sé in terza persona, no?

    e nei primi giorni di Gennaio 2007, la gente ironizza su questa strana moda importata dall’America:

    dice che per rispettare la netiquette di twitter bisogna parlare come un calciatore , in terza persona 🙂

    Uhm…Maybe it is better if i will write in 3d person. Uhm…Forse sarà meglio che scriva in terza persona

    si chiede il perchè su twitter bisogna parlare in terza persona… alla maradona per intenderci…

    ci riflette e le viene in mente che anche alberto tomba parlava in terza persona.. atleta.. campione.. forse era un precursore di twitter?

  • Con la ricerca per utente (scrivendo nel campo from:nomeutente) è possibile scoprire anche il primo messaggio che ogni utente ha scritto appena arrivato su Twitter. Questo è il mio, risalente al lontano 9 Maggio 2007:

    Mi sono appena iscritto… tutta colpa di boliboop…nutro qualche dubbio… vedremo che ne esce fuori

Ultimamente Topsy ha inserito nuove funzionalità come l’analisi dei sentimenti per ogni termine di ricerca inserito (sentiment score), offrendo così una possibilità davvero unica di poter sondare istantaneamente l’opinione pubblica su qualsiasi argomento.

Topsy Homepage

Insomma, le potenzialità di Topsy sono davvero infinite, anche scoprire cose di cui uno si dovrebbe vergognare. Ma come sempre la Rete non dimentica nulla, al massimo è difficile da scovare… purtroppo con Topsy ora non abbiamo più neanche questa possibilità!

Tag:motore-di-ricerca, ricerc, Search Engine, twitter
CONTINUE READING >
0 comments
Apr 18 2008

Impossibile discriminare i bot di Google da quelli di Google News: gli editori propongono ACAP al posto del file Robots.txt per escludere i propri giornali solo da Google News e avere un controllo completo delle notizie

Posted by Antonio Troise
Tweet

ACAP «I motori di ricerca sono attori che prendono senza dare, che non producono contenuti ma poggiano la loro forza sulla tecnologia. Con software che somigliano a parassiti, hanno bisogno di un muro per arrampicarsi, cioè le informazioni dei giornali, ma poi lo distruggono prosciugandone le fonti pubblicitarie»

A lanciare questa pesante j’accuse è stato, nel 2007, Luca Cordero di Montezemolo, allora presidente Confindustria ed ex presidente Fieg. E questo è solo la punta dell’iceberg delle preoccupazione che oggi hanno gli editori con Google News. Infatti, Google News, è accusato di aggregare e diffondere contenuti prodotti dagli editori (soprattutto quelli di agenzie stampa e quotidiani) con sacrifici e costi, e per i quali, invece, Google non paga nulla.

Una soluzione: ACAP

Per risolvere il problema gli editori hanno proposto un nuovo protocollo di protezione dei contenuti editoriali online, chiamato ACAP (Automated Control Access Protocol, lanciato dalla World Association of Newspapers), che consentirebbe ai motori di ricerca di capire meglio le condizioni di utilizzo dei materiali e consentirebbe anche agli editori di controllare in quali modo aggregatori e motori di ricerca li usano. Insomma, attraverso questa specie di bollino digitale, il motore di ricerca saprebbe cosa fare con ciascuna pagina prodotta dall’editore: se usarla tutta, o solo una parte, o non usarla per nulla.

La soluzione attuale: Robots.txt

In realtà l’ACAP non è altro che la versione formale e mirata a Google News di un già efficiente sistema dedicato agli spider dei motori di ricerca: il Robots Exclusion Standard (standard per l’esclusione dei robot), un sistema che consentirebbe, attraverso la generazione di un file Robots.txt appositamente generato e formattato, di bloccare l’indicizzazione (anche ad un solo bot di motore di ricerca), di alcune pagine dei giornali online che, per questioni di copyright o altri motivi, non vogliano che i loro testi vengano ripresi dai motori di ricerca. Se non siete esperti, Google ha messo a disposizione un tool nella sezione Strumenti di Google per il Webmaster per autogenerare un file Robots.txt su misura per i crawler dei motori di ricerca.

Addirittura esistono meta tag espressamente dedicati al motore di ricerca Google e molto utili se si applicano a singole pagine web: uno (NOARCHIVE) che impedisce a Google di tenere una copia della pagina e rimuove dai risultati delle ricerche la visualizzazione del link con la dicitura “Copia cache”, mentre un altro (NOSNIPPET) che consente di rimuovere dai risultati delle ricerche lo “snippet”, ovvero l’estratto della pagina che Google crea “al volo” e che mostra sotto il link alla stessa.

Forse, l’unico vero problema, evidenziato dagli stessi editori, è che il sistema dei Robots è solamente un sistema di bloccaggio che dice solo “sì” o “no”, mentre ACAP comunica automaticamente con i motori di ricerca, dicendo ai robot interni che cosa devono fare con ciascuna pagina: pubblicala tutta, pubblicane solo una parte, assolutamente vietato toccarla.

Impossibile discriminare i bot di Google da quelli di Google News

Insomma, già esistono dei mezzi per avere un controllo maggiore su quante e quali pagine HTML far prelevare da quali spider. Il problema, però, è che al momento non esiste un Crawler dedicato a Google News per cui, con il file Robotx.txt si verrebbe esclusi sia da Google News che dal motore di ricerca Google, e credo che questa non sia la soluzione ideale per gli editori che vorrebbero comunque essere rintracciabili sul web (è noto che essere su Google significa essere visibili a tutto il mondo). Infatti, come si legge nella nota in Assistenza per Editori di Google News:

Posso richiedere la rimozione di un articolo o di un link inattivo da Google News?
Se desidera che il link ad uno dei sui articoli venga rimosso da Google News, ci contatti qui e procederemo alla rimozione richiesta. Le ricordiamo tuttavia che per evitare che il Googlebot indicizzi articoli o particolari sezioni del suo sito può utilizzare i file robots.txt e meta tags. Per ulteriori informzioni sui file robots.txt e meta tag, la invitiamo a visitare la pagina http://www.motoricerca.info/robots.phtml. Il Googlebot segue le stesse linee guide relative ai robots.txt sia per la Ricerca Google sia per Google News. Pertanto, se desidera rimuovere i suoi contenuti soltanto da Google News, la invitiamo a contattarci.

Come vedete, attualmente, non esiste un metodo rapido e veloce per non farsi indicizzare da Google News, senza però, sparire dal motore di ricerca Google!

In effetti, attualmente esistono solo i seguenti User-Agent di Google:

Googlebot
Googlebot-Mobile
Googlebot-Image
Mediapartners-Google
Adsbot-Google

Per risolvere velocemente il problema, basterebbe che, come è avvenuto per i feed rss di Google Blog Search con l’introduzione del crawler Feedfetcher , si crei un nuovo Google’s News Grabber. Infatti, al pari di Feedfetcher, che altro non è che uno spider usato dal motore di ricerca per visitare, leggere e raccogliere i contenuti di un feed, Google potrebbe creare una sorta di Newsfetcher per popolare i contenuti di Google News! A tal punto, basterebbe inserire questo bot nel file Robots e risolvere per sempre le diatribe che attualmente stanno animando gli editori online.

La posizione di Google

Insomma, a quanto pare gli editori non hanno tutti i torti e forse l’introduzione di un sistema come ACAP o, più semplicemente, una gestione più documentata e trasparente degli spider che alimentano Google News sarebbe auspicabile nel breve tempo.

In effetti, dal punto di vista degli editori, Google è un vero e proprio avversario che, pur non producendo direttamente contenuti, attraverso l’aggregatore di notizie Google News, potrebbe diventare un potentissimo concorrente sul piano del controllo dell’ accesso all’ informazione.

Google, intanto, non ne vuole sapere di Acap: inizialmente ha rivendicato il ruolo di Google News come assolutamente positivo a favore degli editori e del traffico dei loro siti. Google intende solo indirizzare traffico sui siti dei giornali e con Google News si aggregano solamente titoli e sommari delle notizie, facendo poi convogliare gli utenti verso i siti delle singole testate. Ne è un clamoroso esempio il sito del Financial Times che si è aperto a Google News nell’ottobre del 2007, mettendo a disposizione 30 articoli gratis al mese. Da allora quel sito ha avuto un incremento del traffico del 75%, con 230 mila nuovi utenti registrati!

In seguito, poi, Google è tornata sulle sue dichiarazioni che avevano suscitato scalpore, e ha precisato, per voce dell’amministratore delegato Eric Schmidt, che le uniche barriere da parte di Google all’ implementazione di Acap erano di natura tecnica, negando che la sua società fosse riluttante ad applicarlo per difendere i propri interessi. Il protocollo, così come è attualmente impostato, è incompatibile con la tecnologia di base di Google search, ma al momento la società sta valutando la possibilità di effettuare modifiche in modo che Acap possa funzionare secondo i criteri con cui lavora il motore di ricerca.

C’è anche da dire che, però, Google si è anche comportato bene nei confronti dei giornali online perché è stato molto attento a non monetizzare il marchio attraverso la pubblicità di Adsense: questa mossa avrebbe fatto infuriare ancora di più gli editori, i quali avrebbero potuto protestare accusando Google di fare soldi con i loro contenuti.

Insomma, come al solito la verità sta nel mezzo e la guerra tra Google News ed editori di giornali online avrà fine solo se ognuno farà la sua parte, per il bene di tutta la comunità internet!

Tag:ACAP, bot, copyright, crawler, giornali, Google, google-news, googlebot, motore-di-ricerca, news, robot, spider
CONTINUE READING >
1 comment
Mar 27 2008

Piccole cose per una migliore usabilità: analisi di un nuovo comportamento del box di ricerca di Google

Posted by Antonio Troise
Tweet

Sono le piccole cose, spesso sottovalutate, che rendono migliore un servizio web, come quello già perfetto offerto da Google. Ma sono soprattutto le piccole cose non dette ma lasciate trasparire attraverso le sue pagine html che rendono l’usabilità del motore di ricerca sempre migliore. E’ il caso, per esempio, della recente introduzione di una piccola miglioria sul box di ricerca che viene mostrato in cima alla pagina dei risultati.
Infatti, quando si accede all’homepage di Google il box di ricerca è di dimensioni standard del tipo:

Ovvero è lungo 55 caratteri e può contenere sino a 2048 caratteri.

Quando, però, si fa lancia una ricerca con una query molto lunga, il box di ricerca che si trova in alto nella pagina dei risultati si adatta, per quanto possibile, alla lunghezza del contenuto inserito, consentendo così una più facile modifica della query.

Ovvero, se la query non supera i 36 caratteri, la lunghezza del box di ricerca rimarrà fisso a 41 caratteri, 11 in meno di quello di default dell’homepage.

Poi, quando si prova ad immettere una chiave di ricerca lunga 37 caratteri, le dimensioni del box iniziano ad aumentare di uno, (nello specifico, passeranno a 42), lasciando una differenza di 5 ogni volta. Così quando abbiamo 40 caratteri, il size del box passerà a 45:

E se ne inseriamo 50, il size passerà a 55, e così via fino ad arrivare ad un massimo di size=70.

Questo se consideriamo i semplice caratteri. In realtà Google ha sempre un limite massimo delle parole da ricercare e questo equivale a 32 (limite più che accettabile se pensate che nel 2007 la media di parole inserite nel motore di ricerca era di solo 4)

Insomma, apparentemente è solo una piccola novità ma che è in grado di agevolare notevolmente la modifica di una query di ricerca lunga. Il problema che questa novità è considerata così marginale che, come fa notare Ionut Alex Chitu, l’ha applicata solo Google. Infatti, comparando Live Search, Yahoo Search and Google Search con la chiave di ricerca:

how do you distinguish between a 64 bit and a 32 bit operating system

si ottiene questo risultato:

Tag:Google, motore-di-ricerca, query, ricerca, usabilità
CONTINUE READING >
0 comments
Giu 16 2007

La guida per un buon blogger: installare il correttore ortografico di Firefox per rendere efficiente l’indicizzazione delle keyword e come personalizzare il dizionario

Posted by Antonio Troise
Tweet

correttore ortografico di Firefox Chiunque abbia avuto esperienza di blogging sa che, molto spesso, nella fretta di scrivere i post è possibile incappare in errori di digitazione. Se ad una prima valutazione questo fattore potrebbe non essere importante, è però necessario pensare che gli errori ortografici, oltre a rendere più difficoltosa la lettura, possono dare una brutta reputazione all’autore. Inoltre, se l’errore avviene su una particolare parola keyword, può rendere meno realistica l’indicizzazione e il peso che il crawler dei motori di ricerca da alla vostra pagina.
Provate per esempio a cercare la parola “maicrosoft”: come vedete è facile trovare siti che vengono indicizzati con parole sbagliate e che non verranno mai trovati se la si scrive correttamente!

E’ per questo che consiglio a tutti di installare un buon correttore ortografico sia per la lingua italiana che per quella inglese: infatti, specie se si parla di cose tecniche, è facile incappare in tecnicismi di madrelingua anglosassone.
Siccome, però, la maggior parte dei blogger aggiornano il proprio sito direttamente online, non posso che consigliarvi l’estensione per Firefox del Dizionario, un ottimo correttore ortografico automatico che evidenzia, con una sottolineatura rossa, la parola presente in una qualsiasi casella di testo di cui non viene trovata la corrispondenza nel dizionario selezionato. Ovviamente il dizionario non contiene tutte le parole: per aggiungerle basterà cliccare col tasto destro del mouse sulla parola evidenziata e sotto le voci suggerite, cliccate su “Aggiungi al dizionario” o “Add to dictionary”.

Il problema che un blogger italiano può incorrere è che, se di default installa il dizionario italiano, tutte le parole inglesi di uso comune non verranno riconosciute a meno che non si aggiungono manualmente ogniqualvolta le si incontra. Per automatizzare o perlomeno velocizzare l’inserimento di parole straniere di uso comune, dovete sapere che quando si aggiunge al dizionario una nuova parola, non si fa altro che aggiornare il file persdict.dat presente sotto la directory:

C:\Documents and Settings\\Application Data\Mozilla\Firefox\Profiles\

Infatti, questo file, non contiene tutto il dizionario bensì solo le parole nuove. A questo punto basterà editare il file con un qualsiasi editor di testo e aggiungere le parole desiderate. Se volete, potete trovare una lista già compilata dei termini più comuni (con un semplice filtro sul testo) per le varie categorie, come la lista dei nomi delle compagnie o dei termini per il computer.

Addirittura è possibile integrare nel file persdict.dat i termini del dizionario personale di Word custom.dic presente in:

C:\Documents and Settings\\Application Data\Microsoft\Proof

La conoscenza del file persdict.dat vi aiuterà anche nel caso in cui inseriate, per errore, un termine nel dizionario che magari era sbagliato. Basterà aprirlo con Notepad e cancellare la riga voluta. Oppure vi potrà servire se volete usare il ricco dizionario personale di un vostro amico: basterà fare un semplice copia e incolla tra i due file ed il gioco è fatto!

Tag:Blog, blogger, crawler, estensione, firefox, keyword, motore-di-ricerca
CONTINUE READING >
3 comments
Feb 8 2007

CEO e SEO: ma cosa significano?

Posted by Antonio Troise
Tweet

Dal keynote Apple, vi è un susseguirsi di acronimi che ai più risultano del tutto incomprensibili. Tra tutte, a risuonare nella rete, vi sono le espressioni CEO e SEO.

CEO
CEO è l’acronimo dell’espressione inglese Chief Executive Officer, usata per indicare la persona che ha la responsabilità più alta all’interno di una società. È il corrispondente dell’amministratore delegato.
Quindi CEO è l’acronimo, usato negli USA, con cui internazionalmente è conosciuto l’amministratore delegato (ovvero colui a cui il consiglio di amministrazione di una società delega dei poteri e delle funzioni al fine di ottimizzare la gestione della società stessa).

SEO
SEO è l’acronimo di Search Engine Optimization, ed indica tutte le attività necessarie per ottimizzare i siti web in modo tale da migliorare il loro posizionamento tra i risultati di ricerca dei Motori. SEO è anche, per esempio, una azienda o un dipendente esperto di posizionamento nei motori di ricerca. Altre informazioni le trovate su Wikipedia

Aggiungo altre 3 acronimi che mi hanno interessato:

Tag:ceo, incumbent, motore-di-ricerca, sem, seo
CONTINUE READING >
4 comments
Nov 12 2006

Google e StopBadware

Posted by Antonio Troise
Tweet

A volte, quando si clicca su un link di una ricerca di Google (in termine tecnico si chiamano SERP: Search Engines Results Page“), può capitare di imbattersi in un messaggio del tipo:

“Attenzione – il sito al quale stai per accedere potrebbe contenere software dannoso per il tuo computer!
Per maggiori informazioni sui malware e su come proteggere il tuo computer, consulta il sito StopBadware.org.
Consulenza offerta da Google”

Ho cercato delle informazioni in merito e sembra che StopBadware.org sia una iniziativa no-profit di due centri universitari per lo studio di Internet (Harvard e Oxford) e di una associazione di consumatori americana per combattere il “Badware” (ovvero l’insieme di Spyware, Malware e Adware).
Gli sponsor dell’iniziativa sono Google, Sun e Lenovo. E’ qui, quindi, che interviene il motore di ricerca più famoso al mondo: è giusto che Google prenda l’iniziativa di filtrare a priori siti che considera fonte di Badware? Forse si, ma solo se i siti segnalati sono effettivamente fonte di Badware. Per chi volesse verificare il sito StopBadware.org ha messo a disposizione una lista completa di tutti i 405 siti bannati e sui quali Google vi fa continuamente riferimento.

Tag:adware, badware, malware, motore-di-ricerca
CONTINUE READING >
3 comments
Ott 27 2006

Ms. Dewey

Posted by Antonio Troise
Tweet

Ms. Dewey Più che per utilità lo cito solo per la sua frivolezza e in parte originalità per una futura interfaccia visiva: parlo di Ms. Dewey, un particolare motore di ricerca che ha assunto la sembianza e una voce femminile. Il suo scopo è quello di intrattenere il navigatore con alcune battute in inglese e alcuni sketch (non troppo divertenti devo dire), nell’attesa che il motore restituisca i risultati.
Sul sito di Tagliaerbe ho trovato alcune keyword da inserire per avere dei risultati curiosi: hobby, drink, game, your phone, open window, game, sexy, write something (con quest’ultima ricerca Ms. Dewey risponde che sta per aprire un blog su My Spaces, e fornirà il suo indirizzo hotmail… assurdo anche la pubblicità targata Microsoft… un nuovo modo di fare advertising?).

Tag:keyword, motore-di-ricerca, ricerca
CONTINUE READING >
1 comment
SeguiPrezzi - Risparmia con Amazon.it

Categorie

Commenti Recenti

  • Antonio Troise on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Fioredicollina on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Antonio Troise on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Emanuele on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Luca on iDatabase: la valida alternativa di Bento per macOS e iOS per i database personali

Meta

  • Accedi
  • Entries RSS
  • Comments RSS
  • WordPress.org

Friends Link

  • GamerTagMatch
  • SeguiPrezzi.it – Risparmia con Amazon.it
  • Trendy Nail

Seguimi su:

  • facebook
  • twitter
  • rss
Creative Commons License
Levysoft by Antonio Troise is licensed under a Creative Commons Attribuzione-Non commerciale 2.5 Italia License.
© Copyright 2004 - 2014 - Levysoft by Antonio Troise