Non ci si pensa molto spesso ma, dovete sapere, che le ricerche che quotidianamente fate sui motori di ricerca, per ottenere dei buoni risultati, devono corrispondere a dei criteri ben precisi di universalità del contesto. Quindi, oltre ad essere case insensitive, ovvero insensibili alla differenza tra lettere minuscole e maiuscole (quando cerco “Antonio” verranno trovate anche le corrispondenze “antonio” e “ANTONIO“), lo sono anche ai segni diacritici, ovvero sono insensibili alle lettere accentate.
Ad esempio, se si digita “università” con accento finale o “universita” senza accento finale, si ottiene sempre lo stesso risultato. Ma il bello è che otterrei gli stessi risultati se cercassi anche la parola: ùnìvèrsita. Analogamente accade se viene cercato “Casa“, poiché troveremo anche i termini “casà” e “çàsà“.
Cosa sono i segni diacritici?
Per chi non lo sapesse, un segno diacritico, è un segno aggiunto ad una lettera per modificarne la pronuncia o per distinguere il significato di parole simili e compaiono generalmente al di sopra o al di sotto della lettera cui si riferiscono. Il principale uso dei segni diacritici è modificare il suono di una lettera, ma vi si fa ricorso anche in senso più generale per cambiare il valore grammaticale e il significato di una parola (ad esempio, in italiano l’articolo e pronome la rispetto all’avverbio là: la pronuncia è la stessa).
Tra i segni diacritici, troviamo quelli più comuni per la lingua italiana (à è é ì ò ù –) e quelli meno comuni (ç, §, ê, ï, ô, Ø). Fra i segni diacritici i più diffusi sono l’accento acuto ( ´ ), grave ( ` ) e circonflesso ( ˆ ); il segno di vocale lunga ( ¯ ); il segno di breve ( ˘ ); la dieresi o Umlaut ( ¨ ); la cediglia ( ¸ ); la ‘pipetta’ ( č ) e la tilde ( ˜ ).
Perché si escludono i segni diacritici?
Per impostazione predefinita, Google non riconosce accenti o altri segni diacritici. Questo, perché, oltre a permettere un numero di risultati nettamente superiore, permette anche di escludere la possibilità di avere risultati ambigui.
Infatti, è noto che, nella lingua scritta del web, è facile imbattersi nella sostituzione delle lettere accentate con il digramma ‘lettera+apice‘.
L’Accademia della Crusca spiega molto bene questo particolare comportamento, proprio degli utenti internet ma poi diffusosi un po’ in tutte le aree, e che va ricercato in due motivi:
- Tutte le lettere dotate di segni diacritici (accenti, dieresi, cediglia, ecc.) non rientrano nel set-base di caratteri alfanumerici, cioè nei 128 caratteri che, secondo il primo standard ASCII sono decodificati correttamente da ogni computer, indipendentemente dalla sua configurazione. Tutti i caratteri che non fanno parte di questo gruppo possono non venire riconosciuti da una macchina: in tale caso, l’utente non visualizzerà sul proprio PC il carattere diacritico (proprio come accade per WordPress con la codifica UTF-8).
In seguito, la codifica fu ampliata a 8 bit, arrivando a 256 (2^8) posizioni. Le nuove 128 posizioni disponibili furono utilizzate (in maniera diversa da ogni paese) per una serie di lettere e simboli non compresi tra i primi 128 caratteri. Le lettere accentate dell’italiano fanno parte di questa codifica, definita ASCII estesa. - Se ancora per le lettere minuscole ci sono eccezioni, le lettere maiuscole sono scritte nella grafia ‘lettera+apice’ nella quasi totalità dei casi. Il motivo di tale grafia è da ricercarsi dal fatto che normalmente le tastiere italiane non prevedono questo set di caratteri e la maggior parte degli utenti non conosce la combinazione di tasti per le maiuscole accentate (su Windows questi caratteri si ottengono tenendo premuto il tasto ALT e digitando il corrispondente codice ASCII).
A tal proposito, se avete dubbi potete consultare queste mie guide su come digitare rapidamente la E maiuscola accentata su Windows, Linux, Mac OS X oppure quella su come scrivere la tilde e le parentesi graffe su Windows, Linux e Mac OS X.
Come vedete, la scelta di sostituire le lettere accentate con una combinazione di due caratteri semplici contigui ha delle solite basi storiche e, quindi, per non incorrere nei citati problemi di decodifica o di ricerca del codice ascii corrispondente, chi comunica abitualmente attraverso il computer evita quanto più possibile l’uso dei caratteri estesi: nel caso dell’italiano, le lettere accentate (come è, verità o perché) vengono sostituite dalla combinazione della lettera semplice corrispondente seguita da un apice (come e’, perche’, verita’).
Ma il bello è che, siccome il computer oramai si è esteso in qualsiasi altro settore lavorativo e non, è facile trovare questo peculiare costume linguistico anche in altri ambiti apparentemente lontani dal computer, sia per interferenza con le scritture informatiche che per pigrizia (visto che le minuscole accentate dell’italiano in realtà sono tutte presenti sulla tastiera): è il caso delle didascalie televisive, dei sottotitoli televisivi, di articoli di giornale e delle scritture burocratiche.
Quindi, sebbene nettamente errata come forma, è oramai universalmente accettata. Ed è, quindi, anche per questo motivo che Google, come tutti gli altri motori di ricerca, non considera, per impostazione predefinita, i segni diacritici.
Come forzare Google a cercare con i segni diacritici
Oltre ai segni diacritici, Google non fa distinzione anche tra lettere minuscole e maiuscole poiché considera tutte le lettere come minuscole. Ad esempio, digitando “google”, “GOOGLE” e “GoOgLE” si ottengono sempre gli stessi risultati.
Se, però, avete l’esigenza di cercare una certa parola in modo che si distinguano le maiuscole dalle minuscole, e le lettere accentate da quelle normali, non dovete fare altro che specificare al motore di ricerca di effettuare la ricerca in maniera diacritica e case sensitive. Per farlo è sufficiente ricercare il termine racchiuso tra apici: “ùnìvèrsita”.
Se, invece, come nel caso della ricerca di un nome di città straniera, si vogliano rispettare solamente i segni diacritici ma non si vogliano considerare le differenze tra maiuscole e minuscole, le linee guide di Google ci spiegano che, sarà sufficiente anteporre alla parola da ricercare il segno +.
In altre parole, se si digita Muenchen e München si ottengono sempre gli stessi risultati, mentre si ottengono risultati diversi nel caso si esegua una ricerca del tipo +Muenchen rispetto a +München.
Commenti Recenti