Levysoft
  • Home
  • Portfolio
  • WordPress Plugin
  • Contattami

Dal 2004 il blog di Antonio Troise

RSS FeedTwitterFacebook
Mar 17 2008

Le ricerche diacritiche e case insensitive dei motori di ricerca: cosa sono i segni diacritici e come non vengono usati correttamente nella lingua italiana

Posted by Antonio Troise
Tweet

Non ci si pensa molto spesso ma, dovete sapere, che le ricerche che quotidianamente fate sui motori di ricerca, per ottenere dei buoni risultati, devono corrispondere a dei criteri ben precisi di universalità del contesto. Quindi, oltre ad essere case insensitive, ovvero insensibili alla differenza tra lettere minuscole e maiuscole (quando cerco “Antonio” verranno trovate anche le corrispondenze “antonio” e “ANTONIO“), lo sono anche ai segni diacritici, ovvero sono insensibili alle lettere accentate.
Ad esempio, se si digita “università” con accento finale o “universita” senza accento finale, si ottiene sempre lo stesso risultato. Ma il bello è che otterrei gli stessi risultati se cercassi anche la parola: ùnìvèrsita. Analogamente accade se viene cercato “Casa“, poiché troveremo anche i termini “casà” e “çàsà“.

Segni diacritici
Cosa sono i segni diacritici?

Per chi non lo sapesse, un segno diacritico, è un segno aggiunto ad una lettera per modificarne la pronuncia o per distinguere il significato di parole simili e compaiono generalmente al di sopra o al di sotto della lettera cui si riferiscono. Il principale uso dei segni diacritici è modificare il suono di una lettera, ma vi si fa ricorso anche in senso più generale per cambiare il valore grammaticale e il significato di una parola (ad esempio, in italiano l’articolo e pronome la rispetto all’avverbio là: la pronuncia è la stessa).
Tra i segni diacritici, troviamo quelli più comuni per la lingua italiana (à è é ì ò ù –) e quelli meno comuni (ç, §, ê, ï, ô, Ø). Fra i segni diacritici i più diffusi sono l’accento acuto ( ´ ), grave ( ` ) e circonflesso ( ˆ ); il segno di vocale lunga ( ¯ ); il segno di breve ( ˘ ); la dieresi o Umlaut ( ¨ ); la cediglia ( ¸ ); la ‘pipetta’ ( č ) e la tilde ( ˜ ).

Perché si escludono i segni diacritici?

Per impostazione predefinita, Google non riconosce accenti o altri segni diacritici. Questo, perché, oltre a permettere un numero di risultati nettamente superiore, permette anche di escludere la possibilità di avere risultati ambigui.
Infatti, è noto che, nella lingua scritta del web, è facile imbattersi nella sostituzione delle lettere accentate con il digramma ‘lettera+apice‘.

L’Accademia della Crusca spiega molto bene questo particolare comportamento, proprio degli utenti internet ma poi diffusosi un po’ in tutte le aree, e che va ricercato in due motivi:

  1. Tutte le lettere dotate di segni diacritici (accenti, dieresi, cediglia, ecc.) non rientrano nel set-base di caratteri alfanumerici, cioè nei 128 caratteri che, secondo il primo standard ASCII sono decodificati correttamente da ogni computer, indipendentemente dalla sua configurazione. Tutti i caratteri che non fanno parte di questo gruppo possono non venire riconosciuti da una macchina: in tale caso, l’utente non visualizzerà sul proprio PC il carattere diacritico (proprio come accade per WordPress con la codifica UTF-8).
    In seguito, la codifica fu ampliata a 8 bit, arrivando a 256 (2^8) posizioni. Le nuove 128 posizioni disponibili furono utilizzate (in maniera diversa da ogni paese) per una serie di lettere e simboli non compresi tra i primi 128 caratteri. Le lettere accentate dell’italiano fanno parte di questa codifica, definita ASCII estesa.
  2. Se ancora per le lettere minuscole ci sono eccezioni, le lettere maiuscole sono scritte nella grafia ‘lettera+apice’ nella quasi totalità dei casi. Il motivo di tale grafia è da ricercarsi dal fatto che normalmente le tastiere italiane non prevedono questo set di caratteri e la maggior parte degli utenti non conosce la combinazione di tasti per le maiuscole accentate (su Windows questi caratteri si ottengono tenendo premuto il tasto ALT e digitando il corrispondente codice ASCII).
    A tal proposito, se avete dubbi potete consultare queste mie guide su come digitare rapidamente la E maiuscola accentata su Windows, Linux, Mac OS X oppure quella su come scrivere la tilde e le parentesi graffe su Windows, Linux e Mac OS X.

Come vedete, la scelta di sostituire le lettere accentate con una combinazione di due caratteri semplici contigui ha delle solite basi storiche e, quindi, per non incorrere nei citati problemi di decodifica o di ricerca del codice ascii corrispondente, chi comunica abitualmente attraverso il computer evita quanto più possibile l’uso dei caratteri estesi: nel caso dell’italiano, le lettere accentate (come è, verità o perché) vengono sostituite dalla combinazione della lettera semplice corrispondente seguita da un apice (come e’, perche’, verita’).

Ma il bello è che, siccome il computer oramai si è esteso in qualsiasi altro settore lavorativo e non, è facile trovare questo peculiare costume linguistico anche in altri ambiti apparentemente lontani dal computer, sia per interferenza con le scritture informatiche che per pigrizia (visto che le minuscole accentate dell’italiano in realtà sono tutte presenti sulla tastiera): è il caso delle didascalie televisive, dei sottotitoli televisivi, di articoli di giornale e delle scritture burocratiche.

Quindi, sebbene nettamente errata come forma, è oramai universalmente accettata. Ed è, quindi, anche per questo motivo che Google, come tutti gli altri motori di ricerca, non considera, per impostazione predefinita, i segni diacritici.

Come forzare Google a cercare con i segni diacritici

Oltre ai segni diacritici, Google non fa distinzione anche tra lettere minuscole e maiuscole poiché considera tutte le lettere come minuscole. Ad esempio, digitando “google”, “GOOGLE” e “GoOgLE” si ottengono sempre gli stessi risultati.
Se, però, avete l’esigenza di cercare una certa parola in modo che si distinguano le maiuscole dalle minuscole, e le lettere accentate da quelle normali, non dovete fare altro che specificare al motore di ricerca di effettuare la ricerca in maniera diacritica e case sensitive. Per farlo è sufficiente ricercare il termine racchiuso tra apici: “ùnìvèrsita”.

Se, invece, come nel caso della ricerca di un nome di città straniera, si vogliano rispettare solamente i segni diacritici ma non si vogliano considerare le differenze tra maiuscole e minuscole, le linee guide di Google ci spiegano che, sarà sufficiente anteporre alla parola da ricercare il segno +.
In altre parole, se si digita Muenchen e München si ottengono sempre gli stessi risultati, mentre si ottengono risultati diversi nel caso si esegua una ricerca del tipo +Muenchen rispetto a +München.

Tag:accenti, ascii, caratteri, diacritico, Google, Linguaggi, pronuncia, tastiera, tilde, utf-8
CONTINUE READING >
8 comments
Feb 6 2008

Come pronunciare correttamente termini dall’accentazione dubbia usando il DOP online, ovvero il Dizionario italiano multimediale e multilingue d’ortografia e di pronuncia

Posted by Antonio Troise
Tweet

Fonetica La nostra lingua è bella perché capricciosa: oltre a trasformarsi continuamente come tutto ciò che è vivo, ha regole contraddette da eccezioni. Spesso, quindi, capita di avere dei dubbi su dove far cadere gli accenti per parole tipo rubrica, utensile, regime, amaca, baule, edile, caduco, cosmopolita, impari, pudico, ossimoro, robot, o zaffiro poiché, a volte, anche il dizionario “De Mauro” (Paravia) consultabile su Internet non prevede una pronuncia univoca, assegnando indifferentemente l’accento sulla penultima o sulla terzultima sillaba, senza alcuna preferenza.

Se non volete girare per internet alla ricerca di una risposta da parte di autorevoli esperti di fonetica che vi spiegano la correttezza o meno delle pronuncia piana o sdrucciola e non volete imparare a leggere correttamente gli accenti sul sito dell’Accademia della Crusca (che elenca tutti i termini dall’accentazione “dubbia”) potete fare un salto sul primo Dizionario multimediale di ortografia e pronuncia (DOP) della lingua italiana, uno strumento importante per imparare la corretta ortografia e la perfetta pronuncia delle parole della nostra lingua.

DOP Rai

Un lavoro realizzato dalla RAI davvero interessante che si fa forza delle oltre 129.000 voci (di cui 92.000 voci italiane e e 37.000 di altre lingue) con oltre seimila citazioni d’autore, tutte ascoltabili in formato audio (grazie alla tecnologia Flash), che ha richiesto 8 anni di lavoro e 5000 ore di registrazione presso le sedi RAI.
Questa edizione multimediale oltre ad essere uno strumento di unificazione linguistica e di riappropriazione della lingua madre è, anche, un innovativo strumento di consultazione che è insieme rigoroso e semplice, perché alle trascrizioni fonetiche, del resto assai chiare e intuitive, s’accompagna anche la lettura ad alta voce: un sussidio essenziale per chi non conosce gli oltre sessanta segni dell’alfabeto fonetico.

Tra i lemmi troviamo parole ordinarie e termini tecnici, nomi propri di persone, di luoghi, d’istituzioni e altro. La versione online del “DOP” è accessibile gratuitamente in tutto il mondo ed è uno strumento utilissimo per tutti, indispensabile per gli studenti, per gli studiosi della lingua italiana e per i professionisti del microfono. La versione multimediale è aggiornata da una redazione di studiosi, incaricata di seguire le mutazioni della lingua parlata e scritta, di vagliare i suggerimenti del pubblico e di accogliere le proposte di nuove voci.

Per la resa dei simboli fonetici sullo schermo non sono stati utilizzati caratteri speciali perché la visualizzazione in rete degli alfabeti fonetici richiede solitamente l’installazione nel computer di un insieme di font speciali, necessariamente dipendenti dal sistema operativo del computer: una soluzione macchinosa e poco affidabile, che, qualora fosse stata adottata, avrebbe escluso dalla fruizione del “DOP” una sezione significativa del suo pubblico potenziale. La soluzione messa a punto per il “DOP” consiste nel trasformare ogni singola trascrizione fonetica in un’immagine. Si ottiene così l’importante risultato di render possibile la consultazione del dizionario coi browser tradizionali e con qualsiasi tipo di sistema operativo, nonché gli aggiornamenti futuri, garantendo la tipificazione dei dati informatici.

Voice Il sito, oltre ad avere utili guide fonetiche ed ortografiche, ha anche un veloce motore di ricerca che fornirà l’esatta grafia e pronuncia della parola ricercata.

Il DOP, ossia il “Dizionario italiano di Ortografia e Pronunzia“, venne messo a punto per la prima volta nel 1969 dalla Rai, figlio diretto del “Prontuario di pronunzia e di ortografia per gli annunciatori radiofonici” pubblicato nel 1939, dall’EIAR, l’ente radiofonico di Stato, con lo scopo di diffondere un italiano corretto e ben pronunciato.

Ora che ne è stata realizzata una versione digitale, disponibile su Internet, può di certo affiancarsi con onore ad altri dizionari online come il De Mauro e il milione di frasi in 22 lingue diverse messe a disposizione dalla Commissione Europea per tutti i programmi di traduzione automatica (sembra che finalmente le varie istituzioni stiano iniziando a saper sfruttare al meglio la potenza di Internet); da non dimenticare, per gli anglofoni, un altro servizio simile al DOP nostrano, si chiama HowjSay e, con i suoi 89.257 termini, permette di ascoltare rapidamente la pronuncia corretta di una parola inglese.

Tag:accenti, dizionario, rai
CONTINUE READING >
4 comments
Ott 19 2007

La tastiera evoluta di Linux in grado di sommare i caratteri

Posted by Antonio Troise
Tweet

Dopo aver scritto alcuni articoli su come scrivere la tilde e la e maiuscola accentata su Windows, Mac e Linux, oggi vorrei porre la mia attenzione sulle funzionalità avanzate della tastiera Linux.
Sarà infatti oramai chiaro che l’interpretazione della tastiera da parte di un sistema operativo linux è molto più avanzata rispetto a quella operata da Windows, che sembra non considerare affatto le difficoltà che altre utenti non anglofoni possono incontrare durante la stesura di un testo.

In Linux, infatti, ad ogni tasto sono associate ben 4 lettere o caratteri (mentre su Windows di solito sono 2 e in qualche caso si arriva a 3 con il tasto Alt Gr) mediante le combinazioni di Shift e Alt Gr (Shift equivale all’italiano Maiusc). Ciò permette con estrema semplicità di scrivere ± (Alt Gr + Shift + 9) oppure «citare testi» senza doversi andare a scartabellare tutto la codifica Ascii. Per scrivere, infine, il carattere del copyright © è sufficiente premere i tasti Shift +Alt Gr+C.
Addirittura è possibile operare delle vere e proprie somme di caratteri digitando i caratteri uno di seguito all’altro come:

¨ + u = ü

La regola da seguire è molto semplice ce la spiega Pietro di Giorgio con questa immagine esplicativa:

Tastiera Linux

Tag:accenti, caratteri, Linux, tastiera, tilde, Windows
CONTINUE READING >
6 comments
Set 22 2007

Come scrivere rapidamente la E maiuscola accentata su Windows, Linux, Mac OS X, Firefox e Thunderbird e la ragione per cui le lettere accentate maiuscole sono così rare

Posted by Antonio Troise
Tweet

abcTajpu Dopo l’articolo sulla Combinazione di tasti per scrivere la tilde e le parentesi graffe su Windows, Linux e Mac OS X, ho preso spunto da un commento per estendere l’argomento su come scrivere rapidamente la E maiuscola accentata.

Come è noto per qualsiasi utente Windows, quando si deve scrivere una E maiuscola accentata (di solito la più usata è quella con accento grave), ma più in generale una qualsiasi vocale maiuscola accentata, diventa davvero una impresa, perché non esiste un metodo veloce.

Se su Linux è sufficiente tenere attivo il tasto BLOCK MAIUSC e premere la la lettera “è” (CAPS LOCK + è), per ottenere in automatico la lettera maiuscola corrispondente, mentre su Mac OS X, basta, invece, usare la combinazione di tasti “Alt Maiuscolo e“, e in codice html si può scrivere: È oppure È, per Windows il discorso si complica. Infatti l’unico modo è tenere in mente i corrispondenti codici ASCII e nel caso della È occorre premere ALT+0200 (del tastierino numerico).

Per chi, però, di solito usa Word, sa bene che se la la lettera accentata è preceduta da un punto, l’applicativo automaticamente converte la vocale in maiuscolo. Altrimenti, se dovete forzatamente convertire una lettera nella corrispondente maiuscola accentata, basta digitare la vocale minuscola e subito dopo premere contemporaneamente i tasti Shift + F3 (Maiusc + F3); il discorso funziona egualmente se si seleziona la lettera.

Ora, non tutti quando scriviamo usiamo Word, per cui queste soluzioni sono parziali e non accontentano di certo l’utilizzatore di PC più smaliziato. In particolare, per voi blogger, vorrei consigliare un’interessante estensione per Firefox e Thundirbird: abcTajpu.
Una volta installata, è possibile trovare, nel menu contestuale di qualsiasi campo di testo (quindi anche nell’area dove scrivete i vostri post quotidiani) la voce abcTajpu, da cui è possibile accedere ad una esauriente lista di lettere accentate, ma anche caratteri speciali, come lettere accentate o dieresi, caratteri ebraici, arabi o in sanscrito, ma anche tutti quei simboli grafici come ©, ≈, µ etc.
Interessante la funzionalità di conversione del testo selezionato in maiuscolo o minuscolo e nella codifica ROT13.
Inoltre, per i patiti delle shortcuts, dalle opzioni di configurazione è possibile configurare il comportamento dei tasti F1 fino all’F10 per avere a portata di mano gli accenti che usate più di frequente.

Maggiori spiegazioni le trovate sull’homepage dell’autore, ma di certo ora scrivere una lettera in tedesco o arabo, o scrivere in italiano corretto (magari anche con una tastiera inglese che di accenti non ne ha neanche l’ombra) sarà molto più semplice.

Per terminare il discorso vorrei riportare la spiegazione di Maurizio Pistone sul motivo del perché vi sia tutta questa incuria sulle lettere accentate maiuscole:

C’è un’altra ragione, di tipo estetico. La nostra scrittura – tanto a mano, quanto, e più, a stampa – ha una doppia origine. Le lettere minuscole nascono nel IX secolo dalla cosiddetta minuscola carolingia, subiscono varie trasformazioni, danno origine alla cosiddetta scrittura “gotica” (quella tutta a spigoli, che con i Goti non c’entra per nulla) per poi ridiventare arrotondate in età rinascimentale. Nel ‘500 da questa grafia a mano i primi tipografi, come il parigino Claude Garamond, trassero i caratteri minuscoli che, sostanzialmente, ancora adesso usiamo. Invece le lettere maiuscole riproducono quasi immutate le lettere dell’epigrafia monumentale romana. Naturalmente sono lettere nate senza accenti (e senza la W e la Y, ovviamente; ed anche senza la U, che si scriveva V); sono soprattutto lettere costruite secondo un ideale geometrico, che tende ad un’altezza uguale e ad una larghezza omogenea. L’uso di accenti (ma anche dell’apostrofo, e di tutti i segni di interpunzione) turba quest’armonia; e quindi è comprensibile se molti, per soddisfare l’occhio, tendano ad evitare i (pochi) accenti richiesti dalla lingua italiana.

UPDATE: Esiste un altro software freeware per Windows che permette di avere sempre sottomano e indipentemente dal browser o applicativo usato, la lista dei caratteri speciali. Si chiama Special Character Menus (scaricabile direttamente da qui) e non richiede alcuna installazione; quando è attivo, è sufficiente cliccare Windows+C per richiamare il menu di lettere speciali, che verranno inserite nei vostri testi mediante il semplice click del mouse.

UPDATE 2: Cicciokun in un suo post ci spiega come fare anche gli altri segni diacritici con le altre lettere che li supportano (À,É,Î,Õ,Ü…).

Tag:accenti, caratteri, firefox, Linux, Mac os x, tastiera, thunderbird, Windows
CONTINUE READING >
13 comments
SeguiPrezzi - Risparmia con Amazon.it

Categorie

Commenti Recenti

  • Antonio Troise on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Fioredicollina on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Antonio Troise on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Emanuele on UltraEdit: per i programmatori esigenti il miglior editor di testo per Windows, Mac OS e Linux
  • Luca on iDatabase: la valida alternativa di Bento per macOS e iOS per i database personali

Meta

  • Accedi
  • Entries RSS
  • Comments RSS
  • WordPress.org

Friends Link

  • GamerTagMatch
  • SeguiPrezzi.it – Risparmia con Amazon.it
  • Trendy Nail

Seguimi su:

  • facebook
  • twitter
  • rss
Creative Commons License
Levysoft by Antonio Troise is licensed under a Creative Commons Attribuzione-Non commerciale 2.5 Italia License.
© Copyright 2004 - 2014 - Levysoft by Antonio Troise