Linguaggi | Rev0lut1on 2.0 of my mind engine

Set 9 2011

Come nascono le parole italiane: perplimere

Stavo navigando qua e la su dei siti, quando mi imbatto nella seguente frase: “Egregio, cosa la perplime?“. Perplimere… mai sentita come parola anche se poi avevo comunque colto il significato che doveva avvicinarsi a “Egregio, cosa la rende perplesso?”. Ma quel perplimere era curioso, affascinante e inspiegabilmente sembrava funzionare meglio. Allora mi documento ed ecco che la solita Accademia della Crusca mi svela l’arcano.

Il verbo perplimere significa “essere perplesso” o “rendere perplesso”, ed è entrato nella nostra lingua in un passato recente, ma con un percorso particolare che ne ha limitato l’ambito d’uso e che ne ha pertanto impedito, almeno per ora, l’ingresso nei vocabolari di lingua italiana (nei quali non è attualmente registrato).

L’impiego del verbo perplimere è dovuto alla prosa creativa del comico Corrado Guzzanti, che lo ha lanciato nei primissimi anni Novanta, nella trasmissione televisiva “Avanzi”. La parola venne inserita in uno dei dialoghi fra il personaggio Rokko Smitherson e Serena Dandini, ed ebbe talmente successo che fu più volte riutilizzata nella trasmissione, con ricchi esempi nella coniugazione (perplimere, perplimo, perplimete, perplèi, perplime[re]) e nelle varianti (perplerre).

Molte furono le parole inventate da Rokko Smitherson (regista romano di “filmaggi de’ paura”), un personaggio che basava la sua comicità satirica proprio sui giochi di parole e su neoconiazioni allusive (sospensionismo, su astensionismo; antiproibizionale, su antiproibizionista; sopravvolare, su sorvolare; cartone animale, su cartone animato; psicoanale, su psicoanalista; ecc.). Fra le molte innovazioni linguistiche perplimere attecchì più facilmente nella lingua comune a causa della sua perfetta adeguatezza morfologica, che tra l’altro colma anche una lacuna lessicale della nostra lingua: il verbo è infatti spontaneamente riconducibile dai parlanti italiani al participio passato perplesso (sulla base di verbi come comprimere / compresso; sopprimere / soppresso, ecc.); e del resto manca in italiano un verbo che renda in modo sintetico l’azione dell’essere o del rendere perplessi, per cui il neologismo si incunea perfettamente nel nostro sistema linguistico.

Probabilmente per questa sua funzionalità nel coprire un vuoto morfologico e semantico (che l’italiano eredita dal latino), sulla scia della trasmissione la parola ebbe una notevole e crescente fortuna, seppure in contesti informali e per lo più in accezione ironica; e, del resto, nonostante l’origine peculiare, perplimere ha resistito a lungo nella nostra lingua, tanto che recentemente se ne è persa anche la sfumatura ironica, come emerge dai quesiti e dalle segnalazioni di neologismo giunti alla nostra redazione.

Ci sono molte parole o frasi che i comici lanciano e rimangono nell’aria per parecchi anni, ripetute da sempre più persone, fino a dimenticarne l’origine (quante espressioni mio padre usava che poi scoprire essere frasi di Carosello o di qualche comico dell’epoca), ma non mi ero mai imbattuto in un neologismo che riesce a coprire un vuoto morfologico e semantico dell’italiano tanto da essere accettato nella lingua italiana, a dimostrazione che la nostra lingua è ancora viva e in continua evoluzione.

Il caso nel corso dell’evoluzione della lingua

Per illustrarvi come la lingua italiana sia in continua evoluzione e che è nella forma attuale, solo per tutta una serie di coincidenze, farò un excursus e vi racconterò di una lezione universitaria sui dialetti che seguii tempo fa.

Nell’Italia antica si parlava il latino, ma il latino parlato era molto diverso da quello letterario oltre ad essere molto diverso regione per regione, poiché i vari popoli sottomessi dai Romani parlavano il latino con elementi fonetici e lessicali propri delle loro lingue originali. Dopo la fine dell’Impero Romano, venendo a mancare un centro politico che diffondesse un modello di lingua uguale per tutti, le differenze tra i vari latini regionali crebbero sempre più, poiché è nella natura delle lingue evolvere spontaneamente. Il risultato fu una grande frammentazione linguistica: così dai latini regionali nacquero i volgari, cioè i dialetti del latino parlati nelle varie città, mentre nella scrittura ancora si continuava ad usare il latino, e questa situazione si potrasse per diversi secoli.

Verso il XIII secolo alcuni autori iniziarono a scrivere versi d’amore nei propri volgari. Il primo volgare usato per la scrittura di versi fu il sicialiano e quindi fu la volta del volgare fiorentino. Ma fu solo grazie alla enorme fama di autori fiorentini come Dante Alighieri, che anche autori non toscani iniziarono a scrivere non più solo in latino, ma anche in fiorentino, fino a farla diventare la lingua dei letterati di tutta Italia, anche se nella vita quotidiana tutti continuavano a parlare solamente i volgari locali (chiamati poi dialetti). La cosa curiosa è che i dialetti italiani che ancora oggi conosciamo e usiamo non sono dall’italiano (che è venuto dopo, poiché è nato da uno di questi dialetti, il fiorentino) ma direttamente dal latino attraverso un processo durato ormai duemila anni. I dialetti nati prima della lingua nazionale (come il napoletano, il genovese, il veneziano, il siciliano, etc) sono, infatti, detti dialetti primari.

Questi dialetti primari hanno continuato ad essere l’unica forma di lingua parlata ancora molti secoli dopo Dante. Per esempio, nell’800, anche se oramai si scriveva solo in italiano e il latino era del tutto sparito dall’uso, tranne che per pochi esperimenti letterari e nella Chiesa, tutti parlavano nella vita quotidiana sempre e solo in dialetto.
L’esempio più significativo è quello di Alessandro Manzoni, autore di opere italiane considerate punto di riferimento fondamentale per la storia della lingua italiana, non parlava italiano perché nessuno lo faceva, tranne naturalmente in Toscana. Infatti, Manzoni era un aristocratico milanese e nella sua vita quotidiana e familiare, alternava il dialetto milanese con la lingua francese, che all’epoca era la lingua dell’aristocrazia. La lingua italiana al di fuori della Toscana era sempre e solo scritta. Sarà solo a partire dal 1860, con l’Unità di Italia, l’istruzione obbligatoria, le migrazioni, le esperienze militari e, successivamente, la diffusione dei media, che gradualmente l’Italiano divenne anche la lingua parlata.

Insomma, se non fosse per autori fiorentini come il sommo Dante, forse oggi l’italiano avrebbe potuto assomigliare molto di più al siciliano (furono per primi gli autori sicialiani a scrivere nel loro volgare) che al fiorentino. Oppure, Manzoni avrebbe potuto scrivere “I Promessi Sposi” in sicialiano, o magari, in milanese o francese!

Tag: dialetti, lingua-artificiale, lingue, neolingue

4 comments

Giu 1 2011

Sviluppo di Applicazioni per iOS: videocorso della Università di Pisa disponibile gratuitamente su iTunesU

Posted by Antonio Troise

Nel periodo dall’8 Marzo al 19 Aprile 2011, al Dipartimento di Informatica dell’Università di Pisa, in collaborazione con Apple Italia e Data Port, si è tenuto un corso di “Sviluppo di Applicazioni per iOS” (tutti i Martedì,Giovedì e Venerdì dalle ore 16.00 alle ore 18.00), rivolto principalmente a tutti gli studenti di informatica ed ingegneria informatica. La notizia è che, da qualche giorno, tutto il corso è disponibile anche nella sezione iTunesU, della stessa Università di Pisa. Potete scaricare, ovviamente gratuitamente, tutto il materiale (Audio, Video HD, Video SD e PDF) da questo link.

Il corso tratta gli aspetti metodologici e gli strumenti per lo sviluppo di applicazioni per dispositivi mobili iOS (iPhone, iPad, iPod Touch), incluse le nuove modalità di interazione basate su tecnologie multi-touch. In particolare:

progettazione object-oriented secondo il paradigma model-view-controller (MVC);
il linguaggio Objective-C;
gli strumenti di sviluppo per iOS su Mac OS X (iOS SDK);
persistenza dei dati, gestione dei sensori, geo-localizzazione, servizi di networking;
presentazione di buone pratiche di programmazione.

Questa è la prima volta che un corso di programmazione iOS è disponibile in Italiano e reso accessibile a tutti gratuitamente. Se, quindi, avete intenzione di approfondire la la programmazione per dispositivi iPhone/iPad, allora non potete lasciarvi sfuggire questa opportunità.

Tag: Apple, corso, ios, ipad, iPhone, itunes, itunesu, mvc, Video, videocorso

0 comments

Mag 19 2008

Google Translate ora è più completo

Posted by Antonio Troise

Non so quanti di voi hanno mai avuto la necessità di tradurre in italiano con Google Translate un sito scritto in una lingua che non fosse l’inglese: fino a qualche tempo fa non era possibile e tutte le traduzioni dovevano essere ricondotte prima alla lingua inglese e, poi, eventualmente si poteva ritradurre il tutto dall’inglese all’italiano. Non c’è bisogno che vi dica che il risultato era sempre scadente poiché le informazioni contenute si degradavano: il principio, infatti è quello, discusso più volte su questo sito, dell’entropia delle traduzioni (altri spunti di riflessione li trovate anche qui e qui).

Ebbene, finalmente, Google Translate, il servizio di Google che permette di tradurre parole o intere porzioni di testo da una lingua all’altra, oltre ad avere aggiunto altre dieci nuove lingue ( per cui gli idiomi disponibili diventano 23), è possibile tradurre da una qualsiasi delle 23 lingue in un’altra, con tutte le combinazioni possibili, divenendo di fatto il traduttore online gratuito più completo. Così ora, se vi va, sarà possibile tradurre un testo italiano in cinese, e uno norvegese in croato!

Infatti le lingue disponibili per le traduzioni sono: Inglese, Arabico, Bulgaro, Cinese, Croato, Ceco, Danese, Tedesco, Finlandese, Francia, Olandese, Greco, Hindi, Italiano, Giapponese, Coreano, Norvegese, Polacco, Portoghese, Rumeno, Russo, Spagnolo, Svedese.

Cosa non da poco per tutti i programmatori, è l’introduzione delle nuove Google AJAX Translation API, con cui sarà possibile interfacciare le nostre applicazioni web 2.0 con il servizio di traduzione di Google.
Se volete approfondire l’argomento, vi consiglio di leggere, oltre che la Developer’s Guide di Google con i relativi esempi esplicativi, anche questa interessante guida: Google AJAX Language API: tutorial sul funzionamento.

Infine, nel caso non sappiate che lingua avete davanti, Google ha aggiunto anche una funzione, chiamata “detect language”, in grado di “capire” in automatico, incollata una porzione di testo, di che lingua si tratti.

Tag: Ajax, entropia, Google, google_translate, Internet, Web 2.0

10 comments

Mar 17 2008

Le ricerche diacritiche e case insensitive dei motori di ricerca: cosa sono i segni diacritici e come non vengono usati correttamente nella lingua italiana

Posted by Antonio Troise

Non ci si pensa molto spesso ma, dovete sapere, che le ricerche che quotidianamente fate sui motori di ricerca, per ottenere dei buoni risultati, devono corrispondere a dei criteri ben precisi di universalità del contesto. Quindi, oltre ad essere case insensitive, ovvero insensibili alla differenza tra lettere minuscole e maiuscole (quando cerco “Antonio” verranno trovate anche le corrispondenze “antonio” e “ANTONIO“), lo sono anche ai segni diacritici, ovvero sono insensibili alle lettere accentate.
Ad esempio, se si digita “università” con accento finale o “universita” senza accento finale, si ottiene sempre lo stesso risultato. Ma il bello è che otterrei gli stessi risultati se cercassi anche la parola: ùnìvèrsita. Analogamente accade se viene cercato “Casa“, poiché troveremo anche i termini “casà” e “çàsà“.

Cosa sono i segni diacritici?

Per chi non lo sapesse, un segno diacritico, è un segno aggiunto ad una lettera per modificarne la pronuncia o per distinguere il significato di parole simili e compaiono generalmente al di sopra o al di sotto della lettera cui si riferiscono. Il principale uso dei segni diacritici è modificare il suono di una lettera, ma vi si fa ricorso anche in senso più generale per cambiare il valore grammaticale e il significato di una parola (ad esempio, in italiano l’articolo e pronome la rispetto all’avverbio là: la pronuncia è la stessa).
Tra i segni diacritici, troviamo quelli più comuni per la lingua italiana (à è é ì ò ù –) e quelli meno comuni (ç, §, ê, ï, ô, Ø). Fra i segni diacritici i più diffusi sono l’accento acuto ( ´ ), grave ( ` ) e circonflesso ( ˆ ); il segno di vocale lunga ( ¯ ); il segno di breve ( ˘ ); la dieresi o Umlaut ( ¨ ); la cediglia ( ¸ ); la ‘pipetta’ ( č ) e la tilde ( ˜ ).

Perché si escludono i segni diacritici?

Per impostazione predefinita, Google non riconosce accenti o altri segni diacritici. Questo, perché, oltre a permettere un numero di risultati nettamente superiore, permette anche di escludere la possibilità di avere risultati ambigui.
Infatti, è noto che, nella lingua scritta del web, è facile imbattersi nella sostituzione delle lettere accentate con il digramma ‘lettera+apice‘.

L’Accademia della Crusca spiega molto bene questo particolare comportamento, proprio degli utenti internet ma poi diffusosi un po’ in tutte le aree, e che va ricercato in due motivi:

Tutte le lettere dotate di segni diacritici (accenti, dieresi, cediglia, ecc.) non rientrano nel set-base di caratteri alfanumerici, cioè nei 128 caratteri che, secondo il primo standard ASCII sono decodificati correttamente da ogni computer, indipendentemente dalla sua configurazione. Tutti i caratteri che non fanno parte di questo gruppo possono non venire riconosciuti da una macchina: in tale caso, l’utente non visualizzerà sul proprio PC il carattere diacritico (proprio come accade per WordPress con la codifica UTF-8).
In seguito, la codifica fu ampliata a 8 bit, arrivando a 256 (2^8) posizioni. Le nuove 128 posizioni disponibili furono utilizzate (in maniera diversa da ogni paese) per una serie di lettere e simboli non compresi tra i primi 128 caratteri. Le lettere accentate dell’italiano fanno parte di questa codifica, definita ASCII estesa.
Se ancora per le lettere minuscole ci sono eccezioni, le lettere maiuscole sono scritte nella grafia ‘lettera+apice’ nella quasi totalità dei casi. Il motivo di tale grafia è da ricercarsi dal fatto che normalmente le tastiere italiane non prevedono questo set di caratteri e la maggior parte degli utenti non conosce la combinazione di tasti per le maiuscole accentate (su Windows questi caratteri si ottengono tenendo premuto il tasto ALT e digitando il corrispondente codice ASCII).
A tal proposito, se avete dubbi potete consultare queste mie guide su come digitare rapidamente la E maiuscola accentata su Windows, Linux, Mac OS X oppure quella su come scrivere la tilde e le parentesi graffe su Windows, Linux e Mac OS X.

Come vedete, la scelta di sostituire le lettere accentate con una combinazione di due caratteri semplici contigui ha delle solite basi storiche e, quindi, per non incorrere nei citati problemi di decodifica o di ricerca del codice ascii corrispondente, chi comunica abitualmente attraverso il computer evita quanto più possibile l’uso dei caratteri estesi: nel caso dell’italiano, le lettere accentate (come è, verità o perché) vengono sostituite dalla combinazione della lettera semplice corrispondente seguita da un apice (come e’, perche’, verita’).

Ma il bello è che, siccome il computer oramai si è esteso in qualsiasi altro settore lavorativo e non, è facile trovare questo peculiare costume linguistico anche in altri ambiti apparentemente lontani dal computer, sia per interferenza con le scritture informatiche che per pigrizia (visto che le minuscole accentate dell’italiano in realtà sono tutte presenti sulla tastiera): è il caso delle didascalie televisive, dei sottotitoli televisivi, di articoli di giornale e delle scritture burocratiche.

Quindi, sebbene nettamente errata come forma, è oramai universalmente accettata. Ed è, quindi, anche per questo motivo che Google, come tutti gli altri motori di ricerca, non considera, per impostazione predefinita, i segni diacritici.

Come forzare Google a cercare con i segni diacritici

Oltre ai segni diacritici, Google non fa distinzione anche tra lettere minuscole e maiuscole poiché considera tutte le lettere come minuscole. Ad esempio, digitando “google”, “GOOGLE” e “GoOgLE” si ottengono sempre gli stessi risultati.
Se, però, avete l’esigenza di cercare una certa parola in modo che si distinguano le maiuscole dalle minuscole, e le lettere accentate da quelle normali, non dovete fare altro che specificare al motore di ricerca di effettuare la ricerca in maniera diacritica e case sensitive. Per farlo è sufficiente ricercare il termine racchiuso tra apici: “ùnìvèrsita”.

Se, invece, come nel caso della ricerca di un nome di città straniera, si vogliano rispettare solamente i segni diacritici ma non si vogliano considerare le differenze tra maiuscole e minuscole, le linee guide di Google ci spiegano che, sarà sufficiente anteporre alla parola da ricercare il segno +.
In altre parole, se si digita Muenchen e München si ottengono sempre gli stessi risultati, mentre si ottengono risultati diversi nel caso si esegua una ricerca del tipo +Muenchen rispetto a +München.

Tag: accenti, ascii, caratteri, diacritico, Google, Linguaggi, pronuncia, tastiera, tilde, utf-8

8 comments

Feb 6 2008

Come pronunciare correttamente termini dall’accentazione dubbia usando il DOP online, ovvero il Dizionario italiano multimediale e multilingue d’ortografia e di pronuncia

Posted by Antonio Troise

Fonetica La nostra lingua è bella perché capricciosa: oltre a trasformarsi continuamente come tutto ciò che è vivo, ha regole contraddette da eccezioni. Spesso, quindi, capita di avere dei dubbi su dove far cadere gli accenti per parole tipo rubrica, utensile, regime, amaca, baule, edile, caduco, cosmopolita, impari, pudico, ossimoro, robot, o zaffiro poiché, a volte, anche il dizionario “De Mauro” (Paravia) consultabile su Internet non prevede una pronuncia univoca, assegnando indifferentemente l’accento sulla penultima o sulla terzultima sillaba, senza alcuna preferenza.

Se non volete girare per internet alla ricerca di una risposta da parte di autorevoli esperti di fonetica che vi spiegano la correttezza o meno delle pronuncia piana o sdrucciola e non volete imparare a leggere correttamente gli accenti sul sito dell’Accademia della Crusca (che elenca tutti i termini dall’accentazione “dubbia”) potete fare un salto sul primo Dizionario multimediale di ortografia e pronuncia (DOP) della lingua italiana, uno strumento importante per imparare la corretta ortografia e la perfetta pronuncia delle parole della nostra lingua.

Un lavoro realizzato dalla RAI davvero interessante che si fa forza delle oltre 129.000 voci (di cui 92.000 voci italiane e e 37.000 di altre lingue) con oltre seimila citazioni d’autore, tutte ascoltabili in formato audio (grazie alla tecnologia Flash), che ha richiesto 8 anni di lavoro e 5000 ore di registrazione presso le sedi RAI.
Questa edizione multimediale oltre ad essere uno strumento di unificazione linguistica e di riappropriazione della lingua madre è, anche, un innovativo strumento di consultazione che è insieme rigoroso e semplice, perché alle trascrizioni fonetiche, del resto assai chiare e intuitive, s’accompagna anche la lettura ad alta voce: un sussidio essenziale per chi non conosce gli oltre sessanta segni dell’alfabeto fonetico.

Tra i lemmi troviamo parole ordinarie e termini tecnici, nomi propri di persone, di luoghi, d’istituzioni e altro. La versione online del “DOP” è accessibile gratuitamente in tutto il mondo ed è uno strumento utilissimo per tutti, indispensabile per gli studenti, per gli studiosi della lingua italiana e per i professionisti del microfono. La versione multimediale è aggiornata da una redazione di studiosi, incaricata di seguire le mutazioni della lingua parlata e scritta, di vagliare i suggerimenti del pubblico e di accogliere le proposte di nuove voci.

Per la resa dei simboli fonetici sullo schermo non sono stati utilizzati caratteri speciali perché la visualizzazione in rete degli alfabeti fonetici richiede solitamente l’installazione nel computer di un insieme di font speciali, necessariamente dipendenti dal sistema operativo del computer: una soluzione macchinosa e poco affidabile, che, qualora fosse stata adottata, avrebbe escluso dalla fruizione del “DOP” una sezione significativa del suo pubblico potenziale. La soluzione messa a punto per il “DOP” consiste nel trasformare ogni singola trascrizione fonetica in un’immagine. Si ottiene così l’importante risultato di render possibile la consultazione del dizionario coi browser tradizionali e con qualsiasi tipo di sistema operativo, nonché gli aggiornamenti futuri, garantendo la tipificazione dei dati informatici.

Voice Il sito, oltre ad avere utili guide fonetiche ed ortografiche, ha anche un veloce motore di ricerca che fornirà l’esatta grafia e pronuncia della parola ricercata.

Il DOP, ossia il “Dizionario italiano di Ortografia e Pronunzia“, venne messo a punto per la prima volta nel 1969 dalla Rai, figlio diretto del “Prontuario di pronunzia e di ortografia per gli annunciatori radiofonici” pubblicato nel 1939, dall’EIAR, l’ente radiofonico di Stato, con lo scopo di diffondere un italiano corretto e ben pronunciato.

Ora che ne è stata realizzata una versione digitale, disponibile su Internet, può di certo affiancarsi con onore ad altri dizionari online come il De Mauro e il milione di frasi in 22 lingue diverse messe a disposizione dalla Commissione Europea per tutti i programmi di traduzione automatica (sembra che finalmente le varie istituzioni stiano iniziando a saper sfruttare al meglio la potenza di Internet); da non dimenticare, per gli anglofoni, un altro servizio simile al DOP nostrano, si chiama HowjSay e, con i suoi 89.257 termini, permette di ascoltare rapidamente la pronuncia corretta di una parola inglese.

Tag: accenti, dizionario, rai

4 comments

Gen 25 2008

Un milione di frasi al servizio dei programmi di traduzione automatica

Posted by Antonio Troise

Italwin I programmi di traduzione automatica da una lingua ad un’altra non fanno progressi da una quindicina di anni almeno. Ne è un esempio il fatto che io riesca ad utilizzare tutt’oggi un programma di traduzione inglese/italiano risalente al vecchio Windows 3.11 (correva l’anno 1993), come Italwin della Microtac, senza notare particolare differenze con software di traduzione più evoluti come Babel Fish o Google Translate.

E forse sarà stato anche questo il motivo che ha spinto la Commissione Europea di mettere a disposizione gratuitamente una enorme raccolta di dati linguistici allo scopo di dare una svolta alla creazione di una nuova generazione di programmi di traduzione automatica. Il patrimonio è immenso: oltre 1 milione di frasi di ben 22 lingue diverse tradotte da professionisti di alto livello che lavorano nella UE.

Con un archivio così ricco e ricercato, messo a disposizione dalla Commissione del Directorate General of Translation (DGT), ora i programmatori dei software di traduzione non avranno più scuse per non migliorare i loro programmi. Disporre di una tale enorme base di partenza permetterà ai programmatori di tutto il mondo di attingere e tradurre correttamente e nel loro contesto parole e frasi delle più disparate, con traduzioni professionali che riguardano argomenti di ogni genere, dall’IT all’agricoltura. Inoltre, dato che il sistema di “tagging” che correla ogni lingua è già disponibile, parte più complicata del lavoro è già stata praticamente fatta e ciò rende i documenti adattissimi al lavoro degli sviluppatori di traduttori software.

La maggior parte delle frasi scelte sono tratte dalle quotidiane traduzioni delle normative comunitarie in tutte le lingue degli stati membri dell’Unione Europea, allo scopo di dare a tutti la possibilità di accoglierle, senza dubbi, nel proprio quadro giuridico. Per dare un’idea della mole di lavoro, basti pensare che i servizi di traduzione lavorano con ben 253 coppie di combinazioni linguistiche possibili e producono all’incirca 1,5 milioni di pagine tradotte l’anno. Una memoria linguistica che viene utilizzata quotidianamente dallo staff di traduttori della UE e che è stata indicizzata dettagliatamente per rispondere alle esigenze informative della Commissione.

Finalmente, così, anche le minoranze linguistiche, come per il lettone o il rumeno, disporranno di valide traduzioni.

Se volete dare un’occhiata, potete scaricare il DGT Translation Memory che è costituito da 12 file zip (Volume_1.zip, … Volume_12.zip) grandi, ognuno, 100 MB, da questa pagina.

Tag: Google, Linguaggi, Software

1 comment

Dic 28 2007

PanImages: ricerca multilingua delle immagini

Posted by Antonio Troise

Questo è un progetto davvero interessante nonostante la semplicità dell’idea e può essere utile a tutti coloro che devono cercare una particolare foto con Google Images o Flickr. Il concetto che sta alla base di PanImages, un nuovo strumento realizzato dall’Università di Washington, è che consente di cercare tra le immagini indicizzate da Google e quelle presenti su Flickr formulando le richieste nella propria lingua e ricevendo come risultati (attraverso OR logici) anche termini che corrispondono alla traduzione della parola in altre lingue come inglese, francese, giapponese, etc. (per alcune parole si arriva anche ad oltre 100 traduzioni)
Nel caso di termini che presentano molteplici significati, questi vengono raggruppati in gruppi, permettendo di scegliere tra un significato e l’altro.

Per esempio, se inserite il termine: “bufera” nel campo di ricerca verranno restituiti i seguenti risultati: “bufera OR storm OR bourrasque OR orage OR remue-ménage OR tempête OR tourmente“. Come vedete è possibile trovare sia la traduzione che alcuni sinonimi, cosa che ai fini della ricerca per immagini è una cosa molto vantaggiosa!
E’ facile, quindi, dedurre che ora la ricerca per immagini risulterà sicuramente più fruttuosa, come potete vedere da questa ricerca.

In effetti, questo, non è altro che il metodo automatico che adottavo anche io quando ero alla ricerca di una immagine con con un certo contenuto: scrivevo la parola in italiano e poi in inglese. Ma con PanImages non occorre sapere le lingue ed è possibile spaziare fino ad un centinaio dio lingue disponibili.

Inoltre, come vuole qualsiasi servizio web 2.0 user generated content, ciascun termine inserito è stato inserito dall’utente: infatti, senza alcuna registrazione e, per ora, senza alcuna moderazione, è sufficiente introdurre le traduzioni mancanti delle parole.

Tag: flickr, foto, Google, Web 2.0

0 comments

Dic 14 2007

Mastor: il traduttore simultaneo che non fa la traduzione letterale delle parole ma comprende il concetto della frase

Posted by Antonio Troise

I ricercatori di IBM sono impegnati nello sviluppo di un software che potrebbe permettere a due persone che parlano lingue diverse di comunicare tra loro con l’ausilio di dispositivi portatili con funzionalità vocale. Il nome in codice del progetto è Mastor (Multilingual Automatic Speech-to speech Translator) ed è stato sviluppato dal Watson Research dell’IBM per PC e Palmari.
Il funzionamento del nuovo software, si articola in tre momenti successivi:

Mastor memorizza una frase pronunciata da uno degli interlocutori e la converte in testo scritto;
quindi esegue una traduzione di tale frase nella lingua del secondo interlocutore;
infine riferisce la frase tradotta attraverso un sintetizzatore vocale.

A dirigere il progetto è Yuqing Gao in una intervista ha affermato che il Mastor traduce in simultanea conversazioni libere. A differenza di altri prodotti simili, non richiede, però, l’uso di frasi già memorizzate e non deve identificare ogni parola pronunciata, ma è in grado di comprendere il “concetto”. La traduzione del Mastor, infatti, si basa sull’analisi statistica del linguaggio: il traduttore automatico scompone la frase d’origine in un set di idee concettuali e ripropone gli stessi concetti nella lingua richiesta.

Se, per esempio, tale frase esprime una richiesta di aiuto di carattere medico, essa sarà tradotta sempre con un’unica frase predefinita che ne conservi il significato, senza ricorrere ad una traduzione letterale delle singole parole che la compongono. In tal modo, si potrà evitare l’utilizzo di corposi database, necessari per la traduzione, e rendere più agevole l’introduzione della nuova tecnologia IBM in dispositivi di ridotte dimensioni.

Tra le sue caratteristiche, abbiamo anche una notevole riduzione degli errori legati a differenze di accento, utilizzo di espressioni dialettali e interiezioni, e di diverse tonalità di voce.

Attualmente sono in fase di sviluppo i traduttori inglese-arabo standard, inglese-arabo iracheno e inglese-cinese: sembra, infatti, che il direttore del progetto Yuqing Gao abbia dichiarato che le lingue europee siano una sfida troppe semplice per loro! Io invece credo che quello delle lingue arabe e orientali sia un terreno fertile e molto remunerativo per via delle situazioni socio-politiche in cui versano gli Stati Uniti, il principale acquirente dell’IBM.
Infatti, anche se l’IBM ha precisato che la tecnologia Mastor è ancora in fase di sviluppo e che è ancora troppo presto per prevedere quando tale tecnologia potrà essere inclusa nei primi dispositivi hardware, nel frattempo, ha donato 1.000 dispositivi e 10.000 copie del software alle forze statunitensi in Iraq.

Qui potete trovare una dimostrazione video.

Tag: scienza

2 comments

Nov 25 2007

Come filtrare le email per lingua su Gmail

Posted by Antonio Troise

Questa funzionalità di Gmail è, secondo me, davvero utile quando si vuole discriminare, con un semplice comando, le email ricevute in lingua italiana da quelle, per esempio, in lingua inglese. Per fare questo è sufficiente scrivere nel campo di ricerca di Gmail una delle seguenti chiavi: lang:it o lang:italian o language:italian. Se volete filtrare tutte le email scritte in inglese, invece, basterà scrivere: lang:en o lang:english o language:english. In pratica la regola vuole che è possibile usare la funzione lang: o language: seguito dal nome della lingua in inglese o dalla sua relativa abbreviazione.

A queste chiavi si possono aggiungere anche altri operatori per rendere più precisa la ricerca: qui trovate una lista di operatori disponibili su Gmail.

Creare filtri personali per lingua

Se intendete usare questa funzione molto spesso, allora potete creare un filtro personalizzato (dal menu Impostazioni/Filtri) in cui specificare i criteri di ricerca per linguaggio e quindi selezionare l’azione che si desidera eseguire per i messaggi che corrispondono ai criteri specificati (p.es. “Segna come Speciale“, “Applica l’etichetta“, “Inoltra a“, “Elimina“). Nell’atto della creazione di un filtro di posta elettronica è possibile specificare sia il criterio “Contiene le parole” con la funzione lang:xx ma anche “Non contiene:” con la funzione lang:xx. Così, magari, è possibile eliminare tutte le email che non sono state scritte in italiano o in inglese (lang:it OR lang:en), perché magari si può trattare di spam.

UPDATE Giugno 2023: Le informazioni di questo articolo sono obsolete e il metodo per creare il filtro su Gmail in base alla lingua non è più supportato da Google. Qui trovate tutte le opzioni di ricerca disponibili per Gmail.

Tag: email, gmail, Google

0 comments

Nov 17 2007

10 curiosità sulla lingua inglese

Posted by Antonio Troise

English Dove meno me lo sarei aspettato, ovvero sul sito touch generations (che sponsorizza l’uso del touch screen per il Nintendo DS), ho trovato queste interessanti 10 curiosità sulla lingua inglese, che ho deciso di condividere con voi.

Nella lingua inglese esistono oltre 500.000 parole, ma nessuna che faccia rima con silver (argento), purple (porpora) e orange (arancione).
Negli Stati Uniti d’America ci sono più persone di madrelingua inglese rispetto alla somma di tutti i madrelingua inglesi che vivono nel resto del mondo.
Esistono più persone di lingua madre cinese mandarino e hindi rispetto all’inglese, ma la loro distribuzione geografica come prima e seconda lingua è molto più limitata dell’inglese.
Oltre due terzi degli scienziati di tutto il mondo scrive in inglese.
Dopo la seconda guerra mondiale, l’influenza economica e culturale degli Stati Uniti è notevolmente aumentata e ciò ha contribuito al progressivo “assorbimento” dell’inglese da parte di altre culture.
L’inglese è la lingua ufficiale o semi-ufficiale di oltre 60 paesi.
A livello mondiale, l’inglese è la lingua più insegnata come seconda lingua.
Non esiste un’altra parola della lingua inglese che abbia tante definizioni quante il termine “set”.
A volte la pronuncia dell’inglese può essere alquanto complessa, ad esempio, a seconda della parola di cui fa parte, “ough” può essere pronunciato in nove modi diversi, illustrati nella frase seguente: “A rough-coated, dough-faced, thoughtful ploughman strode through the streets of Scarborough; after falling into a slough, he coughed and hiccoughed.”
Composta da ben 45 lettere, sembra che Pneumonoultramicroscopicsilicovocanoconiosis sia la parola più lunga esistente nella lingua inglese.