Gen 25 2008

Un milione di frasi al servizio dei programmi di traduzione automatica

Tempo di Lettura: 2 minuti

Italwin I programmi di traduzione automatica da una lingua ad un’altra non fanno progressi da una quindicina di anni almeno. Ne è un esempio il fatto che io riesca ad utilizzare tutt’oggi un programma di traduzione inglese/italiano risalente al vecchio Windows 3.11 (correva l’anno 1993), come Italwin della Microtac, senza notare particolare differenze con software di traduzione più evoluti come Babel Fish o Google Translate.

E forse sarà stato anche questo il motivo che ha spinto la Commissione Europea di mettere a disposizione gratuitamente una enorme raccolta di dati linguistici allo scopo di dare una svolta alla creazione di una nuova generazione di programmi di traduzione automatica. Il patrimonio è immenso: oltre 1 milione di frasi di ben 22 lingue diverse tradotte da professionisti di alto livello che lavorano nella UE.

Con un archivio così ricco e ricercato, messo a disposizione dalla Commissione del Directorate General of Translation (DGT), ora i programmatori dei software di traduzione non avranno più scuse per non migliorare i loro programmi. Disporre di una tale enorme base di partenza permetterà ai programmatori di tutto il mondo di attingere e tradurre correttamente e nel loro contesto parole e frasi delle più disparate, con traduzioni professionali che riguardano argomenti di ogni genere, dall’IT all’agricoltura. Inoltre, dato che il sistema di “tagging” che correla ogni lingua è già disponibile, parte più complicata del lavoro è già stata praticamente fatta e ciò rende i documenti adattissimi al lavoro degli sviluppatori di traduttori software.

La maggior parte delle frasi scelte sono tratte dalle quotidiane traduzioni delle normative comunitarie in tutte le lingue degli stati membri dell’Unione Europea, allo scopo di dare a tutti la possibilità di accoglierle, senza dubbi, nel proprio quadro giuridico. Per dare un’idea della mole di lavoro, basti pensare che i servizi di traduzione lavorano con ben 253 coppie di combinazioni linguistiche possibili e producono all’incirca 1,5 milioni di pagine tradotte l’anno. Una memoria linguistica che viene utilizzata quotidianamente dallo staff di traduttori della UE e che è stata indicizzata dettagliatamente per rispondere alle esigenze informative della Commissione.

Finalmente, così, anche le minoranze linguistiche, come per il lettone o il rumeno, disporranno di valide traduzioni.

Se volete dare un’occhiata, potete scaricare il DGT Translation Memory che è costituito da 12 file zip (Volume_1.zip, … Volume_12.zip) grandi, ognuno, 100 MB, da questa pagina.