CAPITOLO V L’INFORMATICA E LA TERMINOLOGIA PER IATE: DALLE TERMBASE VERSO
A.3 Schede analitiche di estrattori terminologici
In questo paragrafo si analizzeranno i maggiori strumenti di estrazione di terminologia. Non è possibile effettuare una classificazione onnicomprensiva a causa della complessità dei software in termini di piattaforme e tecnologie. Tuttavia, le schede presentano sia campi comuni a tutti i tool che sezioni dedicate ad eventuali caratteristiche specifiche. Ogni scheda si chiude con note e valutazioni su ogni estrattore.
Nome Synchroterm
Casa produttrice Terminotix
Versione Synchroterm 2014 Installazione Sì (con licenza)
File supportati Documenti: Microsoft Word, Microsoft Excel, RTF, txt, HTML, pdf
Memorie Traduttive: Trados, Déjà-vu, Word Fast, SDLX, MemoQ, SDL Studio, MultiTrans, Fusion
Lingue Inglese, Francese, Spagnolo, Italiano, Portoghese, Tedesco, Svedese, Russo, Greco, Olandese, Ungherese, Norvegese, Polacco, Turco, Ceco, Danese, Bulgaro, Finlandese, Romeno, Lituano, Slovacco, Sloveno, Arabo, Cinese Algoritmi di
estrazione
Statistici, sintattici, morfologici
Export Terminotix LogiTerm, HTML, Trados MultiTerm 5.5, Trados MultiTerm iX, Trados WinAlign, Microsoft Excel, PROMT
186
Entrate
Terminologiche e funzionalità
Synchroterm prevede tre tipologie di creazione di entrate terminologiche:
Batch processing: questa modalità permette la creazione automatica di
entrate terminologiche. Il numero di entrate e il numero i errori dipende dalle opzioni selezionate nel tab “Tools & Config”, tra cui, ad esempio, “Mininum Match Value” e “Minimum Occurence”. Il Batch processing permette di generare un ampio numero di entrate ma anche il numero di errori sarà più alto, mentre il numero di entrate ad aggiungere manualmente sarà più basso.
Entrate manuali: questa procedure viene impiegata per creare entrate,
singolarmente, dalle liste di termini estratti proposte dal software. È possibile visualizzare i termini nel proprio contesto ed eventualmente modificarlo o aggiungerlo, cancellare espressioni dalle liste di origine e destinazione e modificare l’entrata stessa.
Entrate manuali di termini non riconosciuti dal software: è possibile
aggiungere termini anche nel caso in cui Synchroterm non li abbia riconosciuti o non li abbia riconosciuti correttamente.
Note e Valutazioni Synchroterm è un valido strumento di estrazione terminologica, che permette un alto grado di personalizzazione dei progetti. Supporta molte lingue e formati ed è dotato di un’interfaccia essenziale ma intuitiva. L’estrazione è possibile in più documenti simultaneamente e la possibilità di aggiungere e verificare i contesti dei termini rende il lavoro di estrazione più semplice. Offre la possibilità di creare liste di termini da ignorare per le estrazioni successive, creando quindi meccanismi di “apprendimento”.
187
Synchroterm estrae spesso non-termini ed espressioni non rilevanti. In altri casi, invece, non riesce ad identificare correttamente dei termini e/o espressioni monorematiche (a meno di non creare eccessivo rumore). Non tutte le lingue ufficiali europee sono supportate.
Nome MultiTerm Extract
Casa produttrice SDL Versione 2009 Installazione sì
File supportati txt,doc, html, htm, tmx, rtf, xml, sgm, sgml, ppt, xls, tmx, tmw, ttx Lingue Tutte le lingue Unicode
Algoritmi di estrazione
Statistici
Export TXT, Multiterm XML, Multiterm Export, sdltb (Multiterm Termbase) Entrate
Terminologiche e funzionalità
La creazione di entrate avviene in maniera piuttosto accurata e il software offre possibilità di filtrare tra quelle validate e non validate. MT Extract propone, automaticamente, una lista di stop-words per progetti di estrazione bilingue e monolingue e un Basic Vocabulary, che può essere utilizzato per migliorare ulteriormente i processi estrattivi futuri
Note e Valutazioni La qualità dell’estrazione è probabilmente la più accurata tra i tool testati. Molto utile la possibilità di filtrare tra liste di termini validati e non validati. I processi di estrazioni impiegano una considerevole quantità di tempo, ma ciò
188
dipende anche dalla lunghezza e complessità dei documenti/file impiegati per l’estrazione. Essendo un’estensione della suite SDL MultiTerm, beneficia dell’uso degli standard SDL e gli output sono compatibili al 100% con SDL Studio.
Nome TaaS – Terminology as a Service (Tilde Terminology)
Casa produttrice Tilde Versione -
Installazione No, applicazione online269
File supportati PDF, Microsoft Word, Microsoft Excel, Microsoft PowerPoint, Text (.txt), Rich Text (.rtf), XLIFF, HTML, XML, MIF
Lingue Bulgaro, Croato, Ceco, Danese, Olandese, Inglese, Estone, Finlandese, Francese, Greco, Ungherese, Irlandese, Italiano, Lettone, Lituano, Maltese, Polacco, Portoghese, Romeno, Russo, Slovacco, Sloveno, Svedese, Turco Algoritmi di
estrazione
Linguistici, statistici e basati su corpora
TaaS si basa su diversi strumenti di estrazione.
TWSC (Tilde wrapper system for CollTerm), uno strumento basato sull’analisi linguistica (taggatura del discorso, pattern morfosintattici ecc.) integrati da risorse statistiche (ad esempio l’analisi di frequenza).
269 https://term.tilde.com/.
189
L’utente può scegliere tra un’estrazione basata sulla quantità, bilanciata, o qualità;
Kilgray: l’estrattore terminologico Kilgray270 si basa su analisi statistica
indipendente dalla lingua
Si può inoltre normalizzare i termini nelle forme canoniche o da dizionario, mantenere i termini esistenti in modo che nuovi termini estratti vadano ad integrarsi nella collezione e avere la possibilità di visualizzare i termini all’interno nel testo tramite processi di evidenziazione.
La piattaforma permette inoltre di selezionare fonti per lookup della traduzione di destinazione, tra cui:
TaaS public collections, collezioni pubbliche di altri utenti
Le proprie collezioni
EuroTermBank
IATE
TAUS Data, piattaforma di memorie traduttive
Web Data, Database statistico che immagazzina automaticamente dati estratti dal Web
Export TBX, CVS, TSV, Moses Entrate
Terminologiche e funzionalità
La creazione di entrate avviene in maniera piuttosto semplice e intuitiva. È possibile modificare i termini e aggiungere nuovi termini fonte, definizioni, note, uso, tipologia di termine, identificatori, etc. Le entrate possono essere
270 Kilgray è l’azienda produttrice del CATool MemoQ, https://www.memoq.com/en/about-
190
validate con semplicità e il tool offre anche strumenti di clean-up semiautomatici.
Note e Valutazioni TaaS beneficia dell’essenzialità dei tool online e l’interfaccia è particolarmente accessibile e intuitiva. È tra i pochi a permettere un’ampia scelta di algoritmi di estrazione e supporta tutte le lingue ufficiali dell’UE più il Russo. Fondamentale, inoltre, la componente cloud. L’estrazione, in alcuni casi, può però anche impiegare diverse ore o giorni. TaaS notifica automaticamente l’utente quando il processo è completato.
Nome MemoQ (TermExtraction)271
Casa produttrice Kilgray
Versione 2015 Translator Pro 7.8.159 Installazione sì
File supportati Documenti UniCode, Memorie traduttive, LiveDocs corpus documents Lingue Tutte le UniCode
Algoritmi di estrazione
statistici
Export CSV, Multiterm XML, TaaS272
271 MemoQ è un CATool che integra una sezione dedicata all’estrazione terminologica. A differenza di altri
strumenti simili, come ad esempio SDL Studio, che offre strumenti separati quali MultiTerm Extract, da acquistare separatamente, MemoQ li offre nel pacchetto di installazione di default. In questa scheda si parla dunque solo della funzione TermExtraction del software e non delle altre funzionalità.
191
Entrate
Terminologiche e funzionalità
L’interfaccia di gestione delle entrate terminologiche simula quella che viene impiegata durante il lavoro traduttivo e conseguentemente anche i comandi sono piuttosto simili. Essendo gli algoritmi puramente statistici, il software propone una lista di termini ordinati per frequenza e occorrenza e assumono di default lo status di “candidate”. L’utente, similmente a quando traduce, li può confermare (come farebbe con un segmento tradotto) o scartare. È possibile inoltre visualizzare i termini in dettaglio, ovvero il/i contesto/i in cui occorrono e come vengono immagazzinati nella termbase. MemoQ offre anche stopwords lists in ogni lingua con possibilità di configurarle in base alle proprie necessità.
Note e Valutazioni MemoQ è tra i software emergenti del panorama dei CAT tool ed un punto di forza è senz’altro la possibilità di avere un estrattore terminologico di default. Le personalizzazioni delle entrate e le possibilità di configurazione di parametri ad-hoc è decisamente ampia. Tuttavia, l’estrazione puramente statistica non permette, in alcuni casi, l’identificazione di terminologia potenzialmente rilevante ma a bassa frequenza, nascosta dagli altri termini con occorrenza maggiore.
Nome AlchemyAPI Keyword extraction
Casa produttrice Alchemy API Versione -
192
Installazione No (online)273
File supportati Documenti online. File HTML, testo (da copiare nell’interfaccia)
Lingue Inglese, Tedesco, Francese, Italiano, Portoghese, Russo, Spagnolo e Svedese Algoritmi di
estrazione
Statistici, basati su NLP
Export Metadati in XML, JSON, RDF, formati Microformats REL-tag Entrate
Terminologiche e funzionalità
I termini sono proposti in una lista e marcati come “entity”. Essendo questo tool impiegato principalmente per la sentiment analysis, per ogni entità compariranno anche campi quali “Emotion” e “score”. La piattaforma propone inoltre una lista di concetti estratti sulla base dell’estrazione e mostra i relativi link a dbpedia, freebase e yago. I termini possono essere visti nel contesto e la piattaforma riesce ad estrarre, spesso con accuratezza, metadati quali titolo, autore, argomento, relazioni, lingua ecc.
Note e Valutazioni AlchemyAPI utilizza algoritmi di estrazione basati su processi NLP e statistici, rendendo il risultato altamente efficiente. Non sempre, però, tali criteri sono risultati chiari e spesso inconsistenti.
Nome TermoStat
Casa produttrice University of Montreal Versione 3.0