• Non ci sono risultati.

Schede analitiche di estrattori terminologici

CAPITOLO V L’INFORMATICA E LA TERMINOLOGIA PER IATE: DALLE TERMBASE VERSO

A.3 Schede analitiche di estrattori terminologici

In questo paragrafo si analizzeranno i maggiori strumenti di estrazione di terminologia. Non è possibile effettuare una classificazione onnicomprensiva a causa della complessità dei software in termini di piattaforme e tecnologie. Tuttavia, le schede presentano sia campi comuni a tutti i tool che sezioni dedicate ad eventuali caratteristiche specifiche. Ogni scheda si chiude con note e valutazioni su ogni estrattore.

Nome Synchroterm

Casa produttrice Terminotix

Versione Synchroterm 2014 Installazione Sì (con licenza)

File supportati Documenti: Microsoft Word, Microsoft Excel, RTF, txt, HTML, pdf

Memorie Traduttive: Trados, Déjà-vu, Word Fast, SDLX, MemoQ, SDL Studio, MultiTrans, Fusion

Lingue Inglese, Francese, Spagnolo, Italiano, Portoghese, Tedesco, Svedese, Russo, Greco, Olandese, Ungherese, Norvegese, Polacco, Turco, Ceco, Danese, Bulgaro, Finlandese, Romeno, Lituano, Slovacco, Sloveno, Arabo, Cinese Algoritmi di

estrazione

Statistici, sintattici, morfologici

Export Terminotix LogiTerm, HTML, Trados MultiTerm 5.5, Trados MultiTerm iX, Trados WinAlign, Microsoft Excel, PROMT

186

Entrate

Terminologiche e funzionalità

Synchroterm prevede tre tipologie di creazione di entrate terminologiche:

Batch processing: questa modalità permette la creazione automatica di

entrate terminologiche. Il numero di entrate e il numero i errori dipende dalle opzioni selezionate nel tab “Tools & Config”, tra cui, ad esempio, “Mininum Match Value” e “Minimum Occurence”. Il Batch processing permette di generare un ampio numero di entrate ma anche il numero di errori sarà più alto, mentre il numero di entrate ad aggiungere manualmente sarà più basso.

Entrate manuali: questa procedure viene impiegata per creare entrate,

singolarmente, dalle liste di termini estratti proposte dal software. È possibile visualizzare i termini nel proprio contesto ed eventualmente modificarlo o aggiungerlo, cancellare espressioni dalle liste di origine e destinazione e modificare l’entrata stessa.

Entrate manuali di termini non riconosciuti dal software: è possibile

aggiungere termini anche nel caso in cui Synchroterm non li abbia riconosciuti o non li abbia riconosciuti correttamente.

Note e Valutazioni Synchroterm è un valido strumento di estrazione terminologica, che permette un alto grado di personalizzazione dei progetti. Supporta molte lingue e formati ed è dotato di un’interfaccia essenziale ma intuitiva. L’estrazione è possibile in più documenti simultaneamente e la possibilità di aggiungere e verificare i contesti dei termini rende il lavoro di estrazione più semplice. Offre la possibilità di creare liste di termini da ignorare per le estrazioni successive, creando quindi meccanismi di “apprendimento”.

187

Synchroterm estrae spesso non-termini ed espressioni non rilevanti. In altri casi, invece, non riesce ad identificare correttamente dei termini e/o espressioni monorematiche (a meno di non creare eccessivo rumore). Non tutte le lingue ufficiali europee sono supportate.

Nome MultiTerm Extract

Casa produttrice SDL Versione 2009 Installazione sì

File supportati txt,doc, html, htm, tmx, rtf, xml, sgm, sgml, ppt, xls, tmx, tmw, ttx Lingue Tutte le lingue Unicode

Algoritmi di estrazione

Statistici

Export TXT, Multiterm XML, Multiterm Export, sdltb (Multiterm Termbase) Entrate

Terminologiche e funzionalità

La creazione di entrate avviene in maniera piuttosto accurata e il software offre possibilità di filtrare tra quelle validate e non validate. MT Extract propone, automaticamente, una lista di stop-words per progetti di estrazione bilingue e monolingue e un Basic Vocabulary, che può essere utilizzato per migliorare ulteriormente i processi estrattivi futuri

Note e Valutazioni La qualità dell’estrazione è probabilmente la più accurata tra i tool testati. Molto utile la possibilità di filtrare tra liste di termini validati e non validati. I processi di estrazioni impiegano una considerevole quantità di tempo, ma ciò

188

dipende anche dalla lunghezza e complessità dei documenti/file impiegati per l’estrazione. Essendo un’estensione della suite SDL MultiTerm, beneficia dell’uso degli standard SDL e gli output sono compatibili al 100% con SDL Studio.

Nome TaaS – Terminology as a Service (Tilde Terminology)

Casa produttrice Tilde Versione -

Installazione No, applicazione online269

File supportati PDF, Microsoft Word, Microsoft Excel, Microsoft PowerPoint, Text (.txt), Rich Text (.rtf), XLIFF, HTML, XML, MIF

Lingue Bulgaro, Croato, Ceco, Danese, Olandese, Inglese, Estone, Finlandese, Francese, Greco, Ungherese, Irlandese, Italiano, Lettone, Lituano, Maltese, Polacco, Portoghese, Romeno, Russo, Slovacco, Sloveno, Svedese, Turco Algoritmi di

estrazione

Linguistici, statistici e basati su corpora

TaaS si basa su diversi strumenti di estrazione.

 TWSC (Tilde wrapper system for CollTerm), uno strumento basato sull’analisi linguistica (taggatura del discorso, pattern morfosintattici ecc.) integrati da risorse statistiche (ad esempio l’analisi di frequenza).

269 https://term.tilde.com/.

189

L’utente può scegliere tra un’estrazione basata sulla quantità, bilanciata, o qualità;

 Kilgray: l’estrattore terminologico Kilgray270 si basa su analisi statistica

indipendente dalla lingua

Si può inoltre normalizzare i termini nelle forme canoniche o da dizionario, mantenere i termini esistenti in modo che nuovi termini estratti vadano ad integrarsi nella collezione e avere la possibilità di visualizzare i termini all’interno nel testo tramite processi di evidenziazione.

La piattaforma permette inoltre di selezionare fonti per lookup della traduzione di destinazione, tra cui:

 TaaS public collections, collezioni pubbliche di altri utenti

 Le proprie collezioni

 EuroTermBank

 IATE

 TAUS Data, piattaforma di memorie traduttive

 Web Data, Database statistico che immagazzina automaticamente dati estratti dal Web

Export TBX, CVS, TSV, Moses Entrate

Terminologiche e funzionalità

La creazione di entrate avviene in maniera piuttosto semplice e intuitiva. È possibile modificare i termini e aggiungere nuovi termini fonte, definizioni, note, uso, tipologia di termine, identificatori, etc. Le entrate possono essere

270 Kilgray è l’azienda produttrice del CATool MemoQ, https://www.memoq.com/en/about-

190

validate con semplicità e il tool offre anche strumenti di clean-up semiautomatici.

Note e Valutazioni TaaS beneficia dell’essenzialità dei tool online e l’interfaccia è particolarmente accessibile e intuitiva. È tra i pochi a permettere un’ampia scelta di algoritmi di estrazione e supporta tutte le lingue ufficiali dell’UE più il Russo. Fondamentale, inoltre, la componente cloud. L’estrazione, in alcuni casi, può però anche impiegare diverse ore o giorni. TaaS notifica automaticamente l’utente quando il processo è completato.

Nome MemoQ (TermExtraction)271

Casa produttrice Kilgray

Versione 2015 Translator Pro 7.8.159 Installazione sì

File supportati Documenti UniCode, Memorie traduttive, LiveDocs corpus documents Lingue Tutte le UniCode

Algoritmi di estrazione

statistici

Export CSV, Multiterm XML, TaaS272

271 MemoQ è un CATool che integra una sezione dedicata all’estrazione terminologica. A differenza di altri

strumenti simili, come ad esempio SDL Studio, che offre strumenti separati quali MultiTerm Extract, da acquistare separatamente, MemoQ li offre nel pacchetto di installazione di default. In questa scheda si parla dunque solo della funzione TermExtraction del software e non delle altre funzionalità.

191

Entrate

Terminologiche e funzionalità

L’interfaccia di gestione delle entrate terminologiche simula quella che viene impiegata durante il lavoro traduttivo e conseguentemente anche i comandi sono piuttosto simili. Essendo gli algoritmi puramente statistici, il software propone una lista di termini ordinati per frequenza e occorrenza e assumono di default lo status di “candidate”. L’utente, similmente a quando traduce, li può confermare (come farebbe con un segmento tradotto) o scartare. È possibile inoltre visualizzare i termini in dettaglio, ovvero il/i contesto/i in cui occorrono e come vengono immagazzinati nella termbase. MemoQ offre anche stopwords lists in ogni lingua con possibilità di configurarle in base alle proprie necessità.

Note e Valutazioni MemoQ è tra i software emergenti del panorama dei CAT tool ed un punto di forza è senz’altro la possibilità di avere un estrattore terminologico di default. Le personalizzazioni delle entrate e le possibilità di configurazione di parametri ad-hoc è decisamente ampia. Tuttavia, l’estrazione puramente statistica non permette, in alcuni casi, l’identificazione di terminologia potenzialmente rilevante ma a bassa frequenza, nascosta dagli altri termini con occorrenza maggiore.

Nome AlchemyAPI Keyword extraction

Casa produttrice Alchemy API Versione -

192

Installazione No (online)273

File supportati Documenti online. File HTML, testo (da copiare nell’interfaccia)

Lingue Inglese, Tedesco, Francese, Italiano, Portoghese, Russo, Spagnolo e Svedese Algoritmi di

estrazione

Statistici, basati su NLP

Export Metadati in XML, JSON, RDF, formati Microformats REL-tag Entrate

Terminologiche e funzionalità

I termini sono proposti in una lista e marcati come “entity”. Essendo questo tool impiegato principalmente per la sentiment analysis, per ogni entità compariranno anche campi quali “Emotion” e “score”. La piattaforma propone inoltre una lista di concetti estratti sulla base dell’estrazione e mostra i relativi link a dbpedia, freebase e yago. I termini possono essere visti nel contesto e la piattaforma riesce ad estrarre, spesso con accuratezza, metadati quali titolo, autore, argomento, relazioni, lingua ecc.

Note e Valutazioni AlchemyAPI utilizza algoritmi di estrazione basati su processi NLP e statistici, rendendo il risultato altamente efficiente. Non sempre, però, tali criteri sono risultati chiari e spesso inconsistenti.

Nome TermoStat

Casa produttrice University of Montreal Versione 3.0