• Non ci sono risultati.

Allineamento di testi (originale e traduzione)

Acquisizione e Creazione di Risorse Plurilingu

4. Allineamento di testi (originale e traduzione)

La terza linea di ricerca è focalizzata sull’allineamento tra gli originali in lingua greca o latina e le relative traduzioni in lingua italiana, seguendo la procedura adottata per l’allineamento delle opere originali con le traduzioni in lingua inglese, come illustrato in (Bamman et al. 2008). Le traduzioni in Italiano provengono da risorse eterogenee disponibili on-line, ma in parti- colare da WikiSource10.

L’allineamento è eseguito a vari livelli di granularità: sezione per sezione, enunciato per enunciato e parola per parola.

Se tanto l’originale quanto la traduzione sono strutturati gerarchicamen- te in libri, parti, capitoli etc., l’allineamento sezione per sezione è basato su semplici euristiche che identificano elementi di ancoraggio (milestones), for- niti come informazione paratestuale nelle edizioni digitali. Se sono struttura- ti in forma dialogica, come i testi drammatici o le opere di Platone, l’alline- amento delle sezioni deve tener conto di possibili incoerenze fra l’originale e la traduzione. Infatti, le traduzioni italiane a nostra disposizione abitual- mente non sono basate sulle stesse edizioni dei testi originali digitalizzati presenti nella collezione del Perseus Project: per questa ragione, ad esempio, un lungo discorso nell’edizione del testo greco si può trovare diviso in tre diverse battute nella traduzione. In casi come questo, l’algoritmo usato per allineare i discorsi valuta non soltanto la sequenza degli interlocutori ma an- che la lunghezza dei discorsi, al fine di ottenere la corrispondenza ottimale.

64 Federico Boschetti

L’allineamento sezione per sezione è utile soprattutto per l’annotazione libera di testi paralleli. La fig. 4. mostra l’incipit dell’Agamemnon di Eschilo fruibile tramite Aporia, l’applicazione web sviluppata presso l’ilc-cnr11.

Una o più parole possono essere selezionate in una delle due lingue (ori- ginale o traduzione) o in entrambe. Sequenze testuali di una o più paro- le possono essere selezionate e annotate con marcatori predefiniti (ad es. relativi all’analisi retorica) oppure commentate liberamente, in modo non strutturato.

Il sistema implementato da D. Bamman ed esteso da B. Almas presso il Perseus Project riceve in input testi divisi in sezioni con riferimenti incrocia- ti, grazie agli elementi di ancoraggio. Per migliorare le prestazioni del sistema di allineamento, il testo deve essere lemmatizzato, anche se, limitatamente a tale scopo, non è necessaria un’elevata accuratezza della lemmatizzazione. Per il Greco e il Latino la lemmatizzazione è stata eseguita con Morpheus, mentre per l’Italiano la lemmatizzazione è stata eseguita con il lemmatizzato- re (oltre a PoS tagger e analizzatore sintattico) sviluppato da F. Dell’Orletta presso l’ilc-cnr, come illustrato in (Dell’Orletta et al. 2007) e (Dell’Orletta

11 Aporia è stata sviluppata da A.M. Del Grosso e F. Boschetti ed è accessibile on-line con

autenticazione all’indirizzo http://cophidev.ilc.cnr.it:8080/Aporia_Wapp

65 Acquisizione e Creazione di Risorse Plurilingui

2009). Testo e relativa traduzione sono processati da una sequenza (pipe) di scripts che incorpora l’allineatore di enunciati illustrato in (Moore 2002) e l’allineatore di parole/sintagmi MGIZA++, illustrato in (Gao-Vogel 2008).

Anche se il sistema aumenta le sue prestazioni con quantità crescenti di testi paralleli, ha già prodotto risultati apprezzabili su una piccola quanti- tà di opere usate per testarlo. In particolare, il sistema è stato testato sulle

Historiae di Erodoto per il Greco e sul De divinatione di Cicerone per il

Latino. Come mostrato in fig. 5, il sistema non solo è in grado di allineare correttamente parole singole, come medicis – medici, herbarum – erbe, ocu-

lorum – occhi, morbos – malattie, ma anche singole parole corrispondenti a

sintagmi complessi, come nel caso di mirari – constatare con lieta meraviglia.

Fig. 5. Allineamento Latino/Italiano.

5. Conclusione

Lo scopo principale della visita alla Tufts University è stato il rafforza- mento della collaborazione tra l’ilc-cnr e il Perseus Project, condividendo

metodi e risorse necessarie allo sviluppo di nuovi strumenti per lo studio dei classici e la localizzazione in lingua italiana. I prodotti delle tre linee di ricerca illustrate in questo contributo necessitano miglioramenti, estensioni e correzioni ma sono mutualmente perfettibili grazie al fatto di essere stret- tamente correlate.

6. Bibliografia

Bamman D., Crane G. (2008). Building a Dynamic Lexicon from a Digital Library. In Proceedings of the 8th Acm/ieee-cs joint conference on Digital libraries (Jcdl

66 Federico Boschetti

Bizzoni Y., Boschetti F., Del Gratta R. Diakoff H., Monachini M., Crane G. (2014).

The Making of Ancient Greek WordNet. In Proceedings of the Ninth Interna-

tional Conference on Language Resources and Evaluation (Lrec ’14).

Boschetti F., Romanello M., Babeu A., Bamman D., Crane G. (2009). Improving

OCR Accuracy for Classical Critical Editions. In M. Agosti, J. Borbinha, S. Kapi-

dakis, C. Papatheodorou, G. Tsakonas, a c. di, Research and Advanced Technol-

ogy for Digital Libraries, Proceedings, Springer, pp. 156-167.

Crane G. (1991). Generating and Parsing Classical Greek. «Literary and Linguistic Computing», vol. 6 , no 4.

Crane G., Jones A., Bamman D., Cerrato L., Mimno D., Packel D., Sculley D., Weaver G. (2006). Beyond Digital Incunabula: Modeling the Next Generation

of Digital Libraries. In Proceedings of Research and Advanced Technology for

Digital Libraries: 10th European conference, Ecdl 2006, Alicante, Spain, Sep-

tember 17-22, pp. 353-366.

Dell’Orletta F., Federico M., Montemagni S., Pirrelli V. (2007). Maximum Entropy

for Italian POS Tagging. In Proceedings of Workshop Evalita 2007. «Intelligenza

Artificiale» vol. 4, no 2.

Dell’Orletta F. (2009). Ensemble system for Part-of-Speech tagging. In Proceedings of Evalita’09, Evaluation of NLP and Speech Tools for Italian, Reggio Emilia, December.

Fellbaum C. (1998). WordNet: An Electronical Lexical Database, The Mit Press.

Gao Q., Vogel S. (2008). Parallel implementations of word alignment tool. In Pro- ceedings of Software Engineering, Testing, and Quality Assurance for Natural Language Processing (Setqa-Nlp ‘08), Association for Computational Linguis- tics, Stroudsburg, PA, USA, pp. 49-57.

Khan A.F., Boschetti F., Frontini F. (2014). Using lemon to Model Lexical Semantic

Shift in Diachronic Lexical Resources. In Proceedings of the 3rd Workshop on

Linked Data in Linguistics (Ldl-2014).

Minozzi S. (2008). La costruzione di una base di conoscenza lessicale per la lingua

latina: LatinWordnet. In G. Sandrini, a c. di, Studi in onore di Gilberto Lonardi,

Fiorini Editore, pp. 243-258.

Moore R.C. (2002). Fast and Accurate Sentence Alignment of Bilingual Corpora. In S.D. Richardson, a c. di, AMTA 2002, LNAI 2499, Springer-Verlag, pp. 135-144. Pianta E., Bentivogli L., Girardi C. (2002). MultiWordNet: developing an aligned

multilingual database. In Proceedings of the First International Conference on

Global WordNet, Mysore, India, January 21-25.

Roventini A., Alonge A., Calzolari N., Magnini B., Bertagna F. (2000). ItalWord-

Net: a Large Semantic Database for Italian. In Proceedings of the 2nd Interna-

tional Conference on Language Resources and Evaluation (lrec 2000), Athens,

Greece, 31 May – 2 June 2000, Volume II, Paris, The European Language Re- sources Association (elrA), pp. 783-790.

67 Acquisizione e Creazione di Risorse Plurilingui

Schmidt J.H.H. (1876). Synonymik der griechischen Sprache, Teubner.

Stewart G., Crane G., Babeu A. (2007). A New Generation of Textual Corpora: Min-

ing Corpora from Very Large Collections. In Proceedings of the 7th ACM/ieee-cs

joint conference on Digital libraries (jcdl 2007), Vancouver, British Columbia:

69