• Non ci sono risultati.

Aggregatore di informazioni per la correzione dell’O cr e Proof-reader

Acquisizione e Creazione di Risorse Plurilingu

2. Aggregatore di informazioni per la correzione dell’O cr e Proof-reader

on-line

La prima linea d’intervento è focalizzata sull’acquisizione di testi greci. Come discusso in (Crane et al. 2006), (Stewart et al. 2007) e in (Boschetti

et al. 2009), l’applicazione dell’Optical Character Recognition (ocr) a edi-

zioni critiche di testi greci è difficoltosa sotto molteplici punti di vista. I problemi principali riguardano il possibile danneggiamento delle pagine in edizioni datate, il largo numero di glifi che deve essere riconosciuto per il Greco politonico, la complessità dell’impaginazione e il contenuto plurilin- gue dell’apparato critico. Correntemente, molte migliaia di pagine relative ad edizioni critiche greche e latine sono state processate da B. Robertson presso la Mount Allison University (Nb, Canada)2.

La stessa pagina è processata più volte con parametri di luminosità e con- trasto diversi. Rigaudon, il software sviluppato da B. Robertson3, incorpora

un componente sviluppato presso il CoPhiLab (ilc-cnr) da F. Boschetti che

seleziona il risultato più soddisfacente attraverso la valutazione delle parole riconosciute dallo spell-checker o, in caso di fallimento, riconosciute come sequenze sillabiche ben formate. Durante la visita al Perseus Project sono state sviluppate due applicazioni di post-processing: l’aggregatore di infor- mazioni per la correzione dell’ocr e il proof-reader on-line.

L’aggregatore

L’output dell’ocr ottenuto sulla grid canadese da B. Robertson è passato

all’aggregatore, che mette insieme i dati necessari a facilitare la correzione manuale. Sia l’output originale che il risultato dell’aggregazione sono codi- ficati nel microformato hocr4, che incorpora informazioni relative alla map-

patura del testo sull’immagine, al grado di confidenza della lettura dell’ocr

e alle possibili letture alternative fornite dallo spell-checker. Le risorse lin- guistiche e testuali messe a disposizione dell’aggregatore sono costituite da repertori di parole flesse, dalla lista delle sillabe greche e da una collezione di testi precedentemente digitalizzati. Il reportorio delle forme flesse relative

2 I risultati sono disponibili all’indirizzo http://heml.mta.ca/rigaudon/catalog. Tutti i link

sono stati verificati il 22 Aprile 2014.

3 Disponibile all’indirizzo https://github.com/brobertson/rigaudon 4 Si veda http://code.google.com/p/hocr-tools

57 Acquisizione e Creazione di Risorse Plurilingui

alle lingue classiche è basato su Morpheus, l’analizzatore morfologico svi- luppato presso la Tufts University (Crane 1991), e sulla lista completa delle forme flesse che occorrono nel corpus di testi della Perseus Digital Library: il database delle analisi morfologiche di Morpheus contiene alcune varianti morfologiche non presenti nel corpus testuale e la collezione di testi con- tiene nomi propri non presenti nel database morfologico, quindi le risorse sono complementari.

Quando l’output dell’ocr è valutato, sequenze testuali riconosciute

come forme flesse presenti nei repertori appena indicati sono considerate sequenze riconosciute correttamente, anche se la probabilità che un erro- re di ocr corrisponda casualmente ad una parola flessa varia da lingua a

lingua. Le parole non individuate nel database sono testate per valutare la natura del possibile guasto. Se una sequenza di testo, trasformata da ca- ratteri minuscoli in caratteri maiuscoli, si trova nel repertorio delle forme maiuscole, allora l’errore di ocr ha un’alta probabilità di essere dovuto a un

inadeguato riconoscimento di spiriti e accenti, cioè ad un tipo di errore che è neutralizzato nella versione in maiuscolo della sequenza analizzata. Se anche questo test fallisce, la sequenza testuale è divisa in sillabe usando il sillabato- re (hyphenator) del Greco antico e il sistema valuta se la sequenza sillabica è compatibile con la lingua in oggetto. Ad esempio in Greco αὐ-κα-tρi-μός è una sequenza sillabica ben formata (anche se è soltanto una pseudo-parola), mentre κα-τρι-αὐ-μός è una sequenza sillabica malformata, perché la sil- laba αὐ può apparire soltanto all’inizio di una parola (secondo il repertorio delle sillabe greche, basato sul corpus dei testi a disposizione). Una sequenza sillabica ben formata nella maggior parte dei casi è una parola riconosciuta correttamente dall’ocr ma non ancora presente nei repertori delle forme

flesse, ad esempio perché è una variante morfologica rara o un nome proprio poco frequente. Sequenze di caratteri casuali (cioè che non superano alcuno dei precedenti test) sono considerate meri errori. L’aggregatore, dopo l’iden- tificazione e la classificazione dei possibili errori, associa a ciascuno di essi la lista dei suggerimenti prodotta dallo spell-checker.

Quando una differente edizione della stessa opera è disponibile, l’output dell’ocr è allineato ad essa parola per parola, usando l’algoritmo di Needle-

man-Wusch. Le parole dell’edizione precedentemente digitalizzata, quando sono allineate a possibili errori di ocr, sono aggiunte all’inizio della lista

dei suggerimenti forniti dallo spell-checker. Secondo la tipologia dei pos- sibili errori, se l’edit distance (cioè il numero di operazioni di inserimento, sostituzione e cancellazione necessarie a trasformare una stringa in un’altra)

58 Federico Boschetti

tra il suggerimento e il possibile errore di ocr è di una sola operazione e

la tipologia del possibile errore è relativa a spirito o ad accento, si procede alla sostituzione automatica. Nella grande maggioranza dei casi, una diffe- rente edizione della stessa opera fornisce la parola adeguata a correggere il testo, ma in alcuni casi l’output dell’ocr contiene la soluzione corretta non

riconosciuta dallo spell-checker (ad es. perché è una variante rara) e l’altra edizione contiene una lectio facilior riconosciuta dallo spell-checker. Questi casi possono creare contaminazioni indesiderate tra edizioni.

L’applicazione web di supporto alla correzione manuale

Il proof-reader on-line fornisce agli utenti un ambiente collaborativo per la correzione basato sull’output dell’aggregatore appena illustrato. L’output dell’ocr e i relativi testi corretti sono contenuti in un database centralizzato

per facilitare la gestione dell’intero processo di correzione. L’interfaccia web del proof-reader è ispirata ad hocr editor, un plug-in per Firefox sviluppa- to da J. Garrison5, che attualmente non è più aggiornato. L’interfaccia web

fornisce all’utente una lista di coppie costituite dall’immagine di una linea di testo e dal relativo testo digitalizzato prodotto dall’ocr che deve essere

corretto, come si vede in fig. 1. Il sistema usa le coordinate di ciascuna linea di testo che sono incorporate nel file html, contenente il microformat hocr.

5 Disponibile all’indirizzo https://addons.mozilla.org/it/firefox/addon/hocr-editor

Fig. 1. Coppie costituite dall’immagine di una linea di testo e dal relativo output

59 Acquisizione e Creazione di Risorse Plurilingui

Errori ed auto-correzioni (secondo la strategia illustrata nella sezione precedente) sono evidenziati con colori diversi, come mostrato in fig. 2, al fine di catturare l’attenzione dell’utente su diversi tipi di intervento. In par- ticolare, le autocorrezioni devono essere controllate accuratamente per evi- tare il rischio di contaminazione fra edizioni.

Fig. 2. Colorazione dei possibili errori (o auto-correzioni).

L’applicazione web per il proof-reading e stata testata sia da volontari che da professionisti di ditte di data entry con risultati positivi6.

3. AncientGreekWordNet

La seconda linea di ricerca è focalizzata sulla creazione di strumenti les- sicali per lo studio di testi greci e latini, le loro traduzioni italiane e possibili relazioni con documenti in altre lingue (in particolare Inglese e Arabo). Ne- gli ultimi decenni, seguendo il modello dell’originale WordNet per la lingua inglese sviluppata presso l’Università di Princeton (Fellbaum 1998), lessici strutturati semanticamente sono stati sviluppati per altre lingue. Secondo

60 Federico Boschetti

il modello di WordNet, le relazioni semantiche (come la relazione genere/ specie) e le relazioni lessicali (come la relazione di antonimia) sono struttu- ralmente distinte. I nodi concettuali sono associati alla glossa e sono inter- connessi tramite molteplici relazioni, come l’iperonimia e l’iponimia o l’olo- nimia e la meronimia, in modo da formare una rete concettuale. Le parole sono organizzate in synsets, cioè in liste di sinonimi (ad es., in Inglese, [tool, instrument]) associate al nodo concettuale di pertinenza. In caso di polise- mia, la stessa parola appartiene a diversi synsets (ad es. horse come animale e horse come strumento ginnico, cavallina).

In questo modo, la stessa rete concettuale può essere condivisa da lingue differenti, anche se sono necessarie strategie di adeguamento delle relazio- ni. In Italia, tre risorse rilevanti per i nostri scopi sono state sviluppate nel recente passato:

• LatinWordNet è stata sviluppata presso l’Università di Verona (Minozzi 2008) con più di 8.000 synsets;

• ItalWordNet (Roventini et al. 2000) è stata sviluppata da M. Monachini e dal suo gruppo di lavoro presso l’ilc-cnr;

• MultiWordNet (Pianta et al. 2002) è stata sviluppata presso la Fondazio- ne Bruno Kessler (FbK) di Trento;

In stretta collaborazione con l’Alpheios Project7, partner principale del

Perseus Project, synsets greci e latini sono stati estratti da dizionari bilin- gui disponibili in formato digitale e i risultati sono stati collegati alle altre wordnets a disposizione. L’algoritmo è basato sul principio che termini sino- nimi nella lingua d’origine sono per lo più tradotti con gli stessi termini nella lingua di destinazione; in questo modo molti sinonimi greci (o latini) posso- no essere raggruppati perché condividono le stesse traduzioni. Ad esempio, πόντος, θάλασσα, ἅλς e πέλαγος sono tradotti con “sea” e per questa ragione sono automaticamente raggruppati nello stesso synset. Il problema principale sorge quando il termine usato nella traduzione della lingua di destinazione è polisemico, perché questo fa raggruppare nello stesso synset termini che non hanno relazione semantica nella lingua d’origine. Ad esem- pio, in Inglese “sound” è un termine altamente polisemico e significa, fra gli altri sensi, “auditory sensation”, “strait” e “healthy”; per questa ragione pa- role greche come ψόφος (noise), φωνή (sound, tone); σόος (safe), ἄνοσος (without sickness); στενόχωρος (strait) sono collassate nello stesso synset. H. Diakoff ha estratto i synsets greci dal Liddell-Scott Jones e dal Middle

61 Acquisizione e Creazione di Risorse Plurilingui

Liddell. Usando questo approccio, 34.925 lemmi di Greco su 130.000 sono stati distribuiti in 33.910 synsets8.

Durante uno stage all’ilc-cnr, lo studente Y. Bizzoni, supervisionato

da M. Monachini e F. Boschetti, ha validato un campione di synsets greci (1.013 su 33.910) al fine di valutare le prestazioni del sistema e iniziare la correzione degli errori. Come mostrato in tab. 1., 84 synsets su 1.013 (8.3%) sono stati disattivati a causa di un’erronea associazione a concetti moderni alieni all’antichità, come ad esempio “a series of linked atoms (generally in an organic molecule)”. Tale glossa era stata associata dal sistema automatico a ὅρμος, ἅλυσις, σύσφιγμα, ὁρμαθός (termini riconducibili al concetto di catena).

14 synsets su 1.013 (1,4%) sono stati marcati come “near to the concept expressed by a definition that needs adjustments”. Questi casi sono molto interessanti perché mostrano chiaramente la distanza fra Sinn e Bedeutung, nell’accezione di Frege. Ad esempio, il concetto associato a γῆ, γαῖα, è glos- sato in Princeton WordNet nel modo seguente: “the 3rd planet from the sun”. La Bedeutung di γαῖα è chiaramente il nostro pianeta, ma il Sinn che

8 Attualmente è in avanzato stadio di sviluppo da parte di R. Del Gratta un’interfaccia web

per l’interrogazione e l’editing della risorsa (si veda fig. 3), accessibile all’indirizzo http:// www.languagelibrary.eu/new_ewnui. Maggiori dettagli si possono trovare in (Bizzoni et al. 2014).

62 Federico Boschetti

definisce il concetto è legato ad uno specifico paradigma scientifico9 (tole-

maico o copernicano).

I 1.013 synsets validati corrispondono a 6.457 sensi, vale a dire parole eventualmente ripetute in più synsets, con significati diversi. Come mostrato in tab. 2., 3.479 sensi su 6.457 (53,9%) sono stati accettati dal valutatore, cioè dallo studente stagista, mentre 2.101 sensi (32,5%) sono stati rifiutati e 877 (13,6%) sensi sono stati considerati incerti. I sensi incerti nella maggior parte dei casi hanno una relazione semantica con il concetto a cui sono stati associati automaticamente, ma una relazione diversa dalla sinonimia (ad es. iperonimia, meronimia, etc.).

Al fine di confrontare questo nuovo approccio agli studi tradizionali sulla sinonimia del Greco antico, l’indice della Synonymik der Griechischen Spra-

che è stato digitalizzato, assegnando 4.123 termini a 150 campi semantici

analizzati da (Schmidt 1876). Un caso significativo merita di essere discusso. Il synset n#02818832, glossato con “a piece of furniture that provides a pla- ce to sleep”, ha quattro corrispondenze nel cluster di Schmidt #25: κοίτη, λέχος, εὐνή e λέκτρον, con il significato di “bed”, ma tale cluster contiene anche altri termini, giudicati dal valutatore come semanticamente correla- ti tramite una relazione diversa dalla sinonimia: θαλάμη (lair), φυλλάς (leafy bed), ὑπόστρωμα (litter) e κράββατος (small bed for poor people). φυλλάς, κράββατος e ὑπόστρωμα sono iponimi di “bed”, perché han- no un significato più specifico. Ma θαλάμη (lair) non può essere subordi- nato o sovraordinato al concetto di “bed” nella struttura gerarchica della WordNet di Princeton, perché “bed” è un oggetto e “lair”, “lurkingplace” sono luoghi. Schmidt raggruppa insieme a sinonimi anche termini solo eti- mologicamente correlati, come λέχος (bed) e ἄλοχος (bride), che sono totalmente distinti in AncientWordNet. Verbi collegati al concetto di “let- to” in Schmidt si trovano nello stesso cluster: ἀωτέω, βαυβάω, δαρθάνω, εὕδω, ἰαύω, καθεύδω, καταδαρθάνω, κνώσσω, νυστάζω, mentre in AncientGreekWordNet questi termini sono associati al synset n#14024882, glossato come “a natural [...] state of rest [...]”, che contieneanche nomi quali κοίμημα, ὕπνος, ὦρος (sleep), κῶμα (deep sleep), etc. Si è deciso di ammettere verbi nei synsets nominali, se il concetto è riconducibile ad un nomen actionis: infatti l’infinito di un verbo è equivalente ad un nomen

9 Maggiori dettagli relativi alla costruzione di risorse lessico-semantiche in prospettiva diacro-

63 Acquisizione e Creazione di Risorse Plurilingui

actionis. Gli stessi verbi appartengono anche al synset verbale v#00014742,

glossato come “to be asleep”.

Tramite il collegamento dei synsets greci e latini estratti dai dizionari bi- lingui a ItalWordNet (integrata con la sezione italiana di MultiWordNet), si è in grado di fornire una nuova risorsa bilingue, che associa a parole greche o latine la lista di parole italiane che si suppone siano adeguate per la tradu- zione. La lista dei sinonimi è seguita dalla lista degli iperonimi diretti, perché in molti casi un termine specifico, per ragioni stilistiche, può essere tradotto con un termine più generale. Ad esempio, πατήρ può essere tradotto sia con “padre” che con “genitore”.