Gli strumenti di analisi automatica - Indagine multilingue sulla complessità della frase: confr

In questa sezione si descriveranno gli strumenti di analisi automatica utilizzati per l’analisi linguistica delle frasi. Dopo aver creato i corpora per le due lingue, le frasi in esse contenute sono state analizzate linguisticamente da tre diversi parser: DeSR, MATE e UDPipe. Per poter essere analizzato, ogni corpus è stato diviso in dieci parti: ognuna di esse è stata annotata automaticamente dai parser, i quali sono stati di volta in volta riaddestrati sulle annotazioni gold delle restanti nove parti. Le frasi dei corpora sono analizzate fino al livello sintattico:

• tokenizzazione: le frasi estratte dalle treebank gold (da cui sono stati creati i corpora dello studio) erano già segmentate e suddivise in token, quindi non è stato necessario svolgere questo passaggio;

• annotazione morfologica: dopo la lemmatizzazione5 a ogni token viene associata la sua rispettiva categoria grammaticale (definita anche come parte del discorso, Part of Speech o PoS). L’annotazione morfologica è stata svolta utilizzando un unico PoS tagger, descritto in Dell’Orletta (2009);

• annotazione sintattica: la frase viene descritta dai parser in termini di relazioni bi- narie di dipendenza tra parole che indicano relazioni grammaticali (soggetto, oggetto, modificatore, etc.).

La scelta di utilizzare tre diversi parser deriva dal fatto che essi sono basati su approcci di analisi diversi: DeSR e UDPipe utilizzano un modello transition-based, mentre MATE è un parser graph-based6. Inizialmente, parte dello studio è stato condotto utilizzando solo DeSR e MATE. In seguito, si è deciso di introdurre un terzo parser che potesse affiancare DeSR: come si vedrà nei capitoli seguenti, DeSR è il parser che ottiene i risultati più bassi in tutte le analisi realizzate (cfr. Capitolo 5 e Capitolo 6). La scelta è ricaduta su UDPipe, basato sullo stesso modello transition-based usato anche da DeSR, ma implementato tramite un approccio a reti neurali; oggi le reti neurali artificiali sono alla base di molti strumenti che rappresentano lo stato dell’arte nell’ambito dell’apprendimento automatico e dell’intelligenza artificiale in genere. Per questo motivo, si è ritenuto opportuno inserire anche un parser che utilizzasse questo approccio.

5La lemmatizzazione è il processo mediante cui la forma flessa di una parola viene ricondotta alla sua forma di base, ossia il lemma.

Il modello transition-based e il modello graph-based rappresentano i due approcci dominanti nell’ambito del parsing a dipendenze data-driven7. I due approcci sono molto diversi dal punto di vista teorico: il primo costruisce l’analisi ottimale di una frase progressivamente, scegliendo i possibili archi delle dipendenze sulla base delle decisioni prese in precedenza; il secondo considera tutti gli archi che è possibile creare in una frase e sceglie l’analisi corretta in base alla probabilità di ciascun arco. Nonostante le sostanziali differenze, i due diversi modelli ottengono accuratezze simili nel parsing per diverse lingue (come dimostrato nel CoNLL-X shared task, McDonald et.al, 2006 e Nivre et al., 2006). Allo stesso tempo, è stato evidenziato che il comportamento dei due modelli può essere anche molto diverso: Sagae e Lavie (2006) dimostrano che si può migliorare l’accuratezza nel parsing combinando i risultati generati dai due diversi modelli, mentre McDonald e Nivre (2007) dimostrano che gli errori prodotti dai due modelli di parsing possono essere ricondotti alle diverse proprietà teoretiche dei modelli. L’uso dei due diversi approcci permetterà di verificare se la complessità linguistica è intesa allo stesso modo da entrambi i modelli di parsing, o se ci sono delle caratteristiche che li contraddistinguono. Di seguito verranno fornite informazioni più dettagliate sui tre parser impiegati nello studio.

3.2.1 DeSR

DeSR (Attardi et al., 2009) è un parser multilingue a dipendenze basato su un modello transition- based. Il modello transition-based prevede che l’analisi di una frase sia realizzata localmente e gradualmente, scegliendo l’operazione da svolgere (transition) sulla base delle operazioni svolte in precedenza.

L’algoritmo di parsing utilizzato da DeSR è un parser statistico induttivo, che estende l’approccio di Yamada e Matsumoto (2003). Il parser costruisce gli alberi sintattici analizzando le frasi date come input da sinistra verso destra, decidendo di volta in volta che tipo di operazione svolgere fra due token adiacenti. DeSR realizza due tipi principali di operazioni:

1. un’operazione di shift. Se i due token che DeSR ha selezionato non sono legati da alcuna relazione di dipendenza, il secondo token viene momentaneamente messo da parte, mentre si mantiene il primo token; DeSR seleziona il token alla destra di quello appena scartato e verifica nuovamente se esiste una relazione tra la coppia di token.

2. un’operazione di reduce. Per ogni coppia di token tra cui DeSR individua una relazione, si crea una relazione di dipendenza (da sinistra verso destra o da destra verso sinistra). Le operazioni da compiere di volta in volta sono decise con il supporto di un classificatore8, utilizzato per configurare il parser e insegnargli a predire le azioni di parsing da svolgere. Oltre

7Con parsing data-driven si definisce una tipologia di parsing che inferisce le dipendenze di una frase sulla base di informazioni estratte da collezioni di dati, le quali sono utilizzate per addestrare il modello di parsing e/o per estrarre informazioni statistiche sulla lingua.

8Possono essere utilizzati diversi algoritmi di apprendimento: Maximum Entropy, SVM, Winnow, Voted Percepron, Memory Based Learning, o una loro combinazione.

alle operazioni principali di shift e reduce, DeSR adotta un approccio che prevede sei ulteriori azioni di parsing, con le quali è in grado di gestire le relazioni sintattiche non-proiettive.

L’approccio transition-based è definito anche greedy (ingordo, in italiano): per sua natura, non appena il parser individua una coppia di token tra cui è possibile assegnare una relazione, crea una dipendenza tra quei due elementi, anche se non è la relazione corretta. Per questo motivo, i parser che utilizzano questo approccio hanno difficoltà a individuare i link sintattici lunghi: se in una frase esiste un link sintattico lungo tra una parola A e una parola C, ma prima della parola C c’è una parola B cui A potrebbe legarsi (secondo le informazioni statistiche in possesso del parser), il parser preferirà creare un link tra A e B compiendo, quindi, un errore.

3.2.2 MATE

Il parser graph-based MATE (Bohnet, 2010) fa parte di un toolkit di strumenti statistici per l’analisi del linguaggio naturale. Il toolkit è comprensivo di un lemmatizzatore, un PoS tagger, un tagger morfologico, due parser a dipendenze (un parser graph-based, usato in questo studio, e un parser transition-based) e uno strumento che etichetta i ruoli semantici. Il modello graph- based prevede un approccio globale, in cui vengono generati tutti i link possibili nella frase; sulla base dei pesi assegnati a ogni link, l’algoritmo seleziona quelli corretti e scarta quelli errati.

MATE utilizza come algoritmo un perceptron9 passivo-aggressivo basato su una hash func- tion10. Per MATE il procedimento di parsing di una frase xi prevede di trovare un albero yp

che massimizzi la funzione di scoring argmaxyF(xi, y); si tratta di assegnare dei pesi a tutti

i possibili link sintattici, generando tutti i possibili alberi, al fine di trovare l’albero sintattico i cui pesi massimizzino il valore della funzione (cioè l’albero con il minor numero di errori). L’algoritmo prevede un componente che si occupa di estrarre delle feature da ognuna delle frasi in input. Le feature sono tradotte in numeri e raccolte in vettori, i quali vengono associati ai possibili link sintattici della frase. Per ognuno dei possibili link, l’algoritmo determina dei pesi che indicano la probabilità di quel link sintattico. Il peso dei link viene aggiornato fino a individuare il miglior albero sintattico possibile.

Rispetto a un parser transition-based come DeSR, MATE ha il vantaggio di poter gestire meglio i link sintattici lunghi: generando tutte le possibili dipendenze, per un algoritmo graph- based è più semplice individuare i link lunghi, sulla cui analisi si compiono meno errori.

3.2.3 UDPipe

Il parser UDPipe (Stracka et al.2016) fa parte di una pipeline11 che comprende strumenti per la tokenizzazione, il tagging, la lemmatizzazione e il parsing a dipendenze di dati annotati in

9Nell’apprendimento automatico un perceptron è un classificatore binario; si tratta di un tipo di classificatore lineare, cioè un algoritmo di classificazione che realizza una predizione sulla base di una funzione predittiva lineare.

10Una funzione che mappa dati di dimensione arbitraria in dati di dimensione prestabilita. 11Si rimanda alla pagina internet del progetto per i dettagli (ufal.mff.cuni.cz/udpipe)

formato CoNLL-U12. Il modello di UDPipe prevede un approccio transition-based come quello già visto per DeSR, ma utilizza un classificatore a reti neurali per le predizioni e non necessita l’estrazione di feature.

UDPipe utilizza il parser Parsito (Straka et al., 2015), a sua volta ispirato da Chenn e Manning (2014). L’algoritmo prevede due diversi tipi di operazioni:

• le operazioni di reduce (le f t_arcl e right_arcl), che inseriscono un arco di dipendenza

con etichetta l quando si individuano due parole tra cui esiste una relazione; • l’operazione shift, che seleziona la parola successiva nell’input.

Diversamente da DeSR, UDPipe prevede l’uso di un solo algoritmo di apprendimento, basato su una architettura a reti neurali. La rete neurale prevede un livello di input (input layer), un livello nascosto (hidden layer) e un livello di output (output layer). L’input dato alla rete neurale è costituito da una serie di nodi che rappresentano le parole nell’albero che dev’essere costruito. Ogni nodo sarà descritto dalla forma della parola rappresentata come word-embedding sotto forma di vettore d-dimensionale, dalla PoS e all’etichetta dell’arco della dipendenza (se già assegnata), anch’essi mappati sotto forma di spazio vettoriale d-dimensionale. La rete neurale può essere addestrata su varie treebank, per poi essere utilizzata per predire le operazioni da svolgere durante il parsing.

Come anticipato, il parser UDPipe è stato scelto in una seconda fase di questo studio per poter affiancare il parser DeSR. Pur utilizzando entrambi un approccio transition-based ed essendo tra gli strumenti che attualmente rappresentano lo stato dell’arte per il parsing a dipendenze, il classificatore a reti neurali utilizzato da UDPipe permette di ottenere risultati migliori a livello di accuratezza rispetto a DeSR (si rimanda al Capitolo 5 e al Capitolo 6 per la visione dei risultati).

Nel documento Indagine multilingue sulla complessità della frase: confronto tra difficoltà percepita e analisi automatica (pagine 33-36)