LinguA: Linguistic Annotation Pipeline - Sistemi di analisi linguistica per l’italiano

2. SISTEMI DI ANALISI LINGUISTICA E APPLICAZIONI ALLA

2.2. Sistemi di analisi linguistica per l’italiano

2.2.1. LinguA: Linguistic Annotation Pipeline

12_{http://linguistic-annotation-tool.italianlp.it/} 13_{http://monitor-it.italianlp.it/}

39 Un altro strumento online a disposizione di tutti per l’analisi linguistica della lingua italiana (e anche inglese) è LinguA, applicazione che dato un testo, elabora e fornisce questi risultati:

 Sentence splitting: individuazione delle frasi che compongono il testo;

 Part of Speech Tagging: individuazione delle parti del discorso delle frasi, con

indicazione del lemma, tagging Coarse-grained e Fine-grained (letteralmente “grossolano” e “raffinato”) basandosi sul tagset ISST-TANL14_{e indicazione delle}

caratteristiche morfo-sintattiche (numero e genere);

 Syntactic Parsing: individuazione ed annotazione delle dipendenze all’interno

del testo, con indicazione del tipo di relazione e delle “teste” sintattiche;  Syntactic Trees: rappresentazione grafica ad albero delle dipendenze

sintattiche. Un albero sintattico (o parse tree) per una grammatica a dipendenze è formato da un nodo radice (il quale è l’unico che non ha altri nodi da cui dipende), uno o più nodi che rappresentano diverse parole di una frase e che a loro volta possono avere nodi da loro dipendenti; un nodo senza dipendenti prende il nome di foglia.

Figura 2.3: esempio di albero sintattico (o parse tree)

14_{http://www.italianlp.it/docs/ISST-TANL-POStagset.pdf}

40 Nell’ambito della semplificazione automatica di un testo è sicuramente interessante studiare il modo in cui la struttura sintattica di una frase cambia dalla versione originale a quella semplificata. In diversi casi lo studio di sistemi di ATS si è concentrato proprio sull’identificazione di strutture di alberi a dipendenze particolari e su diversi metodi di semplificazione degli stessi tramite regole fatte a mano (es: Siddharthan, 2011) o tramite sistemi ibridi che apprendono automaticamente regole da corpora allineati e le applicano quando possibile in alternativa di quelle fatte a mano (Siddharthan, 2014). L’ individuazione di questo genere di trasformazioni dipende fortemente dalla qualità del parsing effettuato nella fase di annotazione del corpus e dato che gli strumenti moderni hanno raggiunto buoni risultati (anche per l’italiano), tramite la combinazione di questi con ingenti quantità di risorse è possibile iniziare ad ottenere risultati soddisfacenti con l’aiuto di algoritmi di machine learning e processi di data mining.

2.2.1.1. Una possibile applicazione di LinguA nel campo dell’ATS

La costruzione degli alberi sintattici che LinguA mette a disposizione può risultare utile per la creazione di regole “fatte a mano” da utilizzare in un sistema di ATS, ma in generale anche per la creazione automatica di regole. L’aspetto della rappresentazione grafica degli alberi sintattici di questo strumento facilita però di molto il lavoro per l’uomo, mentre una macchina può lavorare direttamente sul risultato del parsing senza basarsi su immagini che descrivano la struttura di una frase in maniera più semplificata. La pecca di un sistema che si basa su regole “fatte a mano” è che il processo di scrittura delle stesse risulta dispendioso a livello di tempo e di “manodopera”. Come lato positivo si avrà però un sistema che si basa su regole approfonditamente studiate da umani e quindi, almeno in teoria, più robusto o comunque meno incline ad errori di semplificazione grossolani della struttura ad albero. L’individuazione automatica di pattern ricorrenti di semplificazione tra due corpora allineati di frasi originali e semplificate può però risolvere i problemi di costo dell’approccio “fatto a mano”, nonostante l’identificazione di regole di un approccio automatico potrebbero dare un altro tipo di problemi, inerenti ad esempio al livello sintagmatico o paradigmatico o di coesione linguistica, che possono essere più facilmente risolti da un umano. Un approccio ibrido sembrerebbe dunque in questo

41 caso la giusta via: si potrebbero dedurre automaticamente tutte le regole da pattern frequenti negli alberi sintattici elaborati e tramite revisione da parte di addetti ai lavori potrebbero essere riviste, corrette o scartate tutte le regole individuate.

Si osservi di seguito un esempio di albero sintattico di una frase originale e delle rispettiva semplificata (le frasi sono state prese dal corpus Terence, descritto in

3.2.1.3.):

Una delle prime cose che si può notare guardando rapidamente questi due alberi (figura 2.4) è che la profondità è maggiore in (a). In (b) si nota come la trasformazione di “di buon umore” in “buono” abbia dunque ridotto questa caratteristica e ben 3 relazioni differenti sono state ridotte ad una soltanto. È possibile estrarre una regola da questa sostituzione lessicale di più parole? La risposta non è scontata: il problema risiede nel significato della frase, in quanto dire che “il tempo era di buon umore” consiste nell’effettuare una personificazione, figura retorica per la quale vengono attribuite fattezze umane a qualcosa che umano non è. Individuare un fenomeno simile in maniera automatica non è un compito banale e in generale derivare una regola di semplificazione del genere “Sostituire ‘di buon umore’ con ‘buono’” non è corretto e non perché la regola è troppo specifica: un sintagma così potrebbe capitare raramente (nel corpus da cui è presa la frase l’espressione “buon umore” si ripete quest’unica volta). Inoltre non si sta considerando che una trasformazione simile non può essere applicata in ogni caso nel quale si riscontri nel testo questo sintagma: trasformare “Giovanni era di buon umore” in “Giovanni era buono” stravolge pesantemente il significato della frase.

In generale sarà sempre necessario tenere in considerazione diverse questioni quando analizzando una albero sintattico si intende dedurre una struttura ben precisa di trasformazione dello stesso dalla sua versione complessa a quella

Figura 2.4: Albero sintattico di una frase originale (a) e della rispettiva semplificata (b). Le differenze sono evidenti a livello di profondità e lunghezza delle relazioni di dipendenza

42 semplificata. Nella sezione 3.2.4. saranno illustrati diversi alberi sintattici a dipendenze ottenuti in diversi casi di semplificazione del testo e si cercherà di discutere le possibili estrazioni automatiche e “a mano” di regole di trasformazioni di alberi di questo tipo per il compito dell’ATS.

Nel documento Studio della complessità e della semplificazione linguistica a partire da un'analisi computazionale di un corpus parallelo di testi italiani. (pagine 39-43)