• Non ci sono risultati.

Indagine multilingue sulla complessità della frase: confronto tra difficoltà percepita e analisi automatica

N/A
N/A
Protected

Academic year: 2021

Condividi "Indagine multilingue sulla complessità della frase: confronto tra difficoltà percepita e analisi automatica"

Copied!
155
0
0

Testo completo

(1)

UNIVERSIT `

A DI PISA

DIPARTIMENTO DI DIPARTIMENTO DI FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di Laurea Magistrale in Informatica Umanistica

Indagine multilingue sulla complessit`

a della frase:

confronto tra complessit`

a percepita e analisi

automatica

Relatore

Dott. Felice Dell’Orletta

Controrelatore

Prof. Alessandro Lenci

Candidato

(2)
(3)

Indice

1 Introduzione 1

2 La complessità linguistica 5

2.1 Introduzione alla complessità linguistica . . . 5

2.1.1 Complessità nel sistema e complessità per l’utente . . . 7

2.2 Complessità nei diversi livelli della lingua . . . 8

2.2.1 La complessità sintattica . . . 9

2.3 Misurare la complessità . . . 15

2.3.1 La complessità linguistica nell’analisi automatica del linguaggio . . . . 15

2.3.2 La complessità linguistica percepita dall’uomo . . . 17

3 Risorse e strumenti per lo studio della complessità 19 3.1 I corpora . . . 19

3.1.1 Il corpus italiano . . . 21

3.1.2 Il corpus inglese . . . 22

3.2 Gli strumenti di analisi automatica . . . 23

3.2.1 DeSR . . . 24

3.2.2 MATE . . . 25

3.2.3 UDPipe . . . 25

3.3 Il crowdsourcing . . . 26

3.4 Monitoraggio linguistico delle frasi . . . 28

3.4.1 Il monitoraggio linguistico . . . 28

3.4.2 Monitor-IT . . . 30

3.5 Caratteristiche linguistiche . . . 30

4 Gli umani e la complessità linguistica 35 4.1 L’accordo fra gli annotatori . . . 35

4.1.1 Statistiche sull’accordo . . . 37

4.2 Caratteristiche linguistiche determinanti per l’accordo . . . 40

(4)

4.2.2 Caratteristiche rilevanti per l’inglese . . . 43

4.3 Correlazione tra complessità e caratteristiche linguistiche . . . 45

4.3.1 Caratteristiche linguistiche significative . . . 45

4.4 Correlazione tra complessità e caratteristiche linguistiche al variare dell’accordo e della lunghezza delle frasi . . . 50

4.4.1 Lunghezza fissa, accordo variabile . . . 52

4.4.2 Accordo fisso, lunghezza variabile . . . 55

4.5 Conclusioni . . . 59

5 I parser e la complessità linguistica 61 5.1 Correlazione tra complessità e caratteristiche linguistiche . . . 61

5.1.1 Caratteristiche linguistiche significative . . . 62

5.2 Correlazione tra complessità e caratteristiche linguistiche al variare della lunghezza delle frasi . . . 66

5.2.1 Caratteristiche significative per DeSR . . . 67

5.2.2 Caratteristiche significative per MATE . . . 69

5.2.3 Caratteristiche significative per UDPipe . . . 71

5.3 Correlazione tra i parser . . . 73

6 Confronto tra complessità per gli umani e accuratezza dei parser 77 6.1 Accordo fra annotatori e accuratezza dei parser . . . 77

6.2 Complessità uomo-macchina . . . 80

6.2.1 Complessità al variare dell’accordo . . . 84

6.2.2 Complessità al variare della lunghezza delle frasi . . . 87

6.3 Correlazione tra le caratteristiche linguistiche . . . 89

7 Conclusioni 95 A Lista delle caratteristiche linguistiche 99 B Risultati dello studio della complessità per gli umani 103 B.1 Caratteristiche determinanti per l’accordo . . . 104

B.2 Caratteristiche che correlano con la complessità . . . 110

B.3 Caratteristiche che correlano con la complessità al variare dell’accordo e della lunghezza delle frasi . . . 112

B.3.1 Lunghezza fissa, accordo variabile . . . 112

B.3.2 Accordo fisso, lunghezza variabile . . . 124

C Risultati dello studio della complessità per i parser 131 C.1 Caratteristiche che correlano con la complessità . . . 132

(5)

C.2 Caratteristiche che correlano con la complessità

al variare della lunghezza delle frasi . . . 134

(6)
(7)

Elenco delle figure

4.1 Numero di frasi al variare dell’accordo (italiano) . . . 37

4.2 Numero di frasi al variare dell’accordo (inglese) . . . 39

4.3 Feature che correlano con la complessità (italiano) . . . 47

4.4 Feature che correlano con la complessità (inglese) . . . 49

4.5 Complessità al variare della lunghezza . . . 50

4.6 Correlazione feature-complessità, lunghezza 10, accordo variabile (italiano) . . 53

4.7 Correlazione feature-complessità, lunghezza 10, accordo variabile (inglese) . . 54

4.8 Correlazione feature-complessità, accordo 10, lunghezza variabile (italiano) . . 56

4.9 Correlazione feature-complessità, accordo 10, lunghezza variabile (inglese) . . 58

5.1 Feature che correlano con la LAS (italiano . . . 63

5.2 Feature che correlano con la LAS (inglese . . . 65

5.3 LAS al variare della lunghezza . . . 66

5.4 Correlazione feature-LAS, DeSR, lunghezza variabile . . . 68

5.5 Correlazione feature-LAS, MATE, lunghezza variabile . . . 70

5.6 Correlazione feature-LAS, UDPipe, lunghezza variabile . . . 72

5.7 Correlazione tra le feature dei parser . . . 74

6.1 LAS e UAS al variare dell’accordo (italiano) . . . 78

6.2 LAS e UAS al variare dell’accordo (inglese) . . . 79

6.3 Relazione complessità uomo-macchina (DeSR) . . . 81

6.4 Relazione complessità uomo-macchina (MATE) . . . 83

6.5 Relazione complessità uomo-macchina (MATE) . . . 83

6.6 Correlazione complessità uomo-macchina, accordo (italiano) . . . 85

6.7 Correlazione complessità uomo-macchina, accordo (inglese) . . . 86

6.8 Correlazione complessità uomo-macchina, lunghezza frasi (italiano) . . . 87

6.9 Correlazione complessità uomo-macchina, lunghezza frasi (inglese) . . . 89

6.10 Correlazione feature uomo-macchina, accordo . . . 90

6.11 Correlazione feature uomo-macchina, lunghezza frasi . . . 92

(8)

B.2 Feature complete che correlano con la complessità (inglese) . . . 111

B.3 Correlazione feature-complessità, lunghezza 10, accordo variabile (italiano) . . 112

B.4 Correlazione feature-complessità, lunghezza 15, accordo variabile (italiano) . . 113

B.5 Correlazione feature-complessità, lunghezza 20, accordo variabile (italiano) . . 114

B.6 Correlazione feature-complessità, lunghezza 25, accordo variabile (italiano) . . 115

B.7 Correlazione feature-complessità, lunghezza 30, accordo variabile (italiano) . . 116

B.8 Correlazione feature-complessità, lunghezza 35, accordo variabile (italiano) . . 117

B.9 Correlazione feature-complessità, lunghezza 10, accordo variabile (inglese) . . 118

B.10 Correlazione feature-complessità, lunghezza 15, accordo variabile (inglese) . . 119

B.11 Correlazione feature-complessità, lunghezza 20, accordo variabile (inglese) . . 120

B.12 Correlazione feature-complessità, lunghezza 25, accordo variabile (inglese) . . 121

B.13 Correlazione feature-complessità, lunghezza 30, accordo variabile (inglese) . . 122

B.14 Correlazione feature-complessità, lunghezza 35, accordo variabile (inglese) . . 123

B.15 Correlazione feature-complessità, accordo 10, lunghezza variabile (italiano) . . 124

B.16 Correlazione feature-complessità, accordo 14, lunghezza variabile (italiano) . . 125

B.17 Correlazione feature-complessità, accordo 16, lunghezza variabile (italiano) . . 126

B.18 Correlazione feature-complessità, accordo 10, lunghezza variabile (inglese) . . 127

B.19 Correlazione feature-complessità, accordo 15, lunghezza variabile (inglese) . . 128

B.20 Correlazione feature-complessità, accordo 16, lunghezza variabile (inglese) . . 129

C.1 Feature complete che correlano con la LAS (italiano) . . . 132

C.2 Feature complete che correlano con la LAS (inglese) . . . 133

C.3 Correlazione feature-LAS, DeSR, lunghezza variabile (italiano) . . . 134

C.4 Correlazione feature-LAS, DeSR, lunghezza variabile (italiano) . . . 135

C.5 Correlazione feature-LAS, MATE, lunghezza variabile (italiano) . . . 136

C.6 Correlazione feature-LAS, MATE, lunghezza variabile (inglese) . . . 137

C.7 Correlazione feature-LAS, UDPipe, lunghezza variabile (italiano) . . . 138

(9)

Elenco delle tabelle

4.1 Numero di frasi al variare dell’accordo (italiano) . . . 38

4.2 Numero di frasi al variare dell’accordo (inglese) . . . 40

4.3 Feature significative per l’accordo (italiano) . . . 42

4.4 Feature significative per l’accordo (inglese) . . . 44

4.5 Correlazione tra feature e giudizio umano (file d’esempio) . . . 46

5.1 LAS al variare della lunghezza delle frasi . . . 67

5.2 Correlazione media delle feature dei parser . . . 75

6.1 Correlazione media della complessità uomo-macchina (italiano) . . . 88

6.2 Correlazione media della complessità uomo-macchina (inglese) . . . 89

6.3 Correlazione media caratteristiche significative uomo-macchina . . . 93

B.1 Caratteristiche significative per l’accordo (italiano) . . . 104

(10)
(11)

CAPITOLO

1

Introduzione

Il presente studio nasce da una domanda: cosa determina la complessità linguistica di una frase per l’uomo e per la macchina? Attualmente non esiste un’unica definizione per il concetto di complessità linguistica, al quale sono stati assegnati diversi significati in relazione ai punti di vista da cui il fenomeno è stato esaminato. Negli ultimi anni si è assistito a un cospicuo moltiplicarsi delle ricerche sulla complessità linguistica. In letteratura esistono già numerosi esempi di studi sulla complessità linguistica per l’uomo, in cui l’attenzione è diretta verso ciò che è complesso — o difficile — per chi parla, ascolta, legge o impara una lingua. Tali studi riguardano molti scenari applicativi, che vanno dalla semplificazione del testo agli studi sulla leggibilità, fino a studi sull’apprendimento di una seconda lingua (L2) o sul linguaggio infantile. Recentemente, l’interesse si è spostato anche verso l’influenza che la complessità linguistica ha sulle prestazioni degli strumenti di analisi automatica (tra gli altri McDonald e Nivre, 2007; Dell’Orletta, Venturi e Montemagni, 2011; Gulordava e Merlo 2015). Questo interesse nasce anche dalla necessità di processare automaticamente diverse varietà della lingua che si discostano dallo standard, quali per esempio il parlato o il linguaggio dei social media. L’intento di questo lavoro di tesi sarà quello di indagare la complessità nei due ambiti, quello umano e quello delle macchine, prima separatamente e poi in un’ottica comparativa. L’interesse sarà non solo di capire quali fattori linguistici influenzano la complessità per gli umani e la complessità per le macchine, ma anche di determinare se c’è un legame tra i due diversi tipi di complessità e tra gli elementi linguistici che la caratterizzano.

La complessità è stata studiata da una prospettiva cross-linguistica, utilizzando due corpora — uno per la lingua italiana e uno per la lingua inglese — contenenti frasi estratte dal dominio giornalistico (1122 per l’italiano, 1186 per l’inglese). Nel caso degli umani, la complessità è stata definita in termini di complessità percepita, creando un task di crowdsourcing in cui è stato chiesto a un gruppo di persone di giudicare la complessità delle frasi dei corpora. Nel caso delle macchine, sono stati utilizzati tre diversi parser per produrre un’analisi sintattica a dipendenze delle frasi. Questi tre sistemi di analisi sono stati scelti perché sono tra i sistemi più accurati per l’analisi sintattica per l’italiano e per l’inglese e perché adottano strategie di analisi diverse. La

(12)

complessità per le macchine è stata definita tramite due metriche standard utilizzate per valutare l’accuratezza di analisi dei parser, la Labeled Accuracy Score (LAS) e la Unlabeled Accuracy Score(UAS).

Il presente elaborato si apre con un capitolo sullo stato dell’arte (Capitolo 2), in cui si intro-duce il concetto di complessità linguistica. Si farà un breve excursus riguardante l’evoluzione storica della definizione di complessità, fino ad arrivare alle teorie sviluppate più recentemente. Si vedrà cosa genera complessità nei diversi livelli della lingua (fonetico, morfologico, seman-tico e pragmaseman-tico), con un focus sulla complessità a livello sintatseman-tico, la quale sarà oggetto di esame anche nei capitoli successivi.

Il Capitolo 3 introduce le risorse e gli strumenti utilizzati per lo studio della complessità linguistica. Verrà illustrato come sono stati creati i corpora impiegati nello studio e i criteri con cui sono state selezionate le frasi che li compongono. Successivamente, verranno presentati gli strumenti di analisi automatica e le loro caratteristiche. Verrà spiegato come è stato articolato l’esperimento di crowdsourcing con cui è stata valutata la complessità percepita dagli umani. Infine, verrà presentata una metodologia di monitoraggio linguistico, che permetterà di estrarre dalle frasi un’ampia gamma di caratteristiche linguistiche che verranno messe in relazione con i valori di complessità, sia per gli umani che per le macchine, come descritto nei capitoli successivi.

Il Capitolo 4 si focalizza sullo studio della complessità per gli esseri umani. In questo capitolo si proverà a capire (1) perché gli annotatori sono in accordo sui giudizi assegnati ad alcune frasi e in disaccordo sui giudizi assegnati ad altre e (2) quali sono le caratteristiche linguistiche delle frasi che correlano con la complessità percepita dagli umani. A tale scopo, si definirà una nozione di accordo fra gli annotatori e si mostreranno statistiche riguardanti l’accordo. Si indagherà quali sono le caratteristiche linguistiche che discriminano le frasi su cui gli annotatori sono in accordo da quelle su cui invece non lo sono. Infine, verranno individuate le caratteristiche che correlano con la complessità per gli umani, esaminandole anche in relazione al variare della lunghezza delle frasi e al variare dell’accordo fra gli annotatori.

Il Capitolo 5 si occupa dello studio della complessità per le macchine, con l’intento di (1) verificare quali sono le caratteristiche linguistiche delle frasi legate alla complessità per i parser e di (2) capire se le caratteristiche linguistiche legate alla complessità sono le stesse per tutti e tre i parser o se alle diverse strategie di analisi corrispondono caratteristiche linguistiche differenti. Come per gli umani, questo studio verrà condotto sia considerando i corpora come un’unica collezione di frasi, sia organizzando le frasi rispetto alla loro lunghezza.

Nel Capitolo 6 la dimensione della complessità umana verrà messa a confronto con la dimensione della complessità per la macchina. Come prima cosa, si vedrà se esiste un legame fra l’accuratezza dei parser e il grado di accordo nei giudizi degli annotatori. In seguito, si studierà se esiste una relazione tra la complessità umana e la complessità per i parser, esaminando la distribuzione dei giudizi e dei valori di complessità che umani e macchine hanno assegnato

(13)

alle frasi dei corpora. Questa correlazione verrà studiata sia considerando il corpus nella sua interezza, sia al variare della lunghezza delle frasi. Infine, si individuerà quali caratteristiche linguistiche che correlano con la complessità sono condivise da umani e macchine e quali, invece, sono esclusive di uno o dell’altro gruppo.

Prima di presentare nel dettaglio quanto realizzato nel presente studio, si sottolinea che la tipologia e il quantitativo di dati estratti sono tali da poter essere analizzati da numerosi punti di vista. Non potendo, in questo elaborato, dare spazio a tutti i possibili punti di vista, ne saranno presentati solo alcuni e si rimanda lo studio delle rimanenti prospettive d’analisi a studi futuri.

(14)
(15)

CAPITOLO

2

La complessità linguistica

Provare a dare una definizione di complessità linguistica non è compito facile, sebbene ognuno di noi abbia una propria visione di cosa è complesso in una lingua e cosa non lo è. Questo succede perché un non-linguista o un non-esperto tende a differenziare le lingue associando loro un diverso livello di complessità. Le persone sono solite valutare la propria lingua madre come facile, classificando le altre lingue in una scala di complessità basata su una certa percezione di distanza dalla propria lingua nativa. I parlanti italiani, per esempio, tenderanno a ritenere più facile una lingua romanza come lo spagnolo, che contiene suoni e parole che si avvicinano molto di più a quelli dell’italiano, mentre riterranno difficile una lingua come il tedesco o, ancora di più, una lingua come il cinese o l’arabo.

Lo studio della complessità nell’ambito degli studi di linguistica è invece molto più articolato e il dibattito sul tema non si è ancora esaurito. In questo capitolo si introdurrà il concetto di complessità dal punto di vista linguistico e verrà descritto come si è deciso di misurare la complessità nel presente studio, sia per gli umani che per gli strumenti di analisi automatica.

2.1

Introduzione alla complessità linguistica

La complessità del linguaggio naturale è un tema ampiamente dibattuto nell’ambito della ricerca linguistica ed è stato studiato sotto diversi punti di vista: da quello psicolinguistico a quello storico, dagli studi neuroscientifici a quelli linguistico-computazionali.

Attualmente, in ambito linguistico non esiste ancora una definizione univoca per la comples-sità. Il termine complessità, per esempio, è stato usato per riferirsi agli aspetti del linguaggio che rendono la comunicazione orale più facile o per descrivere caratteristiche della produzione linguistica (Pallotti, 2014). Altri studiosi, concordano invece sul fatto che la complessità lingui-stica possa essere definita solo in base alla prospettiva da cui si studia una lingua e che, pertanto, la definizione di complessità vari di caso in caso. Altri ancora, ritengono che la complessità riguardi le difficoltà di acquisizione delle strutture linguistiche da parte di chi sta apprendendo

(16)

una prima o una seconda lingua: per Trudgill (2001:371) la complessità linguistica equivale alle difficoltà di apprendimento per gli adulti; Szmrecsanyi e Kortmann (2009) parlano di difficoltà di apprendimento di una seconda lingua (L2); Kusters (2003) parla di difficoltà di apprendimento di un linguaggio da parte di un outsider (un individuo non madrelingua, che impara una lingua da adulto).

Le prime riflessioni sul tema della complessità linguistica iniziarono già nel XIX secolo, quando gli studiosi cercarono di classificare le lingue seguendo le divisioni razziali dell’epoca. Con l’intento di dimostrare l’inferiorità delle popolazioni sottomesse durante la colonizzazione, si distinse tra due classi linguistiche: le lingue indoeuropee, corrispondenti alle lingue flessive e considerate come quelle più evolute, e le lingue non indoeuropee dei paesi dominati, considerate primitive e inferiori rispetto alle prime (Gallissot et al., 2001). Per Fiorentino (2009) le conce-zioni del XIX secolo sono il risultato dell’associazione tra complessità linguistica e complessità del pensiero. Le lingue più complesse erano quelle ritenute più adatte per esprimere il pensiero complesso; così, le lingue flessive (quelle indoeuropee) finivano con l’essere considerate più complesse rispetto a quelle agglutinanti o isolanti.

Nel XX secolo queste prime teorie lasciarono spazio all’idea, diffusa tra molti linguisti, che tutte le lingue fossero ugualmente complesse e che tutti gli uomini fossero dotati delle stesse capacità cognitive e linguistiche, indipendentemente dal loro luogo di origine e dalla loro appartenenza razziale. Quest’idea è stata oggi ampiamente superata, lasciando il posto al pensiero che tutte le lingue possiedano diversi livelli di complessità e che alla semplicità di un livello della lingua corrisponda la complessità di un altro livello. Va però ricordato che i concetti di semplicità e complessità di una lingua non sono mai assoluti: ciò che di una lingua viene percepito come facile o difficile è strettamente dipendente dalle caratteristiche della lingua madre di chi osserva o studia quella lingua. Nonostante la nozione di complessità sia relativa, molti linguisti hanno finito con l’assolutizzarla, proponendo distinzioni più o meno nette tra le costruzioni e i fatti linguistici ritenuti più semplici e quelli ritenuti più complessi, arrivando infine all’idea che esistano lingue più semplici di altre.

Negli ultimi anni sono stati numerosi gli studiosi che hanno provato a dare una definizione alla complessità linguistica. Per Ferguson (1982), se due lingue sono messe a confronto e una risulta più semplice dell’altra, essa possiederà le caratteristiche di ciò che è più diffuso nelle lingue naturali e che viene immagazzinato per primo durante l’acquisizione del linguaggio. Un’altra proposta è quella di McWhorter (2001), secondo cui un linguaggio complesso è quello che, rispetto a un linguaggio più semplice, contiene più distinzioni fonetiche, morfologiche, sintattiche e semantiche, al di là di quelle utili per le necessità comunicative. Al contrario, Hawkins (2009) si oppone all’idea che la complessità linguistica sia direttamente dipendente dal numero di unità strutturali e regole di una lingua, seguendo invece l’idea che alla semplificazione di un livello linguistico corrisponda la complessità su altri livelli. Esistendo così tante ipotesi, è molto difficile definire una metrica universale per la complessità linguistica. Di seguito, si

(17)

descriveranno brevemente due diverse prospettive da cui è possibile studiare la complessità.

2.1.1

Complessità nel sistema e complessità per l’utente

La complessità linguistica è stata studiata dai linguisti da due punti di vista principali: la complessità nel sistema e la complessità per l’utente.

Complessità nel sistema. La complessità viene definita comparando sistemi linguistici e strut-ture linguistiche sulla base di criteri interni alle lingue. Il sistema linguistico è caratterizzato da un insieme di elementi che interagiscono tra loro in maniera distribuita, autonoma e ge-rarchica (Cangelosi e Turner, 2002). Le abilità linguistico-comunicative sono organizzate dal basso verso l’alto: in questo modo, quelle che si trovano ai livelli inferiori, come la fonetica, influenzano quelle che si trovano ai livelli superiori, come il livello sintattico e il livello lessicale. Dall’interazione e l’organizzazione di questi componenti scaturiscono strutture linguistiche e comportamenti complessi, quali la sintassi o la comunicazione tra più individui. I criteri che il linguista può utilizzare per lo studio di questi fenomeni possono essere molto diversi: per esem-pio, si può considerare il numero di regole necessarie per produrre un certo output, il numero di eccezioni a queste regole oppure il numero di unità previste in un certo livello linguistico. In questo caso, quindi, è il linguista che definisce cosa è complesso e la complessità deriva dalle descrizioni del linguista.

Complessità per l’utente. La complessità si misura sulla base dell’efficienza comunicativa tra i parlanti: la complessità dipende dalle strategie cognitive che l’utente mette in atto durante la produzione e la ricezione del linguaggio, quindi dall’efficienza della produzione linguistica e della sua comprensione. In questo caso, si considera come complesso ciò che richiede uno sforzo cognitivo maggiore per essere prodotto o compreso. Per Hawkins (2009) la comunicazione avviene in modo efficiente quando un messaggio è trasmesso tra parlante e ascoltatore in tempo rapido e con uno sforzo di elaborazione minimo. Hawkins, inoltre, definisce tre principi che regolano l’efficienza comunicativa, secondo i quali è necessario:

• minimizzare i domini: concentrare le sequenze connesse sintatticamente e semantica-mente, rendendo i domini i più brevi possibili, per alleggerire la memoria di lavoro del processore1;

• massimizzare il processo on-line: quando un umano deve elaborare un elemento X, lo fa più velocemente se le proprietà di X si trovano tutte insieme e possono essere assegnate a esso man mano che l’elemento viene processato; un’assegnazione successiva delle proprietà richiede un maggiore sforzo e può aumentare il margine di errore;

(18)

• minimizzare le forme: l’elaborazione delle forme linguistiche e delle loro proprietà richiede un certo sforzo cognitivo; per poterlo ridurre, è possibile minimizzare l’uso delle forme sfruttando le informazioni extra-linguistiche già presenti nella comunicazione, quali, per esempio, la frequenza delle parole e le inferenze.

Visti questi principi, si può dire che per una comunicazione efficiente è necessaria semplicità a livello strutturale e grammaticale, in modo che le informazioni possano essere processate rapidamente e con uno sforzo cognitivo minimo.

2.2

Complessità nei diversi livelli della lingua

L’introduzione del concetto di complessità linguistica implica anche la necessità di individuare una metrica con cui misurare la complessità stessa: in questo modo è possibile determinare quali elementi di una lingua possono considerarsi più complessi e quali meno complessi, op-pure classificare lingue diverse in base alla loro complessità. Individuare una metrica unica, convenzionalmente concordata, non è compito semplice e nel corso degli anni ci sono stati vari tentativi di definire un metodo utile per la misurazione della complessità. McWhorter (2001) propone una metrica che può essere considerata universalmente valida, concentrandosi sui fe-nomeni fonologici e morfologici, i quali potrebbero essere indicatori di un sistema linguistico complesso. La metrica di McWhorter si basa sull’intuizione che un’area della grammatica è più complessa rispetto alla stessa area in un’altra grammatica nella misura in cui la prima comprende maggiori distinzioni e/o regole della seconda. Sulla base di questa concezione, per ogni livello della lingua è possibile individuare le caratteristiche che determinano una maggiore o minore complessità.

Fonologia McWhorter individua due parametri per la complessità fonologica: l’inventario

fonemicoe il sistema tonale.

L’inventario fonemico di una lingua è più complesso se contiene elementi marcati. La complessità deriva dalla frequenza con cui i suoni si distribuiscono cross-linguisticamente: se i suoni di una lingua sono meno frequenti rispetto ai suoni che appaiono in altre lingue, questi saranno definiti come elementi fonologici marcati e determineranno un maggiore livello di complessità per quella lingua.

Il sistema tonale di una lingua diviene più complesso quando contiene più toni. In questo caso la complessità deriva dalla necessità di gestire ed elaborare un maggior numero di contrasti tonali e dalla necessità di mantenere distinzioni intertonali più sottili.

Morfologia McWhorter individua nella morfologia flessiva una maggiore complessità rispetto ai livelli di complessità raggiungibili negli altri tipi di morfologia (quella isolante, per esempio). La flessione rende più complessa una grammatica perché essa comporta lo sviluppo di processi

(19)

morfo-fonologici che rappresentano un componente grammaticale aggiuntivo da imparare; tali componenti possono anche influenzare altri livelli della lingua, come quello fonetico. Inoltre, alcuni prodotti della morfologia flessiva non hanno una corrispondenza esatta in tutte le gram-matiche. Per questi motivi, la flessione è sintomo di maggiore complessità in quanto determina un maggiore carico cognitivo per processare la lingua. Anche Kusters (2003) sostiene che la flessione è motivo di complessità, comparando la morfologia flessionale e quella derivazionale: in particolare, la seconda è considerata più semplice della prima perché è possibile trovare una corrispondenza tra le regole derivazionali di una lingua e quelle di un’altra, mentre non è possibile fare la stessa cosa per le regole della flessione.

Semantica Secondo Berruto (1990) la complessità semantica e la sintassi possono essere for-temente correlate e la semplificazione del livello sintattico può comportare un aumento della complessità sul piano semantico. Voghera (2001) individua tre tratti semantici che indicano una maggiore complessità nel livello lessicale:

• il significato astratto è più complesso di quello concreto, poiché conoscibile solo attraverso la mente e non percepibile fisicamente (con i cinque sensi, come avviene per ciò che è concreto);

• la polisemia è indice di una maggiore complessità rispetto alla monosemia2;

• il lessico funzionale (congiunzioni, articoli, preposizioni, etc.) è più complesso del lessico referenziale (nomi, aggettivi, verbi, avverbi).

Pragmatica Affinché la comunicazione tra due o più individui sia efficiente, gli interlocutori non necessitano solo di conoscenze riguardanti fonetica, morfologia, sintassi e lessico, ma sono fondamentali anche conoscenze riguardanti il contesto extralinguistico. Senza le informazioni pragmatiche, ovvero quelle sul contesto sociale, ambientale e psicologico in cui collocare il discorso, potrebbe non essere possibile far funzionare correttamente la comunicazione. La pragmatica permette di gestire e decifrare fenomeni linguistici che altrimenti potrebbero risul-tare incomprensibili, come l’uso di significati sarcastici o ironici al posto di quelli letterali, o l’ambiguità di singole parole o di interi enunciati.

2.2.1

La complessità sintattica

Questa sezione sarà interamente dedicata ai fenomeni di complessità sintattica, la quale sarà al centro delle analisi presentate nei capitoli seguenti. In generale si possono indicare come indici della complessità sintattica (Berruto e Cerruti, 2011):

2Voghera (2001) specifica che non si tratta di una regola assoluta in quanto "la riduzione di materiale sintagmatico e la monosemia possono essere fattori di semplificazione per il produttore, ma un fattore di straordinaria complessità per il ricevente".

(20)

• l’ordine lineare degli elementi di una frase, che permette di evitare eventuali ambiguità di significato;

• la discontinuità, ovvero la possibilità che gli elementi legati semanticamente o sintattica-mente non siano linearsintattica-mente adiacenti;

• le relazioni e le dipendenze esistenti tra elementi non contigui; • il grado di incassatura fra gli elementi;

• la ricorsività, ovvero la possibilità di applicare lo stesso procedimento un numero illimi-tato di volte, ottenendo sempre nuove strutture (in questo modo si accresce il grado di complessità);

• le parti del discorso, che forniscono informazioni sulla sua struttura interna (es. le congiunzioni subordinanti e coordinanti);

Origine dell’ordine dei costituenti Soggetto-Verbo-Oggetto (SVO) Secondo studi recenti (Gell-Mann e Ruhlen, 2011) l’origine di tutti (o quasi) i linguaggi è da identificare in un unico linguaggio antenato, il quale possedeva l’ordine Soggetto-Oggetto-Verbo (SOV) e non il canonico ordine Soggetto-Verbo-Oggetto (SVO), il più diffuso a livello interlinguistico. Sarebbe stato un processo lento e graduale a portare l’ordine SOV a modificarsi in quello SVO, dal quale sarebbero poi originati anche gli altri ordini più diffusi.

Ulteriori studi (Gibson et al., 2013) hanno indagato il perché dello sviluppo dell’ordine SVO, individuando nel rumore che potrebbe contaminare il segnale linguistico una possibile causa. Il concetto di rumore viene ripreso dalla teoria dell’informazione di Shannon, secondo la quale la comunicazione può essere facilmente compromessa da rumori che impedirebbero la corretta trasmissione di un messaggio linguistico: per ovviare a questo problema, gli umani avrebbero sviluppato una serie di regole relative all’ordine delle parole, grazie alle quali è possibile ridurre al minimo gli errori comunicativi dovuti al rumore. Per esempio, si può mostrare l’utilità dell’ordine SVO nei contesti che presentano degli eventi semanticamente reversibili, come in Paolo saluta Mario: in questa frase sono presenti due referenti animati, i quali potrebbero svolgere entrambi la funzione di agente nell’evento. L’ordine SVO permette di evitare qualsiasi ambiguità, poiché identifica con chiarezza quale dei due referenti è l’agente e quale il paziente; se si usasse l’ordine SOV (Paolo Mario saluta) sarebbe invece impossibile disambiguare l’enunciato senza avere ulteriori informazioni sul contesto del discorso.

Ordine marcato e non marcato degli elementi Vi sono due diverse scuole di pensiero sul-l’ordine dei costituenti di una frase: alcuni studiosi ritengono che sul-l’ordine sia determinato dalla struttura dell’informazione (Diessel, 2005), altri sostengono che l’ordine sia legato alla capacità di elaborare velocemente l’informazione (Hawkins, 1994).

(21)

Sia nella lingua italiana che in quella inglese, l’ordine non marcato (canonico) dei co-stituenti corrisponde all’ordine SVO. In alcuni casi, per esigenze comunicative, è possibile modificare l’ordine di alcuni elementi della frase per focalizzare l’attenzione su una particolare informazione. Corpina (2009) parla di marcatezza su tre diversi livelli di analisi:

• marcatezza fonologica: una frase è marcata fonologicamente quando la sua curva into-nativa non può essere rappresentata come una curva continua, ma presenta interruzioni, pause o picchi intonativi;

• marcatezza sintattica: una frase è sintatticamente marcata quando i suoi costituenti non occupano le posizioni canoniche, ma assumono altre posizioni al fine di focalizzare l’attenzione su una particolare informazione. Generalmente marcatezza sintattica e fono-logica sono strettamente legate, perché a un ordine marcato dei costituenti corrisponde solitamente anche un’intonazione particolare;

• marcatezza pragmatica: una frase è marcata pragmaticamente quando si adatta a un numero ridotto di contesti e situazioni linguistiche.

La lingua italiana permette ampie variazioni nell’ordine degli elementi sintattici, i quali possono assumere di frequente posizioni non canoniche. La struttura sintattica dell’inglese, al contrario, non è flessibile quanto quella dell’italiano, ma permette comunque un certo grado di mobilità degli elementi della frase. Di seguito si esamineranno alcuni casi specifici di movimenti possibili per la lingua italiana e inglese.

Soggetto. Il soggetto appare canonicamente in posizione preverbale, sia nell’italiano che nell’in-glese, essendo entrambe lingue con struttura SVO. L’italiano permette una certa flessibilità nei movimenti del soggetto, che può essere sia omesso (se inferibile tramite altri fenomeni interni alla frase, come l’accordo sul verbo, o tramite elementi extralinguistici), sia spostato in posizioni non canoniche per evidenziare un elemento nuovo o inatteso, come avviene negli enunciati tetici (es. è arrivato Mario), oppure nelle frasi scisse (es. è Mario che si occupa di questa cosa), le quali permettono di rematizzare il soggetto a inizio frase mediante l’uso del verbo essere in funzione di copula e di tratti prosodici. Nell’inglese, al contrario, il soggetto non può essere omesso in nessun caso, in quanto non ci sono elementi nella flessione verbale che permettono di inferirlo (come accade invece per l’italiano, in cui ogni persona verbale è indicata da una ap-posita desinenza verbale). Sono invece possibili inversioni soggetto-ausiliare e soggetto-verbo, in cui il soggetto appare in posizione postverbale. L’inglese permette l’inversione tra soggetto e ausiliare in diversi casi:

– Will you stay? What have you done? -Inversione nelle domande;

(22)

– At no point has John helped-Inversione con negazione in prima posizione.

Le inversioni appena viste sono possibili solo nei casi in cui il verbo è un ausiliare (una frase come *stay you? realizzata con un verbo non ausiliare non è accettabile). Nei casi in cui vi è la necessità di focalizzare l’attenzione sul soggetto, sono possibili anche inversioni tra soggetto e verbi non ausiliari, come in:

– In the corner lay a lamp. -locative inversion, inversione in posizione preverbale di un aggiunto indicante un luogo;

– Into the room came two students-directive inversion, inversione come nella locative inversion in presenza di un verbo di movimento;

– Our representative is Bill -copular inversion, inversione tra soggetto e predicativo nominale quando il verbo è la copula;

– "I’m here", said Bill -quotative inversion, inversione che si realizza con i verbi che indicano l’atto del parlare, quando il parlato è riportato in forma diretta.

Oggetto. La posizione canonica per l’oggetto è post-verbale, sia per l’italiano che per l’inglese. Per la lingua italiana, a seconda delle necessità comunicative, l’oggetto può essere dislocato a destra del verbo o alla sua sinistra. Nel caso della dislocazione a destra, l’oggetto viene anticipato da un pronome clitico con funzione cataforica e posto dopo il verbo (es. non la mangio, la pasta). Al contrario, nella dislocazione a sinistra l’oggetto viene posto prima del verbo e ripreso successivamente da un pronome clitico (es. la pasta, la cucina Mario). L’inglese prevede la possibilità di spostare l’oggetto in posizione preverbale (object fronting) in vari tipi di costruzioni, come in costruzioni che prevedono un oggetto diretto (es. That I understand) o un oggetto preposizionale (es. Two words I can think of)3.

Modificatori del nome Alcuni modificatori risultano avere una mobilità abbastanza ridotta sia nell’italiano che nell’inglese. Gli articoli, i determinanti, i numerali e i quantificatori appaiono sempre prima del nome cui si riferiscono e questa posizione non può subire variazioni.

Aggettivi L’ordine tra nome e aggettivo non è fisso né per l’italiano né per l’inglese. In italiano, l’aggettivo appare dopo il nome se indica una qualità distintiva del nome cui si riferisce rispetto alle qualità degli altri elementi che appartengono alla stessa categoria cui appartiene il nome (es. la casa bella), mentre appare prima del nome quando ha funzione descrittiva, cioè fornisce un dato oggettivo caratterizzante il nome cui si riferisce (es. la bella casa). Tuttavia, non tutti gli aggettivi permettono questa variabilità e alcuni di essi hanno posizione fissa. Appaiono sempre dopo il nome:

(23)

– aggettivi alterati (una stanza piccolina);

– aggettivi che reggono un complemento (una stanza piena di polvere); – aggettivi derivati da un participio (una casa ristrutturata);

– aggettivi che indicano colore (una macchina rossa); – aggettivi che indicano forma (una stanza quadrata); – aggettivi che indicano nazionalità (una ragazza inglese).

Al contrario, appaiono sempre prima del nome gli aggettivi possessivi (es. mia sorella), salvo nei casi in cui sono dislocati dopo il nome per motivi di focalizzazione (es. la penna mia), e gli aggettivi usati in senso figurato (es. un alto magistrato).

Per quanto riguarda l’inglese, la posizione canonica per l’aggettivo è in posizione pre-verbale. Ci sono però diversi casi in cui è possibile trovare gli aggettivi anche in posizione post-verbale: – quando l’aggettivo qualifica pronomi indefiniti composti: something, anyone, nobody,

etc. (es. we need someone strong);

– quando l’aggettivo è seguito a sua volta da un modificatore, come i casi in cui il nome è modificato da una frase aggettivale, in cui la testa (l’aggettivo) non è l’ultimo elemento (es. they are proud of themselves);

– casi in cui l’aggettivo in posizione post-nominale comporta un cambiamento di significato ("every star visible is named after a famous astronomer", in cui ci si riferisce alle stelle visibili nel momento in cui la frase è pronunciata, contro "every visible star is (...)", che si riferisce alle stelle visibili in generale);

– espressioni fisse, spesso derivate da traduzioni di altre lingue (es. court-martial, Alexander the Great).

Avverbi. La posizione degli avverbi rispetto al verbo è variabile sia per l’italiano che per l’inglese. Per quanto riguarda l’italiano, gli avverbi di modo possono essere collocati in qualsiasi punto della frase senza alterarne il significato (es. camminava lentamente, lentamente camminava). In altri casi, gli avverbi seguono alcune regole: gli avverbi si collocano dopo il verbo quando quest’ultimo è coniugato in un tempo composto (es. Mario ha lavorato duramente), oppure alcuni avverbi di tempo (mai, già, sempre, spesso, etc.) o di giudizio (forse, sicuramente, certamente, etc.) possono essere collocati tra l’ausiliare e il participio passato (es. non sono mai stato in Francia). È interessante notare che in alcuni casi l’avverbio possa modificare il significato della frase in base alla posizione che assume: in "ho risposto semplicemente" l’avverbio ha valore modale, mentre in "ho semplicemente risposto" l’avverbio appare in funzione limitativa;

(24)

la stessa cosa si verifica con gli avverbi focalizzatori (solo, anche, soprattutto, etc.), come in "Gianni ama anche il cinema" e in "anche Gianni ama il cinema".

Per quanto riguarda la lingua inglese, gli avverbi possono apparire in tre diverse posizioni: a inizio frase, alla fine della frase o nella parte centrale della frase. In generale, appaiono all’inizio della frase: gli avverbi che legano il significato della frase a quello della frase precedente (es. he always looks good, however he dresses), gli avverbi che indicano tempo o frequenza (es. aferwards, we went for a walk), gli avverbi che si riferiscono a un luogo (es. there goes my bus!), gli avverbi che esprimono un commento sul resto della frase (es. clearly, more research is needed). Appaiono a fine frase: gli avverbi di modo (es. he works slowly), gli avverbi che indicano tempo o frequenza (es. I saw him yesterday), gli avverbi che si riferiscono a un luogo (es. we are at the table over there). Possono apparire in posizioni centrali della frase: avverbi di frequenza (es. we always meet on Sunday), avverbi di modo (es. I slowly walked into town), avverbi che intensificano o riducono il significato di un verbo, un aggettivo o un altro avverbio (es. she nearly fell asleep), avverbi che commentano parte della frase (es. when I heard the story, frankly, I couldn’t believe it), avverbi che evidenziano una parte della frase (es. you can’t justpretend nothing happened).

Subordinate. Nelle lingue SVO è più comune che la frase subordinata segua la frase principale, in quanto tale ordinamento è quello che permette di processare le informazioni più velocemente e di pianificare il discorso in maniera meno complessa. Tuttavia, ci sono anche molti casi in cui la subordinata può precedere la proposizione da cui dipende. Per quanto riguarda la posizione delle subordinate è possibile elencare tre diverse scuole di pensiero:

• una prima teoria, di natura pragmatica, sostiene che la dislocazione a sinistra di una su-bordinata rispetto alla frase principale sia utile per introdurre informazioni che il ricevente già conosce;

• una seconda teoria, opposta alla prima, afferma che posizionare la subordinata dopo la principale permetta di processare l’informazione più facilmente4;

• Diessel (2005) propone una terza teoria, con cui integra la prima e la seconda posizione: l’ordinamento della frase è determinato da un’interazione tra processing, pragmatica e semantica.

In Diessel (2005) si mostra che ci sono casi in cui è preferibile anteporre la subordinata alla principale, scegliendo quindi una costruzione marcata:

– se la subordinata corrisponde a una clausola condizionale, è preferibile che appaia prima della principale, in quanto indica la condizione affinché l’evento della principale si possa realizzare;

4Hawkins (1994) sostiene questa teoria, affermando che un ordine lineare rende più veloce e meno dispendiosa l’elaborazione di una frase.

(25)

– le subordinate temporali precedono solitamente la principale per un principio iconico, indipendentemente dal fatto che l’evento descritto nella subordinata sia precedente o posteriore a quello espresso nella principale.

La teoria proposta da Diessel (2005) è valida sia per l’italiano che per l’inglese, tanto che in entrambe le lingue è possibile trovare le subordinate sia prima che dopo la frase principale (if you need money, just let me know; just let me know if you need money; se hai bisogno di soldi, fammelo sapere; fammi sapere se hai bisogno di soldi).

2.3

Misurare la complessità

Poiché il presente studio è incentrato sul concetto di complessità, prima di poter intraprendere qualsiasi tipo di analisi è stato necessario definire in che modo misurare la complessità stessa. L’intento di questo lavoro sarà di trattare e confrontare la complessità linguistica su due diversi piani: quello riguardante gli esseri umani e quello riguardante gli strumenti di analisi automatica. Per ognuno dei due ambiti si è deciso di misurare la complessità in maniera differente.

2.3.1

La complessità linguistica nell’analisi automatica del linguaggio

La complessità linguistica influenza notevolmente l’analisi automatica del linguaggio e si riper-cuote sull’accuratezza delle analisi prodotte da strumenti automatici. In questo caso, parlando di strumenti automatici si fa riferimento ai parser. Nell’ambito dell’analisi del linguaggio naturale (natural language processing o NLP) i parser sono programmi software in grado di analizzare testi in linguaggio naturale e restituire in output una loro rappresentazione strutturata. Se non ci sono ulteriori specificazioni, la parola parser è oggi comunemente usata per identificare i parser sintattici, i quali generano delle rappresentazioni che catturano le relazioni grammaticali presenti all’interno di una frase. I parser sintattici più comuni sono di due tipologie: quelli a costituenti, i quali identificano i costituenti sintattici (sintagmi nominali, sintagmi verbali, etc.) e le loro relazioni di incassamento gerarchico, e quelli a dipendenze, i quali descrivono la frase in termini di relazioni binarie di dipendenza tra parole che indicano relazioni grammaticali (come soggetto, oggetto, modificatore, etc.). Nel presente studio verranno impiegati solo parser sintattici a dipendenze (cfr. 3.2).

L’affidabilità delle analisi prodotte da questi strumenti è cresciuta notevolmente negli ultimi anni e si continua a lavorare per produrre strumenti sempre più accurati. Gli approcci fino a oggi utilizzati per determinare l’affidabilità degli output prodotti dai parser possono essere raggruppati in tre categorie:

• metodi supervised-based: richiedono la creazione di un classificatore in grado di predire l’affidabilità di un parser sulla base di diversi tipi di caratteristiche linguistiche. In Yates

(26)

et al. (2006) si propone un approccio che utilizza caratteristiche semantiche derivate dal web per creare un modello statistico in grado di individuare gli output corretti prodotti da parser a costituenti. Ravi et al. (2008) propongono l’uso di caratteristiche text-based (come la lunghezza della frase) insieme all’uso di caratteristiche sintattiche, in modo da sviluppare un modello che predica l’accuratezza del parser. Oppure, Kawahara e Uchimoto (2008) utilizzano un approccio basato su caratteristiche estratte direttamente dal parser a dipendenze (quali la lunghezza delle dipendenze, il numero di congiunzioni coordinanti, etc.);

• metodi ensable-based: questi metodi selezionano i migliori alberi di parsing calcolando l’accordo tra gli output prodotti da diverse versioni di uno stesso parser, ognuna addestrata su tipologie differenti di dati, oppure tra gli output prodotti da parser diversi addestrati sugli stessi dati (Reichart e Rappoport, 2007 e Sagae e Tsujii, 2007);

• metodi unsupervised-based: i primi due approcci descritti sono fortemente influenzati dalla tipologia del training set e dall’accuratezza e la tipologia di errori dei parser utiliz-zati. L’approccio unsupervised-based si basa invece sull’idea che le strutture prodotte più frequentemente da un parser saranno analizzate più correttamente rispetto a strutture più rare. Negli ultimi anni sono stati sviluppati molti sistemi che sfruttano questo approccio. Reichart e Rappaport (2009a) hanno sviluppato PUPA (POS-based Unsupervised Parser Assessment Algorithm), un sistema che utilizza informazioni statistiche sulle sequenze di POS (Part of Speech) di frasi analizzate da un parser a costituenti non supervisionato. Sulla base dell’idea di Reichart e Rappoport (2009a), Dell’Orletta et al. (2011) hanno svi-luppato il sistema ULISSE (Unsupervised Algorithm for Detecting Reliable Dependency Parser), unico sistema addestrato sull’italiano e su una rappresentazione a dipendenze, il quale sfrutta informazioni statistiche come PUPA (ma non strettamente legate a una rappresentazione a costituenti).

In questo studio la nozione di accuratezza d’analisi dei parser è stata associata a quella della complessità linguistica. Per individuare cosa è complesso per i parser si è deciso di guardare alla correttezza degli output prodotti in seguito alle analisi svolte dai parser. Quanto più l’output di un parser è corretto (numero basso o nullo di errori), tanto più si riterrà facile la porzione di testo che è stata analizzata dal parser; al contrario, quanto più alto sarà il numero di errori prodotti dal parser, tanto più complesso sarà ritenuto il testo analizzato dal parser. La correttezza delle analisi è stata determinata con l’ausilio di due misure:

• la Labeled Accuracy Score (LAS): la percentuale di token5 cui i parser assegnano il corretto link di dipendenza e la corretta etichetta;

5Il token è l’unità minima utilizzata per l’analisi di una frase. Molto spesso si fanno corrispondere i token alle parole che costituiscono un testo, ma non c’è sempre una corrispondenza 1:1 tra token e parole e anche elementi come i segni di punteggiatura possono essere considerati come token.

(27)

• la Unlabeled Accuracy Score (UAS): la percentuale di token cui i parser assegnano il corretto link di dipendenza.

2.3.2

La complessità linguistica percepita dall’uomo

Se è vero che gli umani tendono a considerare come più difficili le lingue diverse dalla propria lingua madre, cosa succede invece quando si chiede a un individuo di riflettere sulle difficoltà che può incontrare nella propria lingua? Questa domanda ha guidato la scelta del metodo seguito in questo studio per determinare una misura di complessità per gli esseri umani.

A differenza di quanto visto per gli strumenti automatici, nel caso degli umani non sono state utilizzate metriche standard che misurassero la correttezza di un’analisi linguistica, ma si è lasciato che fossero gli umani stessi a definire la propria nozione di complessità. È stato condotto un esperimento utilizzando una piattaforma di crowdsourcing, volto a raccogliere giudizi di complessità assegnati dagli umani a delle frasi (cfr. 3.3 per i dettagli). Non è stato fornito alcun tipo di informazione aggiuntiva su cosa osservare nelle frasi per poterne determinare il livello di complessità. In questo modo, ogni essere umano ha indicato un livello di complessità percepita: non una misura assoluta sulla complessità di una frase, ma una misura del tutto personale sulla facilità o difficoltà di una frase. Ogni individuo coinvolto dello studio ha espresso i propri giudizi semplicemente sulla base delle proprie percezioni e sulla base di criteri conosciuti solo a esso. Per questo motivo, non c’è modo di misurare se e quanto i giudizi espressi dagli esseri umani siano corretti. Allo stesso modo, non è detto che la frase che un soggetto indica come facile sia realmente facile per quello stesso soggetto: per esempio, pur avendo indicato la frase come semplice di primo acchito, il soggetto potrebbe non averla veramente compresa.

(28)
(29)

CAPITOLO

3

Risorse e strumenti per lo studio

della complessità

In questo capitolo verranno descritti i dati impiegati per questo studio e gli strumenti scelti per analizzarli. Lo studio è stato realizzato su due raccolte di frasi (d’ora in poi chiamate anche corpora) appartenenti a due lingue diverse, italiano e inglese. Per ciascun corpus si descriverà come sono state estratte le frasi che lo compongono. I corpora sono stati analizzati sia da strumenti linguistici automatici che da annotatori umani. In questo capitolo verranno introdotti gli strumenti linguistico-computazionali utilizzati per l’analisi linguistica automatica delle frasi, descrivendone caratteristiche e approcci. Si vedrà come è stato definito il compito di analisi delle frasi per gli umani. Infine, si descriveranno quali caratteristiche linguistiche sono state estratte per descrivere linguisticamente le frasi dei due corpora e gli strumenti impiegati per estrarle.

3.1

I corpora

Il presente studio è stato articolato sull’analisi di due corpora: uno per la lingua italiana, uno per la lingua inglese. Un corpus è una collezione sistematica di testi, selezionati e organizzati per diversi scopi, come ottenere informazioni sui modi d’uso della lingua.

I corpora testuali rappresentano la principale risorsa per l’analisi computazionale della lingua. Prima della diffusione di strumenti informatici per l’analisi del testo, la disponibilità di corpora era molto limitata a causa delle difficoltà nel raccogliere, gestire ed esplorare i testi: era complesso sia lavorare con grandi quantità di testo, sia riuscire a sfruttare a pieno le potenzialità di un corpus come fonte di dati. L’informatica ha permesso di rivoluzionare l’uso dei corpora: gli strumenti informatici disponibili oggi consentono la collezione di ampie quantità di testi, i quali possono essere analizzati velocemente sotto diversi punti di vista, tanto che oggi la parola corpus fa quasi esclusivamente riferimento a corpus di testi in formato digitale.

(30)

Esistono varie tipologie di corpora, classificabili in base a diversi parametri (Lenci et al., 2005):

• Grado di generalità: i corpora si dividono in generali e specializzati, in base al gra-do di specificità con cui studiano una varietà linguistica; la lingua può essere studiata nel suo complesso per ricostruirne un quadro generale, oppure si possono studiare testi appartenenti a una specifica varietà linguistica;

• Modalità di produzione: i corpora possono contenere testi prodotti originariamente in forma scritta, testi prodotti originariamente in forma orale o una combinazione dei due (corpora misti);

• Cronologia: i corpora possono raccogliere testi che appartengono a una stessa fine-stra temporale (corpus sincronico) oppure raccogliere testi appartenenti a periodi diversi (corpus diacronico), con lo scopo di valutare l’evoluzione della lingua nel tempo;

• Lingua: si distinguono i corpora monolingue, contenenti una sola lingua, dai corpora bilingueo multilingue, contenenti due (o più lingue). Quest’ultimi si dividono a loro volta in corpora paralleli (corpora che comprendono testi in una lingua e la loro traduzione in un’altra lingua) e corpora comparabili (corpora che contengono testi in lingue diverse, comparabili se i criteri di selezione dei testi sono gli stessi per le varie lingue);

• Integrità dei testi: i corpora possono contenere testi interi oppure porzioni di testi di lunghezza prefissata;

• Codifica digitale: i corpora si dividono tra corpora codificati, in cui i testi sono arricchiti da etichette che ne esplicitano vari tipi di informazione, e tra corpora annotati, nei quali si codificano informazioni riguardanti la struttura linguistica del testo a diversi livelli di rappresentazione.

I corpora utilizzati in questo studio sono due corpora monolingue e specializzati, in quan-to ognuno contiene frasi in una sola lingua appartenente a un unico genere testuale (quello giornalistico, come si vedrà in 3.1.1 e 3.1.2). La scelta di utilizzare in questo studio corpora appartenenti a due lingue diverse permette di verificare se le informazioni estratte per una lingua si ritrovano anche in una lingua diversa o se, invece, ci sono differenze interlinguistiche. Di seguito si descriveranno nel dettaglio creazione e composizione dei due corpora.

(31)

3.1.1

Il corpus italiano

Il corpus utilizzato per la lingua italiana è stato creato a partire da una treebank gold standard annotata secondo lo schema UD1. La treebank (Simi, Bosco, Montemagni, 2014) deriva da un lavoro di conversione e unione di due treebank italiane pre-esistenti:

1. la Turin University Treebank (TUT) (Bosco et al., 2000) creata dall’Università di Torino; 2. la treebank ISST-TANL costruita a partire dalla Italian Syntactic-Semantic Treebank (Montemagni et al., 2003), creata in collaborazione dall’ILC-CNR e l’Università di Pisa. Le treebank nascevano come due risorse differenti, sia sul livello della composizione del corpus, sia sul livello dello schema di annotazione utilizzato. Tramite un processo di conversione e fusione, le due treebank sono state unite e annotate secondo lo schema UD, creando la treebank dalla quale sono state selezionate le frasi usate per creare il corpus italiano impiegato nel presente studio.

Il corpus qui utilizzato è stato creato estraendo delle frasi dalla treebank secondo una serie di criteri. Innanzitutto è stato costruito un dizionario di frequenza dei lemmi a partire da Paisà2 (Lyding et al., 2014), un’ampia collezione di testi in lingua italiana tratti da internet. Il dizionario contiene 2,156,383 lemmi, di cui 1,209,122 sono hapax legomena3. Dalla treebank di partenza sono state scartate tutte le frasi che contenevano lemmi non presenti nel dizionario o che contenevano lemmi presenti nel dizionario come hapax, escludendo nomi propri e numerali. Tale filtro è servito per selezionare frasi contenenti un lessico abbastanza frequente, evitando di estrarre frasi con un lessico complesso il cui esame esula dal lavoro svolto in questo studio.

Le frasi estratte grazie al confronto con il dizionario sono state raggruppate in base alla loro lunghezza in termini di numero di token. Nel conteggio del numero di token è stata inclusa anche la punteggiatura poiché, come verrà spiegato nei capitoli successivi, essa in alcuni casi genera complessità (cfr. Capitolo 5). Sono stati creati 6 diversi gruppi, contenenti rispettivamente frasi lunghe 10, 15, 20, 25, 30 e 35 token; poiché tra le frasi estratte non ve ne erano abbastanza per tutte le lunghezze, le frasi sono state suddivise nei gruppi precedenti con un range di ±1 token. La scelta di suddividere le frasi in base alla loro lunghezza deriva dal fatto che in letteratura (tra gli altri McDonald e Nivre, 2007 e Miller, 1956) è noto che la complessità linguistica è spesso legata alla lunghezza della frase; nei capitoli successivi si vedrà come questo dato tornerà utile

1Lo schema nato dal progetto delle Universal Dependencies (www.universaldependencies.org). Il progetto ha sviluppato uno schema di annotazione interlinguistico, con il quale è possibile annotare treebank di lingue diverse senza la necessità di utilizzare schemi specifici per ogni lingua. Lo schema UD, in continua evoluzione, mira a cogliere le similarità e le idiosincrasie che si manifestano in lingue diverse. Lo scopo del progetto è quello di permettere il confronto tra lingue differenti, facilitare lo sviluppo di strumenti multilingue per l’analisi del linguaggio naturale e permettere studi linguistici comparativi.

2Il corpus Paisà è annotato automaticamente in formato CoNLL e contiene 380,000 documenti estratti da circa 1,000 siti web, per un totale di circa 250 milioni di token (www.corpusitaliano.it).

3Un hapax legomenon o, più semplicemente, hapax è una forma linguistica che ricorre una volta soltanto nell’intero corpus scritto di una lingua, nel lavoro di un singolo autore o in una singola opera letteraria.

(32)

per molte delle analisi realizzate. Le frasi così estratte sono state ordinate in base alla frequenza media dei lemmi che le compongono, escludendo dal conteggio i nomi propri e i numerali. Dalle frasi così ordinate sono state estratte le prime 200 frasi, tranne che per i gruppi di frasi lunghe 30 e 35 token, per i quali erano rispettivamente disponibili 199 e 123 frasi. In seguito a questo procedimento rimane un numero totale di 1122 frasi, le quali vanno a costituire il corpus italiano utilizzato in questo studio.

3.1.2

Il corpus inglese

Per la lingua inglese non è stato possibile utilizzare una treebank gold annotata secondo lo schema UD, come fatto invece per l’italiano. La treebank gold per la lingua inglese in formato UD è generata a partire da testi estratti da web media (e-mail, recensioni, blog, etc.)4; al contrario, i testi della treebank gold utilizzata per creare il corpus italiano provengono prevalentemente dal genere giornalistico. Utilizzare la treebank gold inglese avrebbe significato lavorare con due generi troppo distanti tra loro (quello giornalistico per l’italiano, quello del web per l’inglese), ognuno con principi specifici per la rappresentazione della struttura delle frasi. Per minimizzare le differenze tra le due lingue, il corpus inglese è stato creato a partire dalla sezione del Wall Street Journal della Penn Treebank (Marcus et al., 1993). Il corpus qui utilizzato deriva dalla conversione automatica della sezione del Wall Street Journal (McDonald et al., 2013) realizzata con lo Stanford parser (Klein and Manning, 2003). Va sottolineato che il corpus così prodotto possiede uno schema di annotazione diverso rispetto a quello UD utilizzato per il corpus italiano: tuttavia, questo non rappresenta un problema nella comparazione dei due corpora dello studio, poiché lo schema del progetto UD è basato su un’evoluzione delle dipendenze utilizzate dallo schema di Stanford (de Marneffe et al., 2006).

Il corpus qui utilizzato è stato creato selezionando delle frasi dalla treebank di partenza secondo una serie di criteri, come visto per l’italiano. Per l’inglese è stato creato un dizionario di frequenza dei lemmi a partire da un corpus di frasi estratte dal Wall Street Journal, per un totale di circa 40 milioni di token (Nivre et al., 2007). Sono state scartate dal corpus tutte le frasi che contenevano lemmi non presenti nel dizionario o che apparivano nel dizionario come hapax, a esclusione dei nomi propri e dei numerali. Dopodiché, le frasi così selezionate sono state raggruppate in base alla loro lunghezza (6 gruppi con frasi lunghe 10, 15, 20, 25, 30 e 35 token); a differenza dell’italiano, le dimensioni della treebank inglese erano tali da permettere di estrarre un numero sufficiente di frasi per ogni gruppo, senza necessità di usare un range di ±1 token.

Le frasi così estratte sono state ordinate in base alla frequenza dei lemmi che le compongono, senza tenere conto della frequenza dei nomi propri e dei numerali. Dalle frasi così ordinate sono state estratte le prime 200 frasi, tranne per i gruppi di frasi lunghe 10 token e 20 token per cui si

4Per i dettagli si rimanda al sito dell’iniziativa delle Universal Dependencies (www.universaldependencies. org), da cui è possibile accedere a tutte le treebank gold esistenti annotate in formato UD.

(33)

estraggono rispettivamente 187 e 199 frasi. In seguito a questo procedimento rimangono 1186 frasi, che vanno a costituire il corpus usato per le analisi seguenti.

3.2

Gli strumenti di analisi automatica

In questa sezione si descriveranno gli strumenti di analisi automatica utilizzati per l’analisi linguistica delle frasi. Dopo aver creato i corpora per le due lingue, le frasi in esse contenute sono state analizzate linguisticamente da tre diversi parser: DeSR, MATE e UDPipe. Per poter essere analizzato, ogni corpus è stato diviso in dieci parti: ognuna di esse è stata annotata automaticamente dai parser, i quali sono stati di volta in volta riaddestrati sulle annotazioni gold delle restanti nove parti. Le frasi dei corpora sono analizzate fino al livello sintattico:

• tokenizzazione: le frasi estratte dalle treebank gold (da cui sono stati creati i corpora dello studio) erano già segmentate e suddivise in token, quindi non è stato necessario svolgere questo passaggio;

• annotazione morfologica: dopo la lemmatizzazione5 a ogni token viene associata la sua rispettiva categoria grammaticale (definita anche come parte del discorso, Part of Speech o PoS). L’annotazione morfologica è stata svolta utilizzando un unico PoS tagger, descritto in Dell’Orletta (2009);

• annotazione sintattica: la frase viene descritta dai parser in termini di relazioni bi-narie di dipendenza tra parole che indicano relazioni grammaticali (soggetto, oggetto, modificatore, etc.).

La scelta di utilizzare tre diversi parser deriva dal fatto che essi sono basati su approcci di analisi diversi: DeSR e UDPipe utilizzano un modello transition-based, mentre MATE è un parser graph-based6. Inizialmente, parte dello studio è stato condotto utilizzando solo DeSR e MATE. In seguito, si è deciso di introdurre un terzo parser che potesse affiancare DeSR: come si vedrà nei capitoli seguenti, DeSR è il parser che ottiene i risultati più bassi in tutte le analisi realizzate (cfr. Capitolo 5 e Capitolo 6). La scelta è ricaduta su UDPipe, basato sullo stesso modello transition-based usato anche da DeSR, ma implementato tramite un approccio a reti neurali; oggi le reti neurali artificiali sono alla base di molti strumenti che rappresentano lo stato dell’arte nell’ambito dell’apprendimento automatico e dell’intelligenza artificiale in genere. Per questo motivo, si è ritenuto opportuno inserire anche un parser che utilizzasse questo approccio.

5La lemmatizzazione è il processo mediante cui la forma flessa di una parola viene ricondotta alla sua forma di base, ossia il lemma.

(34)

Il modello transition-based e il modello graph-based rappresentano i due approcci dominanti nell’ambito del parsing a dipendenze data-driven7. I due approcci sono molto diversi dal punto di vista teorico: il primo costruisce l’analisi ottimale di una frase progressivamente, scegliendo i possibili archi delle dipendenze sulla base delle decisioni prese in precedenza; il secondo considera tutti gli archi che è possibile creare in una frase e sceglie l’analisi corretta in base alla probabilità di ciascun arco. Nonostante le sostanziali differenze, i due diversi modelli ottengono accuratezze simili nel parsing per diverse lingue (come dimostrato nel CoNLL-X shared task, McDonald et.al, 2006 e Nivre et al., 2006). Allo stesso tempo, è stato evidenziato che il comportamento dei due modelli può essere anche molto diverso: Sagae e Lavie (2006) dimostrano che si può migliorare l’accuratezza nel parsing combinando i risultati generati dai due diversi modelli, mentre McDonald e Nivre (2007) dimostrano che gli errori prodotti dai due modelli di parsing possono essere ricondotti alle diverse proprietà teoretiche dei modelli. L’uso dei due diversi approcci permetterà di verificare se la complessità linguistica è intesa allo stesso modo da entrambi i modelli di parsing, o se ci sono delle caratteristiche che li contraddistinguono. Di seguito verranno fornite informazioni più dettagliate sui tre parser impiegati nello studio.

3.2.1

DeSR

DeSR (Attardi et al., 2009) è un parser multilingue a dipendenze basato su un modello transition-based. Il modello transition-based prevede che l’analisi di una frase sia realizzata localmente e gradualmente, scegliendo l’operazione da svolgere (transition) sulla base delle operazioni svolte in precedenza.

L’algoritmo di parsing utilizzato da DeSR è un parser statistico induttivo, che estende l’approccio di Yamada e Matsumoto (2003). Il parser costruisce gli alberi sintattici analizzando le frasi date come input da sinistra verso destra, decidendo di volta in volta che tipo di operazione svolgere fra due token adiacenti. DeSR realizza due tipi principali di operazioni:

1. un’operazione di shift. Se i due token che DeSR ha selezionato non sono legati da alcuna relazione di dipendenza, il secondo token viene momentaneamente messo da parte, mentre si mantiene il primo token; DeSR seleziona il token alla destra di quello appena scartato e verifica nuovamente se esiste una relazione tra la coppia di token.

2. un’operazione di reduce. Per ogni coppia di token tra cui DeSR individua una relazione, si crea una relazione di dipendenza (da sinistra verso destra o da destra verso sinistra). Le operazioni da compiere di volta in volta sono decise con il supporto di un classificatore8, utilizzato per configurare il parser e insegnargli a predire le azioni di parsing da svolgere. Oltre

7Con parsing data-driven si definisce una tipologia di parsing che inferisce le dipendenze di una frase sulla base di informazioni estratte da collezioni di dati, le quali sono utilizzate per addestrare il modello di parsing e/o per estrarre informazioni statistiche sulla lingua.

8Possono essere utilizzati diversi algoritmi di apprendimento: Maximum Entropy, SVM, Winnow, Voted Percepron, Memory Based Learning, o una loro combinazione.

(35)

alle operazioni principali di shift e reduce, DeSR adotta un approccio che prevede sei ulteriori azioni di parsing, con le quali è in grado di gestire le relazioni sintattiche non-proiettive.

L’approccio transition-based è definito anche greedy (ingordo, in italiano): per sua natura, non appena il parser individua una coppia di token tra cui è possibile assegnare una relazione, crea una dipendenza tra quei due elementi, anche se non è la relazione corretta. Per questo motivo, i parser che utilizzano questo approccio hanno difficoltà a individuare i link sintattici lunghi: se in una frase esiste un link sintattico lungo tra una parola A e una parola C, ma prima della parola C c’è una parola B cui A potrebbe legarsi (secondo le informazioni statistiche in possesso del parser), il parser preferirà creare un link tra A e B compiendo, quindi, un errore.

3.2.2

MATE

Il parser graph-based MATE (Bohnet, 2010) fa parte di un toolkit di strumenti statistici per l’analisi del linguaggio naturale. Il toolkit è comprensivo di un lemmatizzatore, un PoS tagger, un tagger morfologico, due parser a dipendenze (un parser graph-based, usato in questo studio, e un parser transition-based) e uno strumento che etichetta i ruoli semantici. Il modello graph-based prevede un approccio globale, in cui vengono generati tutti i link possibili nella frase; sulla base dei pesi assegnati a ogni link, l’algoritmo seleziona quelli corretti e scarta quelli errati.

MATE utilizza come algoritmo un perceptron9 passivo-aggressivo basato su una hash func-tion10. Per MATE il procedimento di parsing di una frase xi prevede di trovare un albero yp

che massimizzi la funzione di scoring argmaxyF(xi, y); si tratta di assegnare dei pesi a tutti

i possibili link sintattici, generando tutti i possibili alberi, al fine di trovare l’albero sintattico i cui pesi massimizzino il valore della funzione (cioè l’albero con il minor numero di errori). L’algoritmo prevede un componente che si occupa di estrarre delle feature da ognuna delle frasi in input. Le feature sono tradotte in numeri e raccolte in vettori, i quali vengono associati ai possibili link sintattici della frase. Per ognuno dei possibili link, l’algoritmo determina dei pesi che indicano la probabilità di quel link sintattico. Il peso dei link viene aggiornato fino a individuare il miglior albero sintattico possibile.

Rispetto a un parser transition-based come DeSR, MATE ha il vantaggio di poter gestire meglio i link sintattici lunghi: generando tutte le possibili dipendenze, per un algoritmo graph-based è più semplice individuare i link lunghi, sulla cui analisi si compiono meno errori.

3.2.3

UDPipe

Il parser UDPipe (Stracka et al.2016) fa parte di una pipeline11 che comprende strumenti per la tokenizzazione, il tagging, la lemmatizzazione e il parsing a dipendenze di dati annotati in

9Nell’apprendimento automatico un perceptron è un classificatore binario; si tratta di un tipo di classificatore lineare, cioè un algoritmo di classificazione che realizza una predizione sulla base di una funzione predittiva lineare.

10Una funzione che mappa dati di dimensione arbitraria in dati di dimensione prestabilita. 11Si rimanda alla pagina internet del progetto per i dettagli (ufal.mff.cuni.cz/udpipe)

Riferimenti

Documenti correlati

Inoltre in questo caso la complessità esterna è stata esplicitamente portata all’interno del framework, ovvero a far parte della complessità interna (organizzativa). La

o se non esiste nessun algoritmo che produce la soluzione in tempo finito per ogni istanza dei dati di ingresso

Nel secondo caso il costo è dato dal costo del test più il costo del primo corpo se la condizione è vera. Se la condizione è falsa, il costo è il costo del test più il costo

Più recentemente, la necessità di ridefinire lo standard di assistenza infermieristica nelle degenze ospedaliere è conseguenza di due importanti evoluzioni: evoluzione del- la

IDEA: utilizzare il costo della verifica di un certificato (una soluzione) per un’istanza accettabile (positiva) per caratterizzare la complessità del problema stesso. Un problema P è

Questa definizione ci porta a una prima classificazione dei problemi computazionali come riportato nella Figura 2 dove, oltre alla divisione in problemi indecidibili e

Numero totale di passi base 2+2*n.. Se la condizione è falsa, il costo è il solo costo del test. Nel secondo caso il costo è dato dal costo del test più il costo del primo corpo se

tutte le altre possibili posizioni degli anagrammi generati dalla parte restante della parola in input. • Un