L’ultimo confronto che si è voluto realizzare tra umani e macchine ha riguardato le caratteristiche linguistiche significative, ovvero quelle che correlano con la complessità per gli umani e la complessità per i parser. Nei capitoli precedenti si è visto, sia per gli umani che per i parser, quali
sono le caratteristiche linguistiche significative e in che modo esse sono legate alla complessità delle frasi. Oltre a verificare quali erano le caratteristiche significative, si è visto come variava la loro distribuzione e attivazione bloccando la lunghezza delle frasi (sia per gli umani che per i parser) e in relazione all’accordo fra gli annotatori (solo per gli umani). In questa fase dello studio si è voluto verificare se esiste un legame tra le caratteristiche linguistiche significative per gli umani e quelle significative per i parser. Per fare ciò, sono state calcolate le correlazioni tra le caratteristiche linguistiche che correlano con la complessità per gli umani e le caratteristiche linguistiche che correlano con la complessità per le macchine. Le correlazioni sono state esaminate in relazione alle due dimensioni già considerate nelle analisi precedenti: l’accordo e la lunghezza delle frasi.
In Figura 6.10 si riporta l’andamento della correlazione tra le caratteristiche significative per gli umani e le caratteristiche significative per le macchine al variare dell’accordo, sia per l’italiano che per l’inglese.
10 11 12 13 14 15 16 Accordo Annotatori 0.5 0.6 0.7 0.8 0.9 1.0 Co rre laz ion e Desr-Umani Mate-Umani Udpipe-Umani (a) Italiano 10 11 12 13 14 15 16 Accordo Annotatori 0.5 0.6 0.7 0.8 0.9 1.0 Co rre laz ion e Desr-Umani Mate-Umani Udpipe-Umani (b) Inglese
Figura 6.10: Correlazione tra le caratteristiche linguistiche significative per gli umani e per i parser al variare dell’accordo.
Per capire come è stata calcolata la correlazione, si prenda come esempio la soglia di accordo 10. Per le frasi selezionate in questa soglia di accordo si hanno a disposizione (1) le caratteristiche linguistiche che correlano con i giudizi di complessità assegnati dagli umani e (2) le caratteristiche linguistiche che correlano con i punteggi di LAS e UAS calcolati sulle analisi delle frasi prodotte dai parser. Da ognuno dei due gruppi di caratteristiche linguistiche si selezionano solo quelle significative (p-value<0.05), escludendo le altre feature. Dopo aver selezionato le caratteristiche significative, si utilizza il coefficiente di Correlazione di Pearson3 per calcolare la correlazione tra le feature significative per gli umani e le feature significative per
3Il coefficiente di Correlazione di Pearson determina se esiste una relazione lineare tra due variabili X e Y. Assume valori compresi tra -1 e 1, indicando con i valori positivi l’esistenza di una correlazione diretta e con i valori negativi l’esistenza di una correlazione inversa. Se il coefficiente assume valore 0, non esiste una correlazione fra le due variabili.
uno dei parser. Questo procedimento si ripete, identico, per tutte le soglie di accordo e tutti e tre i parser, sia per l’italiano che per l’inglese. In questo caso, le soglie di accordo selezionate sono comprese tra un minimo di 10 e un massimo di 16, escludendo le soglie di accordo maggiore a causa del numero esiguo di frasi e caratteristiche linguistiche su cui si sarebbe dovuto lavorare. In Figura 6.10a sono riportati i risultati ottenuti per la lingua italiana. Com’è evidente, la correlazione mantiene valori molto alti per tutti e tre i parser fino alla soglia di accordo 14. Dopodiché, la correlazione calcolata con le caratteristiche significative per DeSR e MATE cala di qualche punto, mentre la correlazione calcolata per UDPipe si mantiene in linea con quella ottenuta per le soglie precedenti. Dalla soglia 14 in poi, il numero delle frasi selezionate inizia a calare notevolmente e con esso cala anche il numero delle caratteristiche significative (sia per gli umani che per i parser). I risultati visibili nel grafico mostrano che, quando le caratteristiche linguistiche cominciano a diminuire, le feature significative per DeSR e MATE sono meno relazionate a quelle significative per gli umani. Al contrario, UDPipe è il parser che si mantiene più vicino agli umani per tutte le soglie di accordo, anche quando le caratteristiche linguistiche correlate diventano poche: ciò significa che il comportamento di UDPipe riesce, in questo caso, a replicare quello degli annotatori, ottenendo caratteristiche linguistiche significative simili a quelle significative per gli umani.
In Figura 6.10b sono riportati i risultati ottenuti per la lingua inglese. Nel caso dell’inglese, la correlazione tra le caratteristiche linguistiche significative per gli umani e quelle significative per i parser è molto forte per tutte le soglie di accordo e mantiene un andamento costante per tutti e tre i parser. Questo risultato evidenzia che, per la lingua inglese, le caratteristiche linguistiche importanti per i parser sono pressoché le stesse caratteristiche importanti anche per gli umani, indipendentemente dal numero di frasi e di feature selezionate per ogni soglia.
Dopo aver osservato la correlazione tra le caratteristiche significative per umani e parser al variare dell’accordo fra gli annotatori, si è osservato l’andamento della stessa correlazione anche al variare della lunghezza delle frasi. Il metodo per calcolare le correlazioni è lo stesso descritto in precedenza per lo studio in base all’accordo; la differenza principale è che per questo studio i gruppi di frasi per cui si calcola la correlazione tra le caratteristiche significative sono divisi in base alla lunghezza delle frasi stesse. È necessario aggiungere che, in questo caso, non è stato possibile filtrare le caratteristiche linguistiche prima di correlarle (selezionando solo quelle con p-value<0.05): escludendo le feature non significative, per molte lunghezze non sarebbero rimaste abbastanza caratteristiche da correlare. Per questo motivo, le correlazioni sono state realizzate sia tra caratteristiche significative, sia tra caratteristiche non significative.
In Figura 6.11 è riportato l’andamento della correlazione tra caratteristiche linguistiche significative per l’uomo e le caratteristiche linguistiche significative per i tre parser al variare della lunghezza delle frasi, sia per l’italiano che per l’inglese. In Figura 6.11a si possono vedere i risultati per la lingua italiana. Si ottengono delle correlazioni piuttosto basse per tutte le diverse lunghezze, con valori anche molto vicini allo zero in alcuni casi. L’andamento dei valori di
10 15 20 25 30 35 Lunghezza Frasi −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 Co rre laz ion e Umani-DeSR Umani-MATE Umani-UDPipe (a) Italiano 10 15 20 25 30 35 Lunghezza Frasi −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 Co rre laz ion e Umani-DeSR Umani-MATE Umani-UDPipe (b) Inglese
Figura 6.11: Correlazione tra le caratteristiche linguistiche significative per gli umani e per i parser al variare della lunghezza delle frasi.
correlazione è simile per tutti e tre i parser. Non si ritengono come particolarmente significativi i valori per le frasi lunghe 15 e 35 token, poiché troppo vicini allo zero. Sono più significativi, invece, i valori per le restanti lunghezze, per le quali si ottengono delle correlazioni più alte. Ciò significa che c’è un legame tra alcune delle caratteristiche significative per gli umani e alcune delle caratteristiche significative per i parser. Le correlazioni riportate nel grafico sono sempre positive: ciò significa che le caratteristiche linguistiche significative che, per quella lunghezza, sono in comune a umani e parser, hanno correlazione diretta (o inversa) con la complessità sia per gli umani che per i parser. Ciò significa che, per esempio, una feature sarà positivamente correlata con la complessità per gli umani e sarà positivamente correlata anche con la complessità per i parser.
In Figura 6.11b sono riportati i risultati per la lingua inglese. I risultati più rilevanti si ottengono per le frasi molto brevi e le frasi molto lunghe: qui si ottengono i valori di correlazione più alti, segno che per queste lunghezze alcune delle caratteristiche linguistiche significative per gli umani sono le stesse a essere significative per i parser. Nel caso delle frasi a lunghezza 10, la correlazione positiva indica che le feature hanno lo stesso tipo di correlazione sia per gli umani che per le macchine: ciò significa che per entrambi i gruppi le caratteristiche linguistiche hanno correlazione positiva o negativa. Per le frasi lunghe 35 token, si ottiene una correlazione negativa, la quale indica che le feature avranno correlazioni di tipo diverso per gli umani e per i parser. Per esempio, una feature potrà essere positivamente correlata con la complessità per gli umani, ma negativamente correlata con la complessità per i parser. Il parser MATE ottiene valori di complessità molto vicini allo zero per le restanti lunghezze, il che permette di dire che non c’è alcuna relazione tra le caratteristiche linguistiche del parser e degli umani. Per quanto riguarda UDPipe e DeSR, essi ottengono una correlazione negativa più forte sulle frasi lunghe 20 token, mentre si ritiene di poter escludere i valori ottenuti per le altre lunghezze.
Come visto in 6.2.2, anche in questo caso si possono calcolare i valori medi di correlazione per capire quale parser si avvicina di più agli esseri umani, cioè quale parser ha delle feature significative più simili a quelle significative per gli esseri umani. In Tabella 6.3 sono riportati i risultati, sia per la lingua italiana che per la lingua inglese.
Elementi correlati Correlazione media Umani-DeSR 0.186 Umani-MATE 0.257 Umani-UDPipe 0.195 (a) Italiano Elementi correlati Correlazione media Umani-DeSR -0.158 Umani-MATE -0.076 Umani-UDPipe -0.139 (b) Inglese
Tabella 6.3: Correlazione media tra le caratteristiche linguistiche significative per l’uomo e le caratteristiche linguistiche significative per la macchina
Per la lingua italiana (Tabella 6.3a) il parser che ottiene un valore medio di correlazione più alto è MATE: ciò significa che le feature significative per questo parser sono quelle più simili a quelle significative per gli esseri umani. Per la lingua inglese (Tabella 6.3b) le correlazioni medie tra feature significative per gli umani e feature significative per i parser sono tutte negative: ciò significa che c’è un’ampia distanza tra le caratteristiche importanti per i parser e quelle importanti per gli umani.
Visti i risultati ottenuti sia al variare dell’accordo che al variare della lunghezza, si può affermare che c’è un legame molto forte tra le caratteristiche significative per umani e parser al variare dell’accordo. Non si può dire la stessa cosa, invece, quando si osservano le correlazioni al variare della lunghezza delle frasi: in questo caso, pare che le caratteristiche linguistiche importanti per umani e parser siano diverse e che gli annotatori e le macchine percepiscano la complessità in maniera molto differente quando la lunghezza delle frasi viene bloccata per esaminare frasi tutte della stessa lunghezza.
CAPITOLO
7
Conclusioni
Questo elaborato ha presentato uno studio sulla complessità linguistica condotto su due lingue diverse, con lo scopo di indagare la dimensione della complessità per gli esseri umani e per gli strumenti di analisi automatica del linguaggio (o macchine) prima separatamente e poi confron- tandole, con l’obiettivo di far emergere similarità e differenze. Per ogni lingua è stato utilizzato un corpus di frasi appartenenti al dominio giornalistico, dalle quali sono state estratte delle caratteristiche linguistiche (di base, lessicali, morfosintattiche e sintattiche) che le descrivesse- ro. Tramite una piattaforma di crowdsourcing, le frasi sono state sottoposte al giudizio di un gruppo di persone, che le hanno valutate assegnando un punteggio crescente di complessità. Le stesse frasi sono state analizzate da tre parser, DeSR, MATE e UDPipe, i quali hanno prodotto un’analisi sintattica a dipendenze per ogni frase.
La complessità per le macchine è stata calcolata in termini di LAS e UAS, ovvero sulla base dell’accuratezza di analisi dei parser. Per determinare la complessità per gli umani non sono state utilizzate misure standard di complessità, ma si è tenuto conto della complessità percepita dagli umani stessi: ognuno degli individui coinvolti nello studio ha assegnato alle frasi un numero su una scala da 1 a 7, indicando con 1 le frasi ritenute molto facili e con 7 le frasi ritenute molto difficili. Grazie ai risultati ottenuti dai giudizi umani e dall’analisi automatica, è stato possibile studiare la complessità nei singoli ambiti (umani e macchine) e comparare i risultati ottenuti.
Gli studi realizzati sugli umani sono partiti dall’analisi del grado di accordo tra i giudizi degli annotatori (cfr. 4.1). Dopo aver definito una funzione di accordo, sono state individuate diverse soglie di accordo, partendo da un minimo di 10 annotatori fino a un massimo di 20 annotatori; per ogni soglia di accordo, sono state estratte dai corpora quelle frasi che rispettavano il vincolo imposto dalla soglia (es. per la soglia 10, si selezionano le frasi su cui almeno 10 annotatori sono in accordo e si scartano le frasi restanti). In questo modo è stato possibile verificare quali sono le caratteristiche linguistiche che discriminano le frasi selezionate da quelle scartate. Si è visto che per soglie di accordo molto basse (10-11 annotatori) le caratteristiche linguistiche che contraddistinguono le frasi selezionate da quelle scartate sono prevalentemente caratteristiche di base e lessicali. Man mano che l’accordo fra gli annotatori aumenta emergono sempre di più
caratteristiche di tipo sintattico. Una volta studiato il fenomeno dell’accordo è stata esaminata la correlazione tra le caratteristiche linguistiche delle frasi e i punteggi di complessità assegnati dagli utenti. Come ci saremmo aspettati, le caratteristiche che sono motivo di maggiore o minore complessità linguistica per gli umani sono quelle legate alla lunghezza della frase: più una frase è lunga, maggiore sarà la complessità percepita, viceversa, una frase breve sarà percepita come meno complessa. Vista l’importanza della lunghezza delle frasi nella percezione della complessità, si è provato ad annullare l’effetto prodotto dalla lunghezza suddividendo le frasi in gruppi in base alla loro lunghezza ed esaminando ogni gruppo separatamente. In questo modo, si è potuto studiare le caratteristiche linguistiche che correlavano con la complessità in modo indipendente dalla lunghezza delle frasi. In generale, si è potuto vedere che per frasi molto brevi sono rilevanti perlopiù caratteristiche di tipo lessicale, mentre quando la lunghezza aumenta diventano significative caratteristiche di tipo sintattico, come il numero e la distribuzione delle proposizioni subordinate o la lunghezza media/totale delle catene di subordinate (cfr. Capitolo 4 e Appendice B per i risultati completi).
Le indagini svolte sulle analisi dei parser si sono focalizzate sullo studio delle caratteristiche linguistiche che determinano una maggiore difficoltà di analisi da parte degli strumenti automa- tici. Si è visto che i principali motivi di complessità per i parser derivano dalla punteggiatura e dalla lunghezza delle frasi: più le frasi sono lunghe o più punteggiatura contengono, più saranno difficili da analizzare per i parser, il che determina l’assegnazione di punteggi di accuratezza (LAS e UAS) più bassi. Per eliminare gli effetti prodotti dalla lunghezza delle frasi, anche in questo caso si è deciso di suddividere le frasi dei corpora in gruppi in base alla loro lunghezza. In questo modo, si è evidenziato che la punteggiatura è una delle principali cause di difficoltà di analisi per i parser, sia nelle frasi brevi che nelle frasi lunghe. Nelle frasi molto lunghe, inoltre, emergono molte caratteristiche sintattiche, segno di come una sintassi molto articolata (ad esempio con strutture incassate, come catene di subordinate) sia più difficile da analizzare per i parser. In seguito, si è verificato se le caratteristiche linguistiche che correlano con la complessità sono le stesse per tutti e tre i parser o se esistono delle differenze dovute alle diverse strategie di analisi che essi implementano. Inaspettatamente, il risultato di questa indagine ha mostrato che le caratteristiche linguistiche che determinano maggiore o minore complessità per i diversi strumenti di analisi automatica sono molto simili, indipendentemente dalla strategia di parsing impiegata. Per i risultati completi si rimanda al Capitolo 5 e alla Appendice C.
Dopo aver analizzato separatamente la dimensione della complessità per gli umani e quella della complessità per i parser, si è voluto indagare se esiste una relazione tra le due dimensioni. Si è esaminata la relazione tra l’accordo fra gli annotatori e l’accuratezza degli strumenti di analisi automatica, notando che non esiste un legame fra i due ambiti: sia per le frasi su cui gli annotatori sono meno in accordo, sia per quelle su cui c’è un accordo più forte, non si registrano particolari variazioni nei punteggi medi di accuratezza dei parser, che rimangono pressoché costanti per tutte le soglie di accordo considerate. In seguito, è stata analizzata la relazione
tra la complessità per gli umani e la complessità per la macchina, verificando in che modo si distribuivano i valori di complessità assegnati a uno stesso gruppo di frasi dagli umani e dalle macchine. Si è visto che esiste un ampio numero di frasi che è abbastanza facile o abbastanza difficile sia per gli umani che per i parser. Allo stesso tempo, esistono numerose frasi molto facili per i parser (che i parser sono in grado di analizzare senza compiere errori o compiendone in numero esiguo) che, invece, risultano essere molto complesse per gli umani, così come esiste un numero ridotto di frasi molto difficile per i parser, che invece risultano essere facilissime per gli umani. Successivamente, si è esaminato il variare della correlazione tra complessità per gli umani e complessità per i parser al variare dell’accordo tra gli annotatori e al variare della lunghezza delle frasi. I valori ottenuti al variare dell’accordo sono piuttosto bassi (<0.3) e si mantengono pressoché costanti man mano che l’accordo aumenta. I risultati ottenuti al variare della lunghezza delle frasi non sono invece significativi: per tutte le diverse lunghezze si ottengono valori di correlazione bassi, in alcuni casi molto vicini allo zero (non-correlazione). L’ultimo confronto realizzato tra umani e macchine ha permesso di verificare se esiste una correlazione tra le caratteristiche linguistiche che correlano con la complessità per gli umani e le caratteristiche linguistiche che correlano con la complessità per i parser. Esaminando i corpora nella loro interezza (anche al variare delle diverse soglie di accordo) si individua che esiste una relazione molto forte tra le caratteristiche significative per i parser e quelle significative per gli umani (correlazione>0.8). Al contrario, quando i corpora sono stati analizzati al variare della lunghezza delle frasi, non sono state ritrovate per tutte le diverse lunghezze delle correlazioni significative. Ciò è molto probabilmente dovuto al numero ridotto di frasi prese in esame, rispetto a quando i corpora sono analizzati nella loro interezza. Per i risultati completi del confronto tra umani e macchine si rimanda al Capitolo 6
In sintesi, dalle analisi di confronto della complessità è emerso che: (1) esiste una correlazio- ne molto forte tra le caratteristiche linguistiche che rendono le frasi complesse per gli umani e le caratteristiche che rendono le frasi complesse per i parser, mentre (2) esistono correlazioni molto basse tra la difficoltà percepita dagli umani e i risultati di analisi delle macchine. Queste due contraddittorie evidenze pongono un interessante interrogativo che potrebbe avere due diverse soluzioni: da una parte è possibile che gli umani e le macchine stiano risolvendo due compiti non esattamente identici, l’umano cerca di risolvere un compito che coinvolge molto probabilmente anche aspetti semantici nella comprensione della frase, mentre la macchina risolve un task sin- tattico (non è interessata a capire il significato della frase, ma soltanto a riconoscerne la struttura sintattica e i tipi di relazioni di dipendenza coinvolte); dall’altro lato, molto probabilmente, questa differenza di correlazione è dovuta al fatto che le diverse caratteristiche che rendono complessa una frase interagiscono tra loro all’interno della stessa frase in maniera diversa nella definizione della complessità per la macchina e per l’uomo.
Una possibile evoluzione di questo lavoro è quella di definire la complessità per i parser e per gli umani in modo diverso da quanto fatto finora. I metodi scelti per descrivere la
complessità non sono gli unici che avremmo potuto utilizzare. Un altro metodo utile per misurare la complessità per i parser potrebbe essere quello di calcolare il numero di azioni di cui necessita un parser per produrre un risultato in output. In questo caso, più il numero di azioni è alto, più il testo analizzato dovrebbe essere considerato difficile. Utilizzando questa metrica per determinare la complessità, ci si potrebbe rendere conto che non è sempre vero che una frase analizzata correttamente (senza errori) è una frase semplice da analizzare. Il parser potrebbe analizzare correttamente una frase, impiegando però un numero di azioni molto alto per produrre quell’output, segno che la frase, seppur parsata correttamente, è stata molto difficile da analizzare. Per quanto riguarda gli umani, una proposta per il futuro sarebbe di integrare lo studio della complessità umana con strumenti di eye-tracking, così da capire quali sono, per esempio, gli elementi della frase su cui gli umani si soffermano di più in fase di lettura