In 5.2 sono state esaminate le caratteristiche linguistiche significative che correlano con la complessità determinata sulle analisi dei parser. Osservando i risultati ottenuti, è possibile vedere come per alcune feature ci sia una tendenza a ripresentarsi per tutti e tre i parser. Alcune caratteristiche sintattiche, per esempio, sono significative per le frasi molto lunghe, sia per l’inglese che per l’italiano, per tutti e tre i parser utilizzati.
Viste le numerose similarità nelle analisi svolte per i tre parser, si è voluto verificare se esiste effettivamente un legame tra i diversi ranking di feature analizzati. Per fare ciò, è stata calcolata la correlazione tra le caratteristiche linguistiche che correlano con la complessità per i tre parser. Si è già visto nelle sezioni precedenti che per ognuno dei tre parser è stata calcolata la correlazione tra i punteggi di LAS assegnati alle frasi e i vettori di caratteristiche linguistiche che descrivono le frasi. Tale procedimento è stato realizzato sia sulla totalità delle frasi, sia sulle frasi divise in gruppi in base alla loro lunghezza. In questa fase, per verificare le tendenze evidenziate in 5.2, si farà riferimento solo alle correlazioni determinate sui gruppi di frasi divisi per lunghezza. Per capire in che modo è stata determinata la correlazione tra i parser, si prendano come esempio:
• per il parser DeSR, le caratteristiche linguistiche delle frasi lunghe 10 token che correlano con la LAS;
• per il parser MATE, le caratteristiche linguistiche delle frasi lunghe 10 token che correlano con la LAS.
Per i due parser, si ha a disposizione l’elenco delle caratteristiche linguistiche che correlano con la LAS, con i relativi valori di correlazione e punteggi di significatività (p-value). Per capire se esiste un legame tra le caratteristiche di DeSR e le caratteristiche di MATE, si correlano tra loro i valori di correlazione ottenuti per DeSR con i valori di correlazione ottenuti per MATE. Per calcolare questa correlazione si utilizza il coefficiente di correlazione di Spearman e non si fa distinzione tra caratteristiche significative e caratteristiche non significative: selezionando solo le caratteristiche significative per ognuno dei gruppi, in alcuni casi rimarrebbe un numero troppo esiguo di feature per poter ottenere un risultato valido. Una volta calcolata la correlazione, si ottiene come risultato un valore di correlazione che dice quanto è forte il legame tra le caratteristiche di DeSR e le caratteristiche di MATE. Tale procedimento si ripete uguale su tutti i gruppi di frasi a diversa lunghezza. Una volta calcolate le relazioni tra DeSR e MATE, si calcolano allo stesso modo le correlazioni anche tra DeSR e UDPipe e tra MATE e UDPipe. In Figura 5.7 si riporta l’andamento del valore di correlazione calcolato tra le caratteristiche linguistiche dei parser, al variare della lunghezza delle frasi, sia per la lingua italiana che per la lingua inglese. 10 15 20 25 30 35 Lunghezza Frasi 0.4 0.5 0.6 0.7 0.8 0.9 1.0 C or re la zi on e DeSR-MATE UDPipe-DeSR UDPipe-MATE (a) Italiano 10 15 20 25 30 35 Lunghezza Frasi 0.4 0.5 0.6 0.7 0.8 0.9 1.0 C or re la zi on e DeSR-MATE UDPipe-DeSR UDPipe-MATE (b) Inglese
Figura 5.7: Correlazione tra le caratteristiche linguistiche dei tre diversi parser che correlano con la LAS.
In Figura 5.7a sono riportati i risultati ottenuti per la lingua italiana. Com’è possibile notare, le correlazioni ottenute sono molto forti per tutti i gruppi di frasi, per tutti e tre i parser. I valori più bassi si registrano nelle correlazioni tra UDPipe e MATE per le frasi lunghe 25 e 35 token, ma si tratta comunque di valori di correlazione forti. Ciò significa che, per tutte le diverse
lunghezze, le caratteristiche linguistiche significative per ognuno dei tre parser sono fortemente legate a quelle degli altri parser; ciò spiega anche perché, come visto in 5.2, le caratteristiche linguistiche rilevanti nei diversi gruppi di frasi siano pressoché sempre le stesse per i tre diversi parser.
In Figura 5.7b sono riportati i risultati ottenuti per la lingua inglese. Anche in questo caso, le correlazioni sono molto forti per quasi tutte le diverse lunghezze. Si ottengono valori più bassi per le frasi lunghe 25 token: per queste frasi, c’è una relazione più forte tra UDPipe e MATE, mentre c’è una correlazione meno forte tra le DeSR e MATE e tra UDPipe e DeSR. I valori di correlazione ottenuti sono comunque significativi e, come per l’italiano, giustificano il fatto che, per i diversi gruppi di lunghezza, tendano a ricorrere spesso le stesse caratteristiche linguistiche.
I grafici appena visti mostrano come variano le correlazioni per i tre diversi parser, ma non permettono di capire quale sia la coppia di parser più simili, cioè quali sono i due parser che condividono più caratteristiche significative, indipendentemente dalla suddivisione delle frasi secondo la lunghezza. Per osservare questo dato, per ogni coppia di parser si sommano i punteggi di correlazione ottenuti per le diverse lunghezze, si divide per 6 (il numero delle diverse lunghezze), ottenendo così il valore medio della correlazione tra le feature dei due parser. In Tabella 5.2 sono riportati i risultati ottenuti per le due lingue.
Parser Correlazione media DeSR-MATE 0.783 UDPipe-DeSR 0.779 UDPipe-MATE 0.765 (a) Italiano Parser Correlazione media DeSR-MATE 0.739 UDPipe-DeSR 0.746 UDPipe-MATE 0.796 (b) Inglese
Tabella 5.2: Correlazione media tra le caratteristiche linguistiche dei parser.
Nella Tabella 5.2a si possono osservare i risultati per la lingua italiana. Il valore di corre- lazione media più alto si ottiene per DeSR e MATE. Un valore di correlazione così alto indica che le feature significative per un parser sono molto simili a quelle dell’altro. Nonostante le differenze evidenziate nella Figura 5.7a, i due parser, che implementano due strategie di analisi differenti, sono quelli che hanno più caratteristiche linguistiche significative in comune per la lingua italiana. Con un valore di poco più basso, si trovano di seguito UDPipe e DeSR, simili sia nelle caratteristiche linguistiche significative che nella strategia di analisi implementata.
Nella Tabella 5.2b si possono vedere i risultati per la lingua inglese. Nel caso dell’inglese, la coppia di parser con più caratteristiche linguistiche simili è quella UDPipe-MATE, nonostante i differenti approcci di analisi implementati dai due parser. I due parser più distanti sono DeSR e MATE, che ottengono il valore medio di correlazione più basso, anche rispetto ai valori visti per la lingua italiana.
CAPITOLO
6
Confronto tra complessità per gli umani e
accuratezza dei parser
In questo capitolo verranno messi a confronto i risultati delle analisi realizzate sugli umani con i risultati delle analisi realizzate sui parser.
Nel Capitolo 4 e nel Capitolo 5 sono state esaminate la dimensione della complessità per gli annotatori umani e la dimensione della complessità per i parser. Si è visto cosa è considerato complesso dagli umani e cosa è invece difficile da analizzare per i parser, individuando le caratteristiche linguistiche rilevanti per la complessità. Dopo aver esaminato separatamente la complessità per l’uomo e la complessità per la macchina, si è voluto confrontare le due dimensioni.
Lo scopo di questo capitolo sarà di vedere se esiste una relazione tra i risultati ottenuti per gli esseri umani e i risultati ottenuti per i parser. Per fare ciò, si vedrà se esiste una relazione tra l’accordo fra gli annotatori umani e l’accuratezza dei parser. Si metteranno a confronto la dimensione della complessità per gli umani e la dimensione della complessità per i parser, esaminando i risultati sia in relazione all’accordo, sia in relazione alla lunghezza delle frasi. Infine, si vedrà se esiste un legame tra le caratteristiche linguistiche significative per gli umani e le caratteristiche linguistiche significative per la macchina.
6.1
Accordo fra annotatori e accuratezza dei parser
Il primo confronto che si è voluto realizzare tra gli umani e le macchine ha riguardato il legame tra l’accordo degli annotatori e l’accuratezza dei parser. L’interesse è stato quello di capire se la dimensione dell’accordo umano potesse essere utile anche per i dati prodotti dai parser.
Nel Capitolo 4 si è visto come le analisi realizzate per gli umani siano state basate princi- palmente sulla dimensione dell’accordo tra i giudizi di complessità che gli annotatori avevano assegnato alle frasi. Vista l’importanza dell’accordo per i dati prodotti dagli umani, si è deciso
di verificare se questa dimensione potesse essere di una qualche utilità anche nel caso degli studi realizzati sulle macchine. Per fare ciò, è stato esaminato il variare dei valori di LAS e UAS per i tre parser al variare dell’accordo degli annotatori. Si rammenta che in queste analisi, nel parlare di accordo fra gli annotatori e di soglie di accordo, si sta facendo esclusivamente riferimento ai dati relativi alle frasi over, quelle per cui almeno n annotatori hanno assegnato lo stesso giudizio di complessità (cfr. 4.1).
In Figura 6.1 è possibile vedere come varia, per la lingua italiana, il valore medio di LAS e UAS per i tre parser, all’aumentare dell’accordo fra gli annotatori.
10 11 12 13 14 15 16 17 18 19 Accordo Annotatori 0.80 0.82 0.84 0.86 0.88 0.90 0.92 LA S DeSR LAS MATE LAS UDPipe LAS (a) LAS 10 11 12 13 14 15 16 17 18 19 Accordo Annotatori 0.80 0.82 0.84 0.86 0.88 0.90 0.92 U A S DeSR UAS MATE UAS UDPipe UAS (b) UAS
Figura 6.1: Media di LAS e UAS al variare dell’accordo (italiano)
I valori medi riportati nei grafici sono stati determinati con un procedimento semplice. Si è già visto che per ogni soglia di accordo viene estratto un certo numero di frasi dal totale di quelle contenute nel corpus (cfr. 4.1). Volendo determinare il valore medio della LAS per una soglia di accordo, si calcola il valore della LAS per ognuna delle frasi appartenenti al gruppo estratto per quella soglia; successivamente, la media viene calcolata sommando tutti i valori di LAS individuati per le frasi della soglia e dividendo per il numero di frasi presenti nel gruppo. Lo stesso procedimento si ripete identico per tutte le soglie di accordo e per la UAS, per ognuno dei tre parser utilizzati.
In Figura 6.1a è possibile osservare l’andamento dei valori medi ottenuti per la LAS. È innanzitutto evidente come le performance di MATE (in rosso) e UDPipe (in verde) siano pressoché identiche, con valori medi di LAS che si muovono di pari passo per entrambi i parser, mentre i risultati ottenuti da DeSR sono inferiori di qualche punto a quelli dei primi due parser. Allo stesso tempo, è rilevante notare come non esista un particolare andamento nella LAS per nessuno dei parser: il valore della LAS tende a rimanere costante, senza aumentare o diminuire particolarmente. Si registra solo un lieve aumento dei valori a partire dalla soglia 15, aumento che tuttavia non si ritiene tale da poter essere considerato come rilevante. Oltre la soglia 14, in cui le frasi sono divise pressoché a metà tra gruppo over e gruppo under (cfr. 4.1.1), le frasi
estratte per le diverse soglie iniziano progressivamente a diminuire: non è da escludere che la lieve crescita della LAS sia dipendente dal fatto che il valore viene calcolato su un numero via via più esiguo di frasi. Per questo stesso motivo non sono da tenere in considerazione nemmeno i valori che la LAS assume per la soglia 18 e la soglia 19: il ridotto numero di frasi contenuto nei due gruppi fa sì che i valori ottenuti non possano essere considerati validi.
In Figura 6.1b è riportato l’andamento dei valori medi determinati per la UAS, con uno scenario molto simile a quello presentato per la LAS, fatta eccezione per il fatto che i valori ottenuti per la UAS sono tendenzialmente più alti rispetto a quelli della LAS. Anche in questo caso, le performance di DeSR sono nettamente inferiori rispetto a quelle degli altri due parser, i quali risultano invece avere valori medi molto simili. Allo stesso tempo, non esiste una particolare tendenza nei valori della UAS, che rimane sommariamente costante in tutte le soglie di accordo, salvo poi aumentare leggermente quando il quantitativo di frasi estratte nelle diverse soglie diventa troppo piccolo per poter considerare attendibili i risultati.
In Figura 6.2 è riportato l’andamento dei valori medi di LAS e UAS al variare dell’accordo tra gli annotatori per la lingua inglese. Il procedimento utilizzato per individuare i valori medi per le due misure è lo stesso descritto precedentemente per la lingua italiana.
10 11 12 13 14 15 16 17 18 19 Accordo Annotatori 0.88 0.90 0.92 0.94 0.96 0.98 LA S DeSR LAS MATE LAS UDPipe LAS (a) LAS 10 11 12 13 14 15 16 17 18 19 Accordo Annotatori 0.88 0.90 0.92 0.94 0.96 0.98 U A S DeSR UAS MATE UAS UDPipe UAS (b) UAS
Figura 6.2: Media di LAS e UAS al variare dell’accordo (inglese)
I risultati individuati per la lingua inglese sono abbastanza in linea con quelli già discussi per la lingua italiana. Contrariamente a quanto succedeva per l’italiano, in cui le performance di MATE e UDPipe erano quasi identiche e le performance di DeSR erano inferiori, per la lingua inglese le performance migliori si registrano per il parser MATE, seguito poi da UDPipe; DeSR, invece, rimane il parser con i valori di accuratezza più bassi. Anche per l’inglese, i valori medi della LAS e i valori medi della UAS rimangono pressoché costanti per tutte le soglie di accordo, salvo calare nettamente per le soglie superiori a 18. Come già discusso per l’italiano, anche in questo caso non è rilevante tenere in considerazione i valori che la LAS e la UAS assumono per
queste soglie, poiché esse contengono un numero troppo esiguo di frasi per far sì che i risultati possano essere considerati attendibili.
Come anticipato, l’intento del confronto tra la dimensione dell’accordo fra gli annotatori e la complessità per la macchina è stato quello di capire se e in che misura tenere conto dell’accordo fra gli annotatori per i dati riguardanti i parser. Nel caso dell’esistenza di una relazione tra accordo e complessità per la macchina, potrebbe essere utile considerare questa dimensione anche nello studio dei dati ottenuti con i parser. Tuttavia, i risultati appena presentati mostrano che non esiste un particolare legame tra l’accordo e la complessità per la macchina. Sia per l’italiano che per l’inglese, l’andamento di LAS e UAS rimane pressapoco costante rispetto alle varie soglie di accordo selezionate: questo significa che l’aumento dell’accordo fra gli annotatori è indipendente da ciò che è semplice o difficile da analizzare per i parser. Se il valore delle due misure fosse cresciuto di pari passo all’aumentare dell’accordo fra gli annotatori, ne si sarebbe dedotto che le frasi su cui gli annotatori sono in forte accordo sono anche quelle cui i parser assegnano più facilmente i corretti link di dipendenza e le corrette etichette. Viceversa, se il valore delle misure fosse diminuito all’aumentare dell’accordo tra gli annotatori, si sarebbe avuta la dimostrazione che le frasi su cui gli annotatori sono in accordo sono quelle che i parser trovano più difficoltose di analizzare. Non riscontrando nessuna di queste condizioni per nessuno dei tre parser, si deduce che non esiste un legame tra accordo fra gli annotatori e complessità per la macchina.