In seguito al procedimento di estrazione delle frasi descritto in 4.1.1, si hanno a disposizione un gruppo di frasi over e un gruppo di frasi under per ognuna delle soglie di accordo selezionate. A questo punto si è ritenuto interessante capire perché gli annotatori si siano trovati a essere in accordo sul giudizio di complessità da assegnare a determinate frasi e in disaccordo, invece, sul giudizio da assegnare ad altre frasi. Ciò che succede è che ci sono frasi che risultano essere molto facili o molto difficili per tutti – o quasi – gli annotatori e frasi per cui invece gli annotatori assegnano giudizi anche molto differenti fra loro. Per indagare i motivi di questa discordanza fra gli annotatori si è deciso di esaminare le caratteristiche linguistiche delle frasi estratte. L’intento è stato quello di capire se le feature linguistiche hanno o meno un’influenza sull’accordo fra gli annotatori e, se effettivamente tale influenza esiste, evidenziare quali feature la producono. Prima di procedere all’analisi delle feature, si è deciso di lavorare solo sulle soglie di accordo comprese tra 10 e 17 annotatori: si è ritenuto che selezionare una soglia di accordo maggiore di 17 non avrebbe prodotto risultati significativi, a causa del numero esiguo di frasi su cui si sarebbe dovuto lavorare.
Per poter capire se c’è un legame tra le caratteristiche linguistiche e le frasi selezionate nei gruppi over e under, si è proceduto determinando quali sono le feature significative per
ogni soglia di accordo. In ogni gruppo di frasi over e under estratte per le diverse soglie di accordo, ogni frase è descritta da un vettore di caratteristiche linguistiche (cfr. 3.5 e appendice A per l’elenco delle caratteristiche), cioè da un vettore che contiene i valori assunti dalle feature linguistiche di quella stessa frase. Per poter determinare le feature significative, con l’ausilio di uno script in Python si è applicato il Wilcoxon Ranksum tra i vettori di feature delle frasi over e i vettori di feature delle frasi under. Il Wilcoxon Ranksum è un test non parametrico per due popolazioni1, che permette di determinare se due campioni sono stati selezionati da popolazioni aventi la stessa distribuzione.
Data una soglia di accordo, applicando il test di Wilcoxon tra le feature delle frasi over e le feature delle frasi under, si confrontano i valori che le caratteristiche linguistiche assumono nei due gruppi di quella soglia. Tale confronto permette di associare un punteggio di significatività (p-value) a ognuna delle feature: se, per una feature, il p-value assume un valore strettamente minore di 0.05, quella feature viene considerata come significativa. Il test di Wilcoxon individua come significativa una feature se i valori che essa assume nei due gruppi over e under sono considerati come appartenenti a popolazioni con diverse distribuzioni; viceversa, se i valori della feature sono considerati dal test come appartenenti a popolazioni con la stessa distribuzione, quella feature non sarà significativa. Quando una feature è considerata significativa dal test di Wilcoxon, significa che essa è una delle caratteristiche che distingue le frasi del gruppo over da quelle del gruppo under ed è, pertanto, una delle caratteristiche determinanti per l’accordo.
Il test di Wilcoxon è stato applicato sui gruppi over e under di tutte le soglie di accordo comprese tra 10 e 17 annotatori. Di seguito si vedranno i risultati ottenuti sulla lingua italiana e sulla lingua inglese.
4.2.1
Caratteristiche rilevanti per l’italiano
Nella Tabella 4.3 si riportano, come esempio, alcuni dei risultati ottenuti per la lingua italiana. Per la visione dei risultati completi si rimanda alla Tabella B.1 in appendice. Quando una feature è significativa nel discriminare le frasi del gruppo over da quelle del gruppo under viene segnalata con un segno di spunta.
Osservando la tabella è possibile verificare quali feature si attivano – diventano significative – nelle varie soglie di accordo. L’attivazione di una feature dipende dall’importanza che essa assume nel determinare un maggiore accordo tra gli annotatori: se una feature è significativa per una data soglia è perché essa rappresenta una delle caratteristiche di cui gli annotatori tengono conto per assegnare i giudizi di complessità e, pertanto, contraddistingue le frasi del gruppo over da quelle del gruppo under. Di seguito si spiegherà come varia l’attivazione delle feature nelle diverse soglie di accordo, mostrando quali sono le caratteristiche linguistiche che influenzano l’accordo fra gli annotatori.
Feature Accordo 10 11 12 13 14 15 16 17 avg_links_len X X X X X X avg_max_depth X X X X X X avg_prepositional_chain_len X X X X X avg_subordinate_chain_len X X X X X avg_verb_childs X X avg_verb_edges X X char_per_tok X X X X dep_freq_nmod X X X X X X X in_AD_types X X X X X itwac_lemmi X X X X X X X X max_links_len X X X X X X n_prepositional_chains X X X X X X X n_subordinate_chain X X X X X n_subordinate_proposition X X X X X n_tokens X X X X X X X obj_post X X X principal_proposition_dist X X X X X subordinate_post X X X X X subordinate_pre X X X X subordinate_proposition_dist X X X X X ttr_form X X X X X X ttr_lemma X X X X X verb_childs X X X X X X verbal_head X X X X X X
Tabella 4.3: Selezione di feature significative per l’accordo (italiano). Per la lista completa delle feature si rimanda alla Tabella B.1 in appendice.
Con un grado di accordo pari a 10, l’unica feature significativa è quella che riguarda la classe di frequenza dei lemmi contenuti nella frase (itwac_lemmi). Questo dato indica che la prima caratteristica che contraddistingue le frasi selezionate dall’accordo da quelle scartate risiede nel lessico delle frasi. Con una soglia pari a 11, si attivano feature di base (le feature n_tokens e tokens_per_sent, che indicano il numero di token per frase) e alcune feature di carattere sintattico, quali il numero di catene preposizionali (n_prepositional_chains) o la frequenza dei modificatori del nome (dep_freq_nmod). È noto come il numero di token presente in una frase (ovvero, la lunghezza della frase) sia importante per determinare la complessità o la semplicità di una frase; il fatto che sia una delle prime feature ad attivarsi indica che, anche per soglie di accordo molto basse, la lunghezza delle frasi è uno dei primi discriminanti di cui gli annotatori tengono conto per assegnare i punteggi di complessità. Tuttavia, è bene ricordare che basare la complessità di una frase solo sulla sua lunghezza non è una strategia appropriata. Sebbene siano comuni i casi in cui a frasi lunghe corrisponda una maggiore complessità di lettura e interpretazione, è doveroso considerare che questa non è la regola: periodi particolarmente ampi possono in alcuni
casi risultare più semplici di frasi sensibilmente più brevi. Come si dimostrerà osservando le soglie successive, sono ben altre le caratteristiche cruciali nel determinare un forte accordo tra gli annotatori.
A partire dalla soglia pari a 12, sono le caratteristiche sintattiche a divenire progressivamente più importanti. Qui entrano in gioco fattori quali la profondità degli alberi sintattici e la lunghezza dei link sintattici (sia intesa come lunghezza media dei link, avg_links_len, sia intesa come lunghezza del link più ampio, max_links_len), così come sono determinanti caratteristiche riguardanti i verbi, quali il numero di teste verbali (verbal_head) o l’arità dei verbi (verb_childs); continuano a essere rilevanti anche altre feature lessicali, come il rapporto tra i tipi e i token presenti nella frase (ttr_form).
Dalla soglia 13, diventano rilevanti il numero di catene di subordinate (n_subordinate_chain) e il numero di proposizioni subordinate (n_subordinate_proposition) presenti nella frase, così come si attivano le feature riguardanti la distribuzione delle proposizioni principali e subordinate nella frase. La subordinazione è uno tra i fattori che determina la complessità o semplicità di una frase: la presenza di più subordinate nella stessa frase o di catene di subordinate può contribuire a rendere la frase più complessa; viceversa, la presenza di poche subordinate o la loro completa assenza, permette di solito una più facile interpretazione della frase. Ciò spiega perché queste caratteristiche diventano importanti per il raggiungimento di un elevato accordo tra gli annotatori. Allo stesso modo, da questa soglia in poi si attiva anche la caratteristica riguardante il numero di parole della frase che appartengono al dizionario fondamentale (in questo caso, la feature attiva è quella riguardante il lessico ad alta disponibilità in_AD_types).
Dalla soglia 14 in poi, divengono rilevanti ulteriori caratteristiche sintattiche, quali la distri- buzione e la frequenza delle etichette delle dipendenze. Le ultime feature ad attivarsi sono quelle a carattere morfosintattico, come la distribuzione delle parti del discorso o la distribuzione dei modi e dei tempi verbali.
4.2.2
Caratteristiche rilevanti per l’inglese
Nella Tabella 4.4 sono riportate, come esempio, alcune delle feature significative per l’accordo sulle frasi della lingua inglese. Per la visione delle feature complete si rimanda alla Tabella B.2 in appendice.
Lo scenario che appare per inglese è molto diverso rispetto a quello visto per la lingua italiana. Nella lingua inglese esistono diverse feature significative già per una soglia pari a 10. Le prime feature importanti per l’accordo sono, come visto anche per l’italiano, quelle di base e quelle a carattere lessicale, quali il numero di token per frase – ovvero, la lunghezza della frase stessa – e il rapporto tra tipi e token, sia relativamente alle forme che relativamente
ai lemmi (ttr_form, ttr_lemma). Già da questa soglia sono rilevanti alcune caratteristiche
Feature Accordo 10 11 12 13 14 15 16 17 avg_links_len X X X X X X X avg_max_depth X X X X X avg_prepositional_chain_len X X X X char_per_tok X X X X X cpos_dist_DET X X X X X cpos_dist_NUM X X X X X X X cpos_dist_VERB X X X X X X dep_dist_amod X X X X X X X dep_dist_nsubj X X X X X X X X dep_freq_amod X X X X X X X X dep_freq_num X X X X X X X lexical_density X X X X X max_links_len X X X X X X X X n_prepositional_chains X X X X X X X n_subordinate_chain X X X X X n_subordinate_proposition X X X X X n_tokens X X X X X X X X principal_proposition_dist X X X X X subordinate_proposition_dist X X X X X tokens_per_sent X X X X X X X X total_subordinate_chain_len X X X X X ttr_form X X X X X X X ttr_lemma X X X X X X X X verb_childs X X X X X verbal_head X X X X X
Tabella 4.4: Selezione di feature significative per l’accordo (inglese). Per la lista completa delle feature si rimanda alla Tabella B.2 in appendice.
del link sintattico più ampio (max_links_len), la distribuzione e la frequenza degli aggettivi che modificano un nome (dep_dist_amod, dep_freq_amod), la distribuzione dei soggetti nominali 2 (dep_dist_nsubj), la frequenza dei numerali (dep_freq_num). Da questi risultati si vede che, diversamente a quanto registrato per l’italiano, nella lingua inglese le caratteristiche sintattiche sono importanti per discriminare le frasi over da quelle under anche per soglie di accordo molto basse.
Per le soglie comprese tra 11 e 13, divengono rilevanti le prime caratteristiche morfosin- tattiche, quali la distribuzione di alcune parti del discorso – nello specifico, la distribuzione di numerali, verbi e determinanti (cpos_dist_NUM, dep_dist_VERB, dep_dist_DET). Dalla soglia 13 in poi, si attivano principalmente feature a carattere sintattico, quali la profondità media degli alberi sintattici (avg_links_len), la lunghezza media delle catene preposizionali (avg_prepositional_chain_length), il numero delle catene preposizionali e di subordinate pre-
senti nella frase (n_prepositional_chains, n_subordinate_chains), nonché il numero di teste verbali (verbal_head) e l’arità dei verbi (verb_childs).
Dalla soglia 14 in poi, invece, si attivano ulteriori feature morfosintattiche – quelle che riguardano la distribuzione di aggettivi, congiunzioni e di apposizioni – e ulteriori feature sintattiche riguardanti la distribuzione e la frequenza delle etichette delle dipendenze.