• Non ci sono risultati.

4.4 Gli esperimenti

4.4.1 I primi esperimenti: le 147 caratteristiche linguistiche

Per la prima fase di esperimenti, dunque, il classificatore è stato eseguito a partire dai training e test set generati dalla prima versione dei file Excel, com- posti da 147 features linguistiche per tema97. I risultati sono stati raccolti nella

Tabella 19.

Scuole F-Score media

1 2 3 4 5 6 7

Test 1: Prove a distanza = 1

0,59 0,50 0,55 0,59 0,44 0,49 0,57 0,52 Test 2: Ia prova - penultima prova (singolo anno)

0,48 0,57 0,61 0,46 0,50 0,60 0,62 0,54 Test 3: Io anno - IIo anno (senza prove comuni) 0,75 0,68 0,48 0,45 0,62 0,36 0,61 0,58 Test 4: Prove a distanza di un anno

0,57 0,69 0,46 0,43 0,74 0,48 0,70 0,57 Test 5: Ia prova - penultima prova (biennio) 0,84 0,80 0,57 0,70 0,59 0,57 0,83 0,70 Test 6: Ia prova - prova comune (singolo anno)

0,99 1,0 1,0 1,0 0,97 1,0 0,88 0,98 Test 7: Io anno - IIo anno (con prove comuni)

0,75 0,69 0,54 0,71 0,65 0,47 0,71 0,63 Test 8: Prove comuni

1,0 0,87 0,89 1,0 1,0 1,0 1,0 0,94 Test 9: Ia prova - prova comune (biennio)

1,0 1,0 1,0 1,0 1,0 0,95 1,0 0,99 Test 10: Tutte le prove

0,64 0,60 0,56 0,60 0,59 0,53 0,60 0,58 Tabella 19: Risultati della prima fase di esperimenti.

Com’è possibile osservare dai dati estratti, la maggior parte dei compiti di clas- sificazione sono caratterizzati da percentuali di F-Measure che non superano la soglia degli 0,70 punti. In particolare, i risultati più importanti si ottengono negli esperimenti che coinvolgono le prove comuni. Tale risultato però è piut- tosto comprensibile. Infatti, sia nel caso in cui il confronto riguardi due prove comuni sia nel caso in cui vengano accostati fra di loro un tema qualsiasi e una prova comune, l’operazione di classificazione si riduce ad un compito di identificazione del topic testuale (task abbastanza semplice per gli algoritmi

di apprendimento automatico). Si ricordi, a tal proposito, che le prove comu- ni sono produzioni caratterizzate da un’unica traccia, relativa alla percezione dell’insegnamento della scrittura, condivisa da tutte e sette le scuole. Dunque, nonostante in fase di classificazione non vengano utilizzate proprietà lingui- stiche relative al lessico, e quindi maggiormente identificative del topic delle prove, il classificatore è comunque in grado di discriminare le caratteristiche morfo-sintattiche e sintattiche di tali produzioni rispetto a quelle utilizzate per gli altri temi.

Naturalmente, negli altri casi, le tracce delle produzioni si distinguono da clas- se a classe, rendendo dunque il compito di classificazione notevolmente più complesso. Per tale ragione, i restanti esperimenti sono caratterizzati da pun- teggi più bassi e da una forte variabilità interna. Ad esempio, nel confronto fra la prima prova del primo anno e la penultima prova del secondo, si passa da uno 0,84 di F-Score per la prima scuola ad uno 0,57 per la sesta. A questo proposito, è interessante osservare come quasi tutti i risultati delle scuole 5 e 6 presentino dei punteggi più bassi rispetto alle altre. Questa osservazione sembra ritrovare un riscontro in alcune delle dichiarazioni rilasciate dalle do- centi in merito alle scuole sopracitate: «Grandissimi i problemi di preparazione all’inizio, in particolare nella scrittura dove è stato necessario ripartire dal se- gno grafico, non erano in grado di scrivere in corsivo, inoltre hanno enormi problemi con il lessico, non sanno usare le parole, ne conoscono pochissime» (Scuola 5); «La preparazione era scarsissima, ho dovuto ricominciare come se fossimo in terza elementare, con la scrittura delle lettere, il segno grafico, co- me si attaccano le lettere. Diciamo che in prima media loro hanno rifatto la scuola elementare però penso che abbiamo posto le basi per fare una seconda media che sia scuola media.»(Scuola 6)98. Difatti, nonostante lo scarso livello di preparazione inziale potrebbe far pensare a un margine di miglioramento più grande nella stessa unità di tempo, e dunque garantire un miglior funziona- mento del classificatore, è possibile che le features linguistiche delle due scuole in questione presentino delle caratteristiche così differenti dalle altre cinque da ostacolare il compito di classificazione. Si ricordi, a tal proposito, che la fase di

98Barbagli, Quanto e come si impara a scrivere nel corso del primo biennio della scuola

training si basa sui dati estratti dai training set e non può dunque sfruttare le caratteristiche linguistiche degli eventi dei test set per la creazione del modello. Per quanto riguarda invece le differenze fra i vari ordini temporali, possiamo osservare che i risultati più bassi si ottengono prevedibilmente nel compito che riguarda il confronto fra temi prodotti a distanza minima. Questo perché è particolarmente difficile determinare il margine di miglioramento determinato dalla differenza delle caratteristiche linguistiche di due testi che sono stati scrit- ti in un intervallo di tempo molto ravvicinato. Inoltre, è interessante osservare che tra tale compito di classificazione e fra quello che prende in considerazione tutte le prove scritte a distanza di un anno, la differenza nei valori di F-Score è solamente di 5 punti percentuali. Come vedremo, questa insolita somiglianza nei risultati subirà un notevole cambiamento nell’ultima fase di esperimenti, quando alle caratteristiche prese in esame verranno aggiunte altre informazioni.

In generale, questi primi risultati hanno messo in risalto la complessità del compito di classificazione, incentivando ad esplorare ulteriori variabili, al fine di specializzare le caratteristiche dei singoli documenti e garantire una miglior identificazione dell’evoluzione delle competenze di scrittura. Nonostante ciò, si osservi che tutti e dieci i compiti eseguiti hanno raggiunto valori di F-Score superiori allo 0,50 e ciò ci permette dunque di affermare che il classificatore è in grado di rintracciare il processo di evoluzione delle competenze di scrittura, a prescindere dall’intervallo temporale preso in considerazione.

4.4.2 La seconda fase di esperimenti: aggiunta delle carat-

teristiche sulla complessità lessicale

Per la seconda fase di esperimenti, alle 147 features di ogni tema è stato de- ciso di aggiungere un altro set di caratteristiche linguistiche, riconducibili alla complessità lessicale e, in particolare, alla frequenza della classe di ogni parola (words frequency class) presente all’interno di ogni tema.

Per ottenere risultati in grado di rispecchiare al meglio le caratteristiche di- stribuzionali della lingua italiana, è stato deciso di estrarre la words frequency class di ogni termine non dal corpus CItA ma, bensì, da una raccolta di te-

sti assai più ampia e completa: il corpus itWAC (Italian Web as Corpus)99.

Composto da quasi più di un miliardo e mezzo di parole, itWAC è un corpus di testi ricavati con metodi automatici dal dominio .it del web e che può es- sere liberamente consultato tramite un’interfaccia online, tramite la quale è possibile visualizzare le concordanze e le liste di parole100. Per il download

completo, invece, è necessario inviare una richiesta direttamente agli sviluppa- tori del progetto.

Figura 4: Interfaccia online per la consultazione delle concordanze del corpus itWAC.

L’estrazione delle words frequency class dal corpus itWAC è stata effettuata facendo riferimento a due unità linguistiche distinte: il lemma, ovvero l’unità lessicale canonica «che i parlanti [...] riconoscono come rappresentativa di un paradigma»101, e la forma, cioè la parola nella sua struttura flessa102.

La frequenza della classe di ogni termine viene dunque calcolata tramite le seguenti formule:

Clemma= blog2

f req(M F L) f req(CL) c

99Marco Baroni, Silvia Bernardini, Adriano Ferraresi e Eros Zanchetta. «The WaCky

wide web: a collection of very large linguistically processed web-crawled corpora». In: Language resources and evaluation 43.3 (2009), pp. 209–226.

100https://corpora.dipintra.it(visitato il 28/01/2017).

101Sidney I. Landau. «The art and craft of lexicography». In: New York: Scribner (1984). 102Per una migliore compresione della distinzione fra lemma e forma, consul-

tare: Enciclopedia Treccani, Voce tipi di lemma, http://www.treccani.it/ enciclopedia/tipi-di-lemma_%28Enciclopedia-dell%27Italiano%29/(visi- tato il 28/01/2017).

Cf orma = blog2

f req(M F F ) f req(CF ) c

Dove MFL (Most Frequent Lemma) e MFF (Most Frequent Forma) rappre- sentano il lemma e la forma più frequenti all’interno del corpus di riferimento, mentre CL (Current Lemma) e CF (Current Forma) corrispondono al lemma e alla forma presi in considerazione.

Prima di passare al calcolo delle words frequency class, il corpus è stato an- notato morfo-sintatticamente e lemmatizzato con l’ ItaliaNLP-POS-Tagger, in modo da favorire l’identificazione dei lemmi e delle forme. A seguito di que- sta operazione, sono stati creati tre script necessari per l’individuazione delle nuove features linguistiche. In particolare, il primo e il secondo script si occu- pano del conteggio delle frequenze dei lemmi e delle forme nel corpus itWAC e del calcolo delle words frequency class, mentre il terzo associa ad ogni termine presente nei temi scolastici la corrispettiva classe di frequenza e ne calcola la media.

Il primo script generato, dunque, prendendo in input il corpus annotato e salvato in formato CoNLL-U, individua per ogni forma anche il suo corrispet- tivo lemma e successivamente, tramite un comando condizionale, popola due dizionari per il conteggio delle frequenze.

if not punct_lemma: if lemma in lemmi: lemmi[lemma] += 1 else: lemmi[lemma] = 1 if not punct_forma: if forma in forme: forme[forma] += 1 else: forme[forma] = 1

Com’è possibile osservare dal codice, dopo aver verificato che un dato termine non appartiene all’insieme della punteggiatura, lo script controlla la presenza del lemma e della forma corrispettivi all’interno dei dizionari, in modo da de- terminare se incrementare il conteggio o aggiungere una nuova entrata.

Una volta eseguito il codice e salvate in un file le liste dei lemmi e delle for- me con le corrispettive frequenze, si passa al calcolo delle words frequency class.

Prima di analizzare il funzionamento degli ultimi due script, però, può essere interessante soffermarsi brevemente sulle caratteristiche distribuzionali dei dati appena estratti. Anzitutto, dalla Tabella 20 possiamo osservare che le parole più frequenti appartengono quasi tutte alla categoria delle parole grammatica- li. Difatti, solo alla quarta posizione della lista dei primi dieci lemmi troviamo il verbo essere, ovvero un termine riconducibile alla classe delle parole piene. Inoltre, nonostante la tabella riporti solo una sezione dei dati estratti, possia- mo comunque affermare che tale porzione rappresenta pienamente le proprietà della lista completa e, in generale, le caratteristiche distribuzionali dei princi- pali corpus della lingua italiana (e non solo). Osservando le due liste possiamo facilmente constatare, infatti, che parole che appaiono molto in basso nell’e- lenco tendono ad avere frequenze molto simili e, in generale, che i termini più frequenti sono molti di meno rispetto a quelli meno frequenti. Queste proprietà sono tutte riconducibili ai principi fondamentali della legge di Zipf, la quale individua una relazione matematica ben precisa tra la posizione (rango) che una parola occupa all’interno della lista e la sua frequenza103.

Il dato più interessante, invece, riguarda la differenza fra il numero totale di elementi delle due liste. Difatti, nonostante i lemmi dovrebbero essere in quantità nettamente inferiore rispetto a tutte le possibili forme, lo scarto fra le due liste consta solamente di 588839 termini (5586281 per quella delle for- me e 4997442 per quella dei lemmi). Sembrerebbe, dunque, che in un corpus di grandi dimensioni il numero di forme derivanti da uno stesso lemma è in grado di influire significativamente sulla distribuzione delle frequenze ma non sul numero totale delle parole.

Una volta estratte le liste dei lemmi e delle forme con le rispettive frequenze, il secondo script si occupa di calcolare le words frequency class applicando la formula citata nelle pagine precedenti. Nello specifico, una volta individuati il

103Alessandro Lenci, Simonetta Montemagni e Vito Pirrelli. Testo e computer: elementi

Rango Forma Frequenza Rango Lemma Frequenza 1 di 64907771 1 di 131877535 2 e 40009028 2 il 106634454 3 che 26918704 3 e 45735953 4 la 25758873 4 essere 39177590 5 il 25058895 5 in 38683251 6 in 21636174 6 uno 30799682 7 a 19666940 7 a 29364753 8 del 19545062 8 che 27334226 9 per 18936077 9 da 20627448 10 è 16857743 10 per 20384644 ... ... ... ... ... ... 39915 aquile 1810 39915 Markup 965 ... ... ... ... ... ... 42667 soggiunse 1634 42667 braghe 863

Tabella 20: Una sezione delle liste dei lemmi e delle forme del corpus itWAC ordinate per valori decrescenti di frequenza.

lemma e la forma più frequenti, per ogni record dei due input vengono eseguite le seguenti righe di codice:

for line in infile:

items = line.strip().split("\t") wd = items[0]

frequenza = int(items[1])

rapporto = freq_max/float(frequenza) wfc = int(math.log(rapporto, 2))

Infine, l’ultimo script sviluppato si occupa per prima cosa di associare ad ogni forma e ad ogni lemma del corpus CItA annotato linguisticamente e suddiviso per temi le words frequency class corrispondenti e, successivamente, di calcola- re le medie delle due categorie104. Al fine di aggiungere ulteriore informazione

linguistica, le medie delle classi di frequenza sono state calcolate sul totale delle parole di ogni tema e su tre categorie grammaticali distinte: sostantivi, verbi e aggettivi.

Conclusasi l’esecuzione dei tre script e dopo aver aggiunto ai vettori dei due documenti Excel le ultime features (8 in totale105) che descrivono le classi di

104Cfr. Appendice B.

105Media delle classi di frequenza dei lemmi e delle forme per il numero totale di tokens e

frequenza delle parole del testo e che quindi, in qualche modo, rappresentano la complessità lessicale dei temi, è stato possibile passare alla creazione dei nuovi training e test set e quindi ad una seconda fase di esperimenti.

I risultati

Osservando la Tabella 21, ci rendiamo subito conto che l’andamento dei risul- tati non differisce particolarmente da quello della prima fase di classificazione e ciò non ci permette di trarre nuove considerazioni sull’efficienza globale dei compiti selezionati. Tuttavia, in cinque esperimenti si ottengono comunque dei risultati leggermente più alti. In particolare, nell’ordine temporale che mette a confronto tutte le prove del primo anno con quelle del secondo, l’incremen- to medio è di circa quattro punti. Per quanto riguarda invece i quattro casi che non presentano nessun tipo di incremento, possiamo notare che due di questi riguardano prevedibilmente coppie di temi scritti a distanza più breve (distanza uguale ad 1 e prima con penultima prova del singolo anno). Questa informazione potrebbe perciò suggerire che le medie delle words frequency class contribuiscono comunque al miglioramento dei compiti di classificazione, ma che tale contributo si può riscontrare solamente negli esperimenti che coinvol- gono gli intervalli temporali più ampi. Inoltre, è importante sottolineare che questa tipologia di informazione linguistica è in parte riconducibile all’insieme più ampio delle caratteristiche del lessico e, in particolare, alla ripartizione dei vocaboli in una serie di insiemi prestabiliti. È possibile ipotizzare, infatti, che le classi di frequenza delle parole estratte da un corpus particolarmente ricco come itWAC siano in qualche modo correlate alla ripartizione del Vocabolario di base e delle sue sottocategorie; dunque, a informazioni lingusitiche già co- dificate nelle features originarie.

Dal momento che le medie della words frequency class sono state calcolate anche in riferimento a tre categorie grammaticali distinte, abbiamo deciso di ripetere gli esperimenti concatenando al vettore di ogni tema le features di una delle tre parti del discorso alla volta, in modo da verificare quale tra di

Scuole F-Score media

1 2 3 4 5 6 7 Seconda fase Prima fase Test 1: Prove a distanza = 1

0,56 0,53 0,54 0,54 0,45 0,49 0,51 0,52 0,52 Test 2: Ia prova - penultima prova (singolo anno)

0,51 0,61 0,57 0,41 0,50 0,64 0,58 0,54 0,54 Test 3: Io anno - IIo anno (senza prove comuni)

0,79 0,69 0,53 0,48 0,64 0,35 0,73 0,62 0,58 Test 4: Prove a distanza di un anno

0,58 0,67 0,49 0,31 0,77 0,50 0,70 0,57 0,57 Test 5: Ia prova - penultima prova (biennio)

0,86 0,74 0,54 0,85 0,50 0,59 0,83 0,70 0,70 Test 6: Ia prova - prova comune (singolo anno)

1,0 1,0 1,0 1,0 1,0 1,0 0,97 0,99 0,98 Test 7: Io anno - IIo anno (con prove comuni)

0,78 0,71 0,59 0,71 0,73 0,46 0,77 0,67 0,63 Test 8: Prove comuni

1,0 0,84 0,94 1,0 1,0 1,0 1,0 0,95 0,94 Test 9: Ia prova - prova comune (biennio)

1,0 1,0 1,0 1,0 1,0 0,95 1,0 0,99 0,99 Test 10: Tutte le prove

0,61 0,58 0,54 0,59 0,57 0,50 0,59 0,56 0,58 Tabella 21: Risultati della seconda fase di esperimenti (in rapporto alle F-Score medie della prima fase). In grassetto sono evidenziati i risultati più alti. esse contribuisce di più all’efficacia del classificatore. Per quest’ultima fase di classificazione, sono stati scelti i seguenti ordini temporali: Test 3, per il quale è stato registrato un incremento di circa quattro punti rispetto alla prima fase di esperimenti e Test 5, per il quale non si è ottenuto nessun miglioramento nelle prestazioni.

Com’è possibile osservare nella Tabella 22, le categorie grammaticali che contri- buiscono maggiormente all’aumento dei punteggi di classificazione sono quelle dei sostantivi e degli aggettivi, mentre i verbi non sembrano influire partico- larmente sui risultati; anzi, almeno per quanto riguarda il quinto compito di classificazione (il confronto fra la prima prova del primo anno e la penulti- ma del secondo anno), il valore di F-Score media diminuisce di circa 3 punti rispetto alla prima fase di esperimenti.

Features Test 3 (F-Score media) Test 5 (F-Score media) Nessuna 0,58 0,70 Sostantivi 0,62 0,69 Verbi 0,59 0,67 Aggettivi 0,60 0,70 Tutte 0,62 0,70

Tabella 22: Risultati di classificazione al variare delle features relative alla words frequency class.

4.4.3 Gli ultimi esperimenti: aggiunta delle informazioni

Documenti correlati