• Non ci sono risultati.

4.4 Gli esperimenti

5.1.2 L’analisi delle features

Sebbene la nuova fase di esperimenti abbia già permesso di rilevare alcune im- portanti caratteristiche sui sottoinsiemi di features, l’osservazione dei ranking delle variabili linguistiche potrebbe fornirci ulteriori informazioni sull’impor- tanza delle singole componenti per le diverse unità temporali prese in conside- razione. Anzitutto, è bene ricordare che le liste di features che verranno citate sono state estratte utilizzando come input dei data set contenenti tutti gli eventi possibili a seconda dell’ordine temporale considerato, senza far dunque distinzione fra training set e test set. Inoltre, siccome il totale delle variabili è composto dalla concatenazione delle features di due temi e della differenza vettoriale fra le due, per poter distinguere fra queste tre sottocategorie ab- biamo deciso di aggiungere al nome di ogni proprietà linguistica le seguenti terminazioni: (1) e (2) se appartiene, rispettivamente, al vettore del primo e del secondo tema, (diff) se invece appartiene al vettore delle differenze. Al fine di individuare le variazioni più significative, verrano prese in conside- razioni le features relative ai tre compiti di classificazione in grado di ricoprire gli intervalli temporali di: un mese (prove a distanza = 1), un anno (prove a distanza di un anno) e due anni (Ia prova - penultima prova nel biennio).

Le prime 100 caratteristiche per ognuno dei tre compiti di classificazione sono riportate nell’Appendice A.

Come possiamo vedere dalla Tabella 28, le features più significative sono per la maggior parte riconducibili al vettore delle differenze (diff ), a prescindere dal- l’ordine temporale in considerazione. Questo perché, come abbiamo già avuto modo di discutere, ciò che permette di discriminare al meglio l’ordine crono- logico di scrittura sono le variabili linguistiche che presentano una notevole variazione nell’intervallo temporale esaminato. Per questo motivo, le proprie- tà più importanti sono proprio quelle che contengono al loro stesso interno la misura di tale variazione.

Per quanto riguarda invece le caratteristiche linguistiche specifiche, notiamo anzitutto che le features relative all’annotazione degli errori acquisiscono im- portanza all’aumentare del divario temporale. Difatti, nel secondo compito di

No Prove a distanza = 1 Prove a distanza di un

anno

Ia prova - penultima prova (biennio) 1 Aggettivi (diff) Numero di token

(diff) dei lemmi verbali (diff)Word frequency class 2 Soggetti post-verbali

(diff) Numero di frasi(diff) Relazione ausiliaria(diff) 3 Word frequency class

dei lemmi verbali (diff) Caratteri pertoken (diff) Verbi ausiliari (diff) 4 Soggetti pre-verbali

(diff) Pronomi pereccesso (1) persona plurale (diff)Verbi ausiliari prima 5 Numero di token (diff) Pronomi per

eccesso (diff) Verbi ausiliari primapersona plurale (2) 6 Verbi principali terza

persona singolare (diff) Pronomi pereccesso (2) indicativo (diff)Verbi ausiliari 7 Aggettivi qualificativi

(diff) grammaticaliTotale errori (diff)

Numero di frasi (diff)

8 Aggettivi (1) Numero di token

(2) Relazione ausiliaria (2) 9 Relazione predicativa

(diff) Numero di frasi(1) Verbi ausiliari primapersona plurale (1) 10 Verbi principali al

passato (diff) Numero di token(1) Verbi ausiliariindicativo (1) Tabella 28: Ranking delle prime 10 features per tre diversi ordini temporali. classificazione, ben quattro fra le dieci variabili più significative sono ricondu- cibili a questa categoria: l’uso in eccesso dei pronomi (per tutti e tre i vettori) e la somma totale degli errori grammaticali. Inoltre, nonostante l’assenza degli errori fra le prime dieci posizioni, il ranking del terzo intervallo temporale pre- senta un totale di otto features relative a tale categoria fra le prime cinquanta posizioni. Nella classifica dell’ordine temporale che mette a confronto le prove scritte a distanza di un mese, invece, la prima variabile corrispondente all’an- notazione degli errori occupa la 112a posizione.

Particolarmente significative, anche se non discriminanti per l’identificazione delle differenze fra i tre compiti di classificazione, sono le features relative alle proprietà linguistiche di base (media di token, di frasi e di caratteri per ogni tema), che ricoprono quasi tutte posizioni di rilievo nei tre ranking osservati. Ad esclusione delle classi di frequenza del lessico (word frequency class), non

risulterebbero rilevanti invece le caratteristiche del lessico e ciò ci permette di confermare quanto già detto nel secondo capitolo, ovvero che per quanto ri- guarda la distribuzione del vocabolario, la densità lessicale e Type/Token Ratio non si rilevano particolari variazioni nel corso dei due anni scolastici.

Tra le caratteristiche morfosintattiche, oltre all’uso degli aggettivi, che eserci- tano un ruolo fondamentale soprattutto per le prove realizzate a distanza di un mese117, possiamo menzionare le features relative all’utilizzo dei verbi. In

particolare, nel compito di classificazione che ricopre un intervallo temporale di circa due anni, sei fra le dieci variabili più significative sono riconducibili all’uso dei verbi ausiliari e, dunque, a strutture verbali più complesse. Inol- tre, come abbiamo potuto osservare in precedenza, all’aumentare del divario temporale aumenta anche da parte degli studenti la produzione di verbi com- plessi: ad esempio, i verbi principali all’infinito passano dalla 161a posizione

del primo ranking considerato alla 47a dell’ultimo. Sotto questa prospettiva,

anche le features corrispondenti alla word frequency class dei lemmi verbali ricoprono un ruolo importante, occupando posizioni di rilievo in tutti e tre gli ordini temporali118.

Infine, per quanto riguarda le proprietà sintattiche, osserviamo anzitutto che l’utilizzo del soggetto in posizione post-verbale e pre-verbale svolge un ruolo importante per il primo ordine temporale, mentre tende a perdere rilevanza negli altri due compiti. Questo potrebbe suggerirci che la tendenza da parte degli studenti di scrivere temi con una struttura più canonica risulta rilevante non solo negli intervalli più ampi, come abbiamo avuto modo di discutere nel secondo capitolo, ma anche in quelli più brevi.

Un altro dato interessante è dato da tutte quelle proprietà sintattiche che no- nostante occupino posizioni di rilievo nei temi prodotti a distanza di un anno, tendono a perdere la loro rilevanza con l’ulteriore aumento del divario tem-

117Nonostante ricopra una posizione rilevante anche per gli altri due ordini temporali (52a

per il secondo e 32a per il terzo).

porale. Ad esempio, la feature relativa alla media di teste verbali per frase119

svolge un ruolo determinate nel secondo compito di classificazione, occupan- do la 51a posizione della classifica corrispettiva, mentre nel terzo ranking non

rientra neppure fra le prime cento. Questo perché, molto probabilmente, la media di teste verbali per frase tende a stabilizzarsi nel corso del secondo anno scolastico e, per tale ragione, la sua variazione risulta poco significativa ai fini dell’ultimo compito di classificazione.

Abbastanza prevedibile, invece, è l’aumento di importanza nell’ultimo ordine temporale delle caratteristiche linguistiche relative alle relazioni di dipendenza fra verbi ausiliari, sebbene ricoprano posizioni di rilievo anche negli altri due ranking esaminati.

Documenti correlati