La sintassi - Il monitoraggio linguistico

3.3 Il monitoraggio linguistico

3.3.3 La sintassi

Le restanti variabili linguistiche sono riconducibili all’insieme delle proprietà sintattiche delle produzioni scritte. La sintassi è un indice particolarmente indicativo del livello di complessità di un testo e, di conseguenza, può fornire un’importante stima dell’evoluzione delle capacità di scrittura. Inoltre, è anche la categoria che presenta il maggior numero di features: si passa dalle caratteristiche e dalle tipologie delle relazioni di dipendenza all’altezza massima degli alberi sintattici. Naturalmente, non tutte le variabili mostrano una variazione significativa nel passaggio fra il primo e il secondo anno. Per questo motivo, di seguito verranno discusse solamente le features sintattiche più rilevanti ai fini della nostra indagine.

In generale, la caratteristica più significativa, nel passaggio fra il primo e il secondo anno scolastico, riguarda la tendenza da parte degli studenti di scrivere temi con una struttura più canonica. Va in questa direzione ad esempio l’aumento dei complementi oggetto in posizione post-verbale e la conseguente diminuzione di quelli in posizione pre-verbale. Tale variazione fa inoltre ipo- tizzare ad un uso ridotto della dislocazione a sinistra, caratteristica tipica del parlato.

Per quanto riguarda invece la struttura delle dipendenze sintattiche, le dif- ferenze maggiori sono osservabili nelle features riguardanti la lunghezza delle relazioni, calcolata come la media delle distanze tra la testa e i dipendenti di una frase70_{, e l’altezza massima degli alberi sintattici, calcolata come il per-}

corso massimo fra la radice e una foglia di una proposizione (come illustrato nella seguente immagine).

Com’è possibile osservare nella Tabella 17, la media delle lunghezze delle relazioni sintattiche diminuisce nel corso del biennio. Si noti, però, che tale variazione è dovuta esclusivamente alla diminuzione dell’ampiezza delle relazioni nelle scuole di periferia. Per quanto riguarda infatti le scuole del centro, la lunghezza delle relazioni di dipendenza tende ad aumentare.

70_{Ad esempio, la lunghezza della relazione fra la radice rotto e l’avverbio quando della}

Figura 2: Esempio di frase con evidenziato il percorso massimo fra la radice (rotto) e una sua foglia (sei): ROOT→rotto→quando→avevo→anni→sei. In questo caso, l’altezza massima dell’albero sintattico è pari a 5.

La media delle altezze massime degli alberi sintattici, invece, presenta un in- cremento nel passaggio fra il primo e il secondo anno, a prescindere dall’area urbana di riferimento. Nonostante ciò, gli studenti delle scuole di periferia tendono a scrivere frasi con strutture sintattiche più profonde e articolate e, dunque, a produrre temi con un minor grado di ordinamento interno.

Area urbana Lunghezza delle relaz. di

dipendenza Altezza max. degli alberisintattici Centro I anno_{II anno} 2,37_2,42 6,05_6,20

Periferia I anno_{II anno} 2,55_2,47 6,69_6,84 Totale I anno_{II anno} 2,48_2,44 6,42_6,57

Tabella 17: Variazione di due proprietà sintattiche a seconda dell’area urbana e dell’anno scolastico.

Infine, confrontando le proprietà sintattiche con le variabili di sfondo, possiamo verificare alcune relazioni tra il livello di professionalità dei genitori, il loro titolo di studi e le caratteristiche relative alla quantità di relazioni sintattiche e alla lunghezza media delle relazioni di subordinazione. In generale, ad im- pieghi di alta professionalità corrisponde una percentuale maggiore di relazioni sintattiche e una lunghezza minore delle catene di subordinazione.

Il titolo di studio dei genitori, invece, presenta una relazione con la variabile che misura la quantità di relazioni sintattiche e, in particolare, con le relazioni di tipo “conjunct linked by a copulative conjunction”71_.

71_{Relazioni di dipendenza realizzate per mezzo di congiunzioni copulative (es. Gabriella}

4 Gli esperimenti

Come già descritto nei capitoli precedenti, l’utilizzo di tecniche automatiche per tracciare il processo di apprendimento e di evoluzione linguistica di apprendenti una L1 ha conosciuto, negli ultimi anni, una notevole crescita di interesse. Tale crescita ha permesso lo sviluppo di numerose metodologie, ognuna delle quali finalizzata ai rispettivi scopi o ambiti di ricerca. Gli esperimenti che verranno presi in esame nel seguente capitolo si basano sull’approccio metodo- logico già discusso nell’articolo di Stefan Richter et al.72 _{e testato sul corpus}

CItA. L’idea di base è che, dato un set di temi ordinati cronologicamente e scritti dallo stesso studente, un documento di dovrebbe presentare una forma

linguistica più evoluta rispetto ad uno scritto in precedenza. Seguendo questo approccio, è possibile trattare il monitoraggio dell’evoluzione delle competenze di scrittura come un problema di classificazione: dati due documenti di e dj

scritti dal medesimo studente, si vuole identificare se t(dj) > t(di), dove t(di)

indica il periodo scolastico in cui è stato scritto il tema.

In apprendimento automatico, un compito di classificazione può essere descrit- to come il problema di identificare a quale di una serie di categorie appartiene una nuova osservazione. Un sistema che si basa sul principio di classificazione viene definito classificatore73 _{ed è strutturato in due fasi principali: una fase}

di apprendimento, che sfrutta un training set per la costruzione di un modello statistico, e una fase di analisi, che utilizza il modello statistico per predire le categorie delle varie osservazioni. Un training set è una collezione di istanze definite come coppie di tipo (Evento E, Classe) e per le quali perciò è conosciu-

72_{Richter, Cimino, Dell’Orletta e Venturi, «Tracking the Evolution of Written Language}

Competence: an NLP–based Approach».

73_{Wikipedia, Voce Statistical Classification, https://en.wikipedia.org/wiki/}

ta la categoria di appartenenza. Ogni evento E è rappresentanto attraverso un vettore di proprietà quantificabili, denominate features.

In generale, i problemi di classificazione possono essere distinti in due categorie principali: classificazione binaria, dove il numero di categorie disponibili (e dunque da assegnare) è ristretto ad un intervallo di due elementi e classificazione multi-etichetta, dove le classi coinvolte sono più numerose. Per il compito di monitoraggio delle competenze di scrittura, è stato necessario predisporre un classificatore binario in grado di assegnare ad ogni coppia di documenti (di,

dj) due possibili classi: 1 nel caso in cui t(dj) > t(di), 0 altrimenti. Per fare

ciò, sono state utilizzate le features linguistiche estratte da ogni tema, tramite le quali è stato poi possibile costruire l’evento E da fornire al classificatore:

E = Vi+ Vj + (Vi− Vj)

Dove Vi e Vj corrispondono, rispettivamente, alle proprietà linguistiche del

primo e del secondo tema, e Vi − Vj rappresenta la differenza vettoriale tra

le features delle due prove. Naturalmente, ad ogni evento è stata associata la corrispettiva classe di appartenenza in fase di training: 0 nel caso in cui il vettore Vi corrisponde al tema scritto prima, 0 altrimenti.

Per lo sviluppo del classificatore, è stato deciso di utilizzare le macchine a vettori di supporto (Support Vector Machines o SVM ) come algoritmo di apprendimento. SVM è un modello di apprendimento supervisionato74 _{in grado}

di rappresentare vettori di proprietà quantificabili come punti di uno spazio e, successivamente, di suddividere la superficie di tale spazio in modo da poter determinare la categoria di appartenenza delle nuove instanze75_{. In altre pa-}

role, dato un insieme di esempi di addestramento (training set), ciascuno dei quali appartenenti ad una delle due categorie, un algoritmo basato su Support Vector Machines costruisce un modello che assegna nuovi esempi a una delle

74_{L’apprendimento supervisionato è una tecnica di apprendimento automatico che mira a}

istruire un sistema informatico sulla base di una serie di esempi di addestramento. Per ulteriori informazioni: Mehryar Mohri, Afshin Rostamizadeh, e Ameet Talwalkar. Foundations of machine learning. MIT press, 2012.

75_{Corinna Cortes e Vladimir Vapnik. «Support-vector networks». In: Machine learning}

due classi76_.

4.1 Definizione degli esperimenti: gli ordini tem-

porali

Prima di passare alla fase di classificazione vera e propria, è stato però necessario generare una serie di data set di eventi partendo dalle informazioni linguistiche estratte dal corpus CItA, in modo da predisporre diverse tipologie di esperimenti. È importante ricordare, infatti, che uno degli aspetti che contraddistingue maggiormente il corpus CItA riguarda la sua struttura dia- cronica e, conseguentemente, la possibilità di poter mettere a confronto coppie di temi appartenenti a più ordini temporali. Data una selezione di temi scritti, dunque, le possibili configurazioni degli eventi da fornire al classificatore sono assai numerose: si passa dal confronto fra tutti i temi prodotti nel corso dei due anni da ogni studente, al confronto delle sole prove comuni.

Affiché si potessero generare i diversi data set, le features linguistiche estratte dal corpus77 _{sono state raggruppate in due file Excel, uno per ogni anno scola-}

stico, e ordinate per tema. In particolare, ogni riga dei due file è composta dal codice identificativo della prova78 _{e dal set di proprietà linguistiche associate,}

come illustrato in Figura 3.

Una volta creati i file Excel, è stato possibile sviluppare una serie di script in linguaggio python79 _{per generare gli eventi da fornire al classificatore.}

Per i nostri esperimenti, sono stati generati data set in grado di ricoprire dieci diversi intervalli temporali. Nello specifico, ogni singolo codice è stato

76_{Wikipedia, Voce Support Vector Machines, https://en.wikipedia.org/wiki/}

Support_vector_machine (visitato il 21/01/2017).

77_{Si tratta delle proprietà linguistiche già descritte nella sezione relativa al monitoraggio}

linguistico. Cfr. 3.3 Il monitoraggio linguistico.

78_{Indice numerico composto da 5 numeri, ognuno dei quali rappresenta: la scuola di}

appartenenza, la prova svolta durante l’anno, la tipologia di tema e lo studente.

79_{Linguaggio di programmazione di alto livello e orientato agli oggetti. Per ulteriori}

Figura 3: Struttura del file excel per i primi 10 temi e le prime 5 features. sviluppato con l’intenzione di combinare il vettore di eventi E concatenando fra di loro coppie di temi scritti a distanze temporali differenti.

È importante evidenziare che, ad ognuno di questi intervalli, corrisponde una precisa ipotesi sull’evoluzione delle compentenze di scrittura e, di conseguenza, sulle possibili prestazioni del classificatore. Ad esempio, è stato ipotizzato che nel confronto fra due prove prodotte a distanza di un mese, il classificatore avrebbe potuto riscontrare delle difficoltà nell’identificazione del tema scritto prima. Perciò, oltre a fornire un campionario esaustivo di esperimenti, i vari ordini temporali presi in considerazione sono stati sviluppati anche con l’intenzione di confermare o smentire, in fase di classificazione, eventuali ipotesi sul processo di evoluzione linguistica.

Per poter determinare gli ordini temporali, nei diversi script sono state sfrut- tate principalmente le informazioni contenute nei codici delle singole prove. Difatti, una volta stabilito l’ordine temporale più ampio80_{, per concatenare i}

temi prodotti ad una determinata distanza, è bastato predisporre una serie di comandi in python in grado di confrontare i diversi codici e di stabilire l’intervallo temporale fra di essi81_.

I dieci intervalli temporali presi in considerazione per i nostri esperimenti han- no permesso, dunque, di generare una serie di corpora in grado di confrontare, per ogni alunno: tutte le prove realizzate nel corso dei due anni (a prescindere

80_{Si tratta della distinzione fra prove prodotte nell’arco del singolo anno o del biennio.}

Tale distinzione si può esprimere al momento dell’escuzione degli script, utilizzando come input un unico file Excel (singolo anno) o entrambi i file (biennio).

81_{Ad esempio, per mettere a confronto due prove scritte a distanza di un mese, basterà}

dall’ordine temporale), le prove comuni, le prove del primo anno con quelle del secondo (con e senza prove comuni), le prove realizzate a distanza di un anno (es. la prima prova del primo anno con la prima del secondo, ecc.), le prove realizzate con distanza minima una tra l’altra82_{, il primo tema con il}

penultimo (nel singolo anno e nel biennio) e, infine, il primo tema con la prova comune (nel singolo anno e nel biennio). La Tabella 18 permette di confrontare gli ordini di grandezza dei training e dei test set per i diversi compiti di classificazione, così come sono stati elencati.

Ordine temporale Training Set Test Set Prove a distanza = 1 1087,85 181,14 Ia _{prova - penultima prova (singolo anno)} _498,14 _82,85

Io _{anno - II}o _{anno (senza prove comuni)} ₃₃₀₁ ₅₅₀

Prove a distanza di un anno 527 87,71 Ia _{prova - penultima prova (biennio)} ₂₅₃ ₄₂

Ia _{prova - prova comune (singolo anno)} ₄₂₆ _70,85

Io _{anno - II}o _{anno (con prove comuni)} _4999,85 _833,14

Prove comuni 145 24

Ia _{prova - prova comune (biennio)} _198,14 _32,85

Tutte le prove 13814,71 2302,28 Tabella 18: Medie degli eventi dei training e dei test set per i diversi ordini temporali.

Osservando i dati, possiamo facilmente notare che il training set contenente il maggior numero di record è quello che riguarda il primo compito di classificazione, ovvero il confronto fra tutti i temi prodotti da un dato studente. Il corpus che presenta il minor numero di eventi, invece, è quello che associa fra di loro le prove comuni. Questo perché, oltre ad esistere una sola prova comune per anno, l’ampio arco temporale non garantisce che un dato studente fosse presente alla realizzazione di entrambe le prove.

Naturalmente, la quantità di record a nostra disposizione diminuisce notevol- mente quando ci spostiamo alla fase di testing. I test set, infatti, sono composti esclusivamente dagli eventi di una singola scuola che, come è possibile osservare, può raggiungere una media massima di 2302,28 record nel compito di classificazione più numeroso.

82_{Ovvero le prove realizzate con distanza uguale ad 1 (prima con seconda, seconda con}

Nel documento Definizione di modelli computazionali per lo studio dell'evoluzione delle abilità di scrittura a partire da un corpus di produzioni scritte di apprendenti della scuola secondaria di primo grado (pagine 41-48)