Definizione di modelli computazionali per lo studio dell'evoluzione delle abilità di scrittura a partire da un corpus di produzioni scritte di apprendenti della scuola secondaria di primo grado

(1)

Dipartimento di Filologia, Letteratura e

Linguistica

Corso di laurea in Informatica Umanistica

Tesi di laurea

Definizione di modelli computazionali per lo studio dell’evoluzione

delle abilità di scrittura a partire da un corpus di produzioni scritte

di apprendenti della scuola secondaria di primo grado

Candidato

Alessio Miaschi

Relatore

Felice Dell’Orletta

Controrelatore

Mirko Tavosanis

Anno Accademico 2015/2016

(2)

Indice

1 Introduzione 3

2 Lo stato dell’arte 7

2.1 Gli studi correlati . . . 7

2.1.1 I corpora . . . 18

2.2 Prime indagini sul monitoraggio delle competenze di scrittura per la lingua italiana . . . 22

3 Il corpus e il monitoraggio linguistico 26 3.1 Il corpus CItA . . . 27

3.1.1 La struttura del corpus . . . 28

3.2 L’annotazione degli errori . . . 30

3.2.1 La distribuzione degli errori . . . 32

3.3 Il monitoraggio linguistico . . . 34

3.3.1 Il lessico . . . 36

3.3.2 La morfosintassi . . . 37

3.3.3 La sintassi . . . 40

4 Gli esperimenti 42 4.1 Definizione degli esperimenti: gli ordini temporali . . . 44

4.1.1 I Data Set . . . 47

4.2 Il classificatore . . . 49

4.3 Le misure di valutazione . . . 51

4.4 Gli esperimenti . . . 52

(3)

4.4.2 La seconda fase di esperimenti: aggiunta delle

caratteri-stiche sulla complessità lessicale . . . 55

4.4.3 Gli ultimi esperimenti: aggiunta delle informazioni estratte dall’annotazione degli errori . . . 62

5 L’indagine qualitativa 67 5.1 La feature selection . . . 68

5.1.1 I nuovi esperimenti . . . 71

5.1.2 L’analisi delle features . . . 74

5.2 Apprendimento e variabili di sfondo . . . 77

5.2.1 Calcolo delle confidenze e dei sottoinsiemi di studenti . . . 78

5.2.2 L’analisi dei risultati . . . 81

6 Conclusioni 85

Appendice A 89

Appendice B 100

(4)

1 Introduzione

L’uso di tecnologie del linguaggio per lo studio dei processi di apprendimento e, in particolare, per la realizzazione dei cosiddetti Intelligent Computer-Assisted Language Learning systems (ICALL) ha visto una notevole crescita negli ulti-mi dieci anni. Oggi, difatti, numerose ricerche interdisciplinari sono impiegate nello sviluppo di strumenti e metodologie che, sfruttando tecnologie di annota-zione automatica e di estraannota-zione della conoscenza, possano essere utilizzate nel contesto educativo e scolastico. Tali ricerche hanno permesso di aprire nuovi orizzonti di studio, buona parte dei quali finalizzati alla realizzazione di sistemi in grado di svolgere attività relative all’ambito della didattica el monitorag-gio delle competenze linguistiche degli studenti. Si pensi, a questo proposito, a strumenti in grado di valutare automaticamente le produzioni scritte o di correggere gli errori, a metodologie che permettono di studiare l’evoluzione individuale della abilità linguistiche o, più in generale, a sistemi di supporto all’insegnamento.

Le indagini e le metodologie che verranno discusse nella presente relazione rientrano a pieno titolo in questo contesto di ricerca, poiché si riferiscono ad uno studio tutt’ora in corso finalizzato a descrivere l’evoluzione delle abilità di scrittura, sia a livello della forma linguistica sia del contenuto, di apprendenti la propria lingua materna (L1). Tale ricerca è il frutto di una collaborazio-ne tra l’ItaliaNLP Lab1 _{dell’Istituto di Linguistica Computazionale “Antonio}

Zampolli”2 _{del CNR di Pisa (ILC-CNR) e il Dipartimento di Psicologia dei}

processi di Sviluppo e socializzazione dell’Università di Roma “La Sapienza”3

1_{http://www.italianlp.it}_{(visitato il 22/03/2017).} 2_{http://www.ilc.cnr.it}_{(visitato il 22/03/2017).}

(5)

e rappresenta il primo studio finalizzato al monitoraggio dell’evoluzione del processo di apprendimento linguistico della lingua italiana condotto a parti-re dalle produzioni scritte dagli studenti e con strumenti di annotazione lin-guistica automatica e di estrazione di conoscenza. Fino ad oggi, infatti, le principali ricerche a livello internazionale che si sono basate sull’uso di tecno-logie linguistico-computazionali per monitorare l’evoluzione del linguaggio di apprendenti una lingua materna si sono concentrate principalmente sull’anali-si di trascrizioni orali infantili. Al contrario, chi sull’anali-si è occupato dell’evoluzione delle abilità di scrittura lo ha fatto a partire non da produzioni di madrelingua bensì da testi realizzati da apprendenti una lingua straniera.

In particolare, a partire da un corpus composto da 1352 temi raccolti in un intervallo temporale che va dal primo al secondo anno di scuole secondaria di primo grado (corpus CItA), nella presente relazione verrà proposto un metodo innovativo in grado di intercettare l’evoluzione delle competenze di scrittura de-gli studenti italiani a partire da diversi compiti di classificazione probabilistica. Questo sistema parte dal presupposto che se uno strumento di classificazione è in grado di determinare, sulla base di una serie di proprietà linguistiche prece-dentemente estratte, l’ordine cronologico di scrittura di due temi da parte di un dato studente, allora tale sistema sarà in grado di intercettare anche il processo di apprendimento dell’alunno. Da questa prospettiva, la metodologia messa a punto non dovrà essere vista dunque come un task di identificazione dell’ordine di scrittura fine a se stesso, ma piuttosto come uno studio sull’identificazione di quali caratteristiche lessicali, morfosintattiche e sintattiche permettono di studiare e individuare i processi di apprendimento e di evoluzione delle com-petenze di scrittura degli studenti. Come avremo modo di vedere, i risultati ottenuti ci permetteranno di confermare l’efficienza di tale sistema e ci con-sentiranno di individuare alcune proprietà fondamentali relative al processo di apprendimento linguistico. Ad esempio, potremo osservare che maggiore è l’intervallo temporale fra due temi e più alta sarà la possibilità di identificare tramite le caratteristiche linguistiche estratte quale dei due sia stato scritta prima. Inoltre, vedremo che con l’aggiunta di ulteriori informazioni linguisti-che, quali le caratteristiche relative alla complessità lessicale e all’annotazione degli errori, si possono ottenere risultati migliori, permettendoci di confermare

(6)

che tali proprietà sono buoni indicatori dei processi di apprendimento.

In aggiunta, a partire dai risultati ottenuti negli esperimenti effettuati verrà condotta un’indagine qualitativa per studiare l’impatto delle singole caratteri-stiche linguicaratteri-stiche prese in esame nei diversi intervalli temporali di classificazio-ne. Successivamente, verrà verificato se esistono delle correlazioni significative fra i processi di apprendimento degli studenti e alcune proprietà di sfondo, come ad esempio il contesto ambientale e socio-culturale di riferimento o la lingua materna dei genitori.

La presente relazione si apre con un capitolo relativo allo stato dell’arte, in cui verranno discussi i principali studi relativi ai processi di apprendimento ef-fettuati negli ultimi anni, sia nel contesto di ricerca internazionale sia in quello italiano.

Nel terzo capitolo verrà illustrata la struttura interna del corpus di produzioni scritte raccolte grazie alla collaborazione fra l’ILC-CNR e “La Sapienza” di Ro-ma, prestando particolare attenzione alle variabili di sfondo e alla componente socio-culturale di riferimento. Successivamente, verranno presentati i primi risultati ottenuti a seguito della fase di annotazione linguistica automatica e di estrazione di conoscenza, in modo da fornire una prima panoramica sui pro-cessi di apprendimento e sul profilo linguistico degli studenti.

Il quarto capitolo sarà invece dedicato agli esperimenti relativi al monitoraggio automatico dell’evoluzione delle competenze di scrittura. Per prima cosa, ver-ranno definiti gli ordini temporali, i data set da utilizzare in fase di training e test e la tecnologia utilizzzata per lo sviluppo del classificatore probabilistico. In seguito, verranno riportati e commentati i risultati ottenuti a seguito di tre diverse fasi di esperimenti: classificazione con le caratteristiche estratte a seguito dell’analisi linguistica automatica e classificazione con l’aggiunta del-le proprietà relative alla compdel-lessità del-lessicadel-le (seconda fase) e all’annotazione degli errori (terza fase).

Infine, nel quinto ed ultimo capitolo della tesi ci si focalizzerà sui procedimen-ti e sui risultaprocedimen-ti dell’indagine qualitaprocedimen-tiva. Come già accennato, verificheremo l’impatto delle singole caratteristiche linguistiche estratte attraverso un pro-cesso chiamato feature selection, che permette di valutare la rilevanza di ogni

(7)

variabile in un processo di classificazione. In seguito, andremo a osservare se esistano delle relazioni significative tra gli insiemi di studenti per i quali il clas-sificatore è più o meno sicuro nel determinare l’ordine di scrittura delle coppie di temi e alcune variabili di sfondo.

(8)

2 Lo stato dell’arte

Al fine di fornire una panoramica sullo stato dell’arte e contestualizzare al meglio la nostra attività di ricerca, nel presente capitolo verranno discussi i principali lavori relativi allo studio dell’evoluzione dell’apprendimento di una lingua materna o secondaria effettuati negli ultimi anni, prestando particola-re attenzione alle metodologie sviluppate, ai corpora utilizzati per le ricerche e ai risultati ottenuti. Successivamente, verranno prese in considerazione le prime indagini finalizzate allo studio delle competenze di scrittura di studenti italiani e al relativo monitoraggio linguistico, le più recenti delle quali sono state realizzate grazie alla collaborazione fra l’Istituto di Linguistica Compu-tazionale “Antonio Zampolli” del CNR di Pisa (ILC-CNR) e il Dipartimento di Psicologia dei processi di Sviluppo e socializzazione dell’Università di Roma “La Sapienza”.

2.1 Gli studi correlati

Nel contesto degli studi sui processi di apprendimento basati sull’utilizzo di strumenti linguistico-computazionali, due sono le principali linee di ricerca: analisi sull’evoluzione della conoscenza e monitoraggio della forma linguistica. Per quanto riguarda le ricerche relative all’evoluzione della conoscenza, uno dei principali approcci metodologici riguarda tutte quelle pubblicazioni relati-ve al knowledge tracing (monitoraggio della conoscenza), ovrelati-vero al processo di monitoraggio tramite il quale poter seguire lo studente durante il processo di apprendimento. Il knowledge tracing è un metodo che affonda le sue radici in alcune ricerche effettuate più di vent’anni fa. In particolare, Albert T.

(9)

Cor-bett e John R. Anderson (1994)4 _{hanno proposto uno studio di monitoraggio}

della conoscenza a partire dall’utilizzo di strumenti in grado di controllare e aiutare gli studenti nella scrittura di brevi programmi informatici, come l’ACT Programming Tutor (APT). L’APT non è altro che un ambiente pratico nel quale gli studenti possono imparare a scrivere brevi script in alcuni linguaggi di programmazioni, quali Lisp, Prolog e Pascal, e ricevere un supporto automa-tico durante la scrittura. In questo caso, il knowledge tracing è stato inserito con l’intezione di tracciare l’apprendimento dello studente e la sua capacità di assimilare e utilizzare determinate regole di programmazione (inserimento di funzioni, dichiarazioni di variabili, ecc.). Nello specifico, A. Corbett e J. Anderson hanno deciso di strutturare il processo di monitoraggio attraverso un modello di apprendimento a due stati, basato sulla probabilità che una de-terminata regola venga appresa o meno da un dato studente.

Nonostante questo studio faccia riferimento a processi di apprendimento lon-tani da quelli delle competenze linguistiche, ha rappresentato comunque un forte stimolo per le ricerche future, alcune delle quali si sono anche focalizzate sull’apprendimento del linguaggio.

Il knowledge tracing è alla base anche dello studio effettuato da Chris Piech et al. (2015)5_{, in cui viene proposto un metodo di monitoraggio}

dell’appren-dimento scolastico basato su reti neurali ricorsive (Recurrent neural network, RNN). Le reti neurali sono modelli matematici/informatici di calcolo ispirati dalle reti neurali biologiche. In particolare, le RNN sono caratterizzate da una propagazione ricorsiva delle informazioni, poiché i neuroni artificiali che le compongono si evolvono sulla base sia dell’input fornito al sistema sia delle loro attivazioni precedenti6_.

Il modello di knowledge tracing sviluppato da C. Piech et al., e denominato

4_{Albert T. Corbett e John R. Anderson. «Knowledge tracing: Modeling the}

acquisi-tion of procedural knowledge». In: User modeling and user-adapted interacacquisi-tion 4.4 (1994), pp. 253–278.

5_{Chris Piech, Jonathan Bassen, Jonathan Huang, Surya Ganguli, Mehran Sahami,}

Leo-nidas J. Guibas e Jascha Sohl-Dickstein. «Deep knowledge tracing». In: Advances in Neural Information Processing Systems. 2015, pp. 505–513.

6_{Ronald J. Williams e David Zipser. «A learning algorithm for continually running fully}

(10)

Deep Knowledge Tracing (DKT ), si basa sulla possibilità di prevedere le pre-stazioni future di uno studente in riferimento alla sua attività passata. Per la sua valutazione, sono stati effettuati alcuni esperimenti a partire da una selezione di tre data set contenenti esercizi svolti. I risultati ottenuti hanno permesso di confermare la potenzialità di questo approccio, mostrando come DKT sia in grado di prevedere le future risposte degli studenti ai vari esercizi con un alto grado di precisione.

Un ulteriore approccio metodologico basato sul principio del knowledge tra-cing è discusso all’interno dell’articolo di Chaitanya Ekanadham e Yan Karklin (2017)7_{, dove viene proposto un nuovo strumento di monitoraggio}

dell’appren-dimento basato sul principio della Item Response Theory (IRT ). La IRT è un paradigma, teorizzato per la prima volta da Lord (1980)8 _{e Rasch (1993)}9_{, per}

modellare risposte binarie di studenti sulla base di alcune valutazioni. In par-ticolare, nella IRT la probabilità che uno studente s risponda correttamente ad una valutazione q è data da:

psq= f (αq(θs− βq))

Dove θs rappresenta la competenza del dato studente, βq è la difficoltà della

valutazione e αq corrisponde a quel valore che determina quanto il grado di

sensibilità della probabilità di correttezza influisca sulla competenza dell’alun-no in questione.

Il sistema sviluppato da C. Ekanadham e Y. Karklin, denominato T-SKIRT, è stato valutato su un data set composto da più di un milione di risposte for-nite da alcuni studenti in merito a diversi esercizi educativi (alcuni dei quali riguardanti l’apprendimento della lingua inglese). I risultati di quest’analisi hanno permesso di dimostrare che tale sistema è in grado di fornire previsioni

7_{Chaitanya Ekanadham e Yan Karklin.} _«T-skirt: _{Online estimation of student}

proficiency in an adaptive learning system». In: arXiv preprint arXiv:1702.04282 (2017).

8_{Frederic M. Lord. Applications of item response theory to practical testing problems.}

Routledge, 1980.

9_{Georg Rasch. «Studies in mathematical psychology: I. Probabilistic models for some}

(11)

superiori rispetto a quelle ottenute con modelli standard di IRT. In particolare, T-SKIRT raggiunge un livello di accuratezza di 0,7478, rispetto allo 0,7201 e allo 0,7420 degli altri sistemi.

Per quanto riguarda, invece, gli studi relativi all’evoluzione della forma lingui-stica, uno dei contesti di ricerca più importanti è sicuramente rappresentato da tutte quelle indagini finalizzate alla valutazione automatica delle produzioni scritte e allo sviluppo dei cosiddetti sistemi di Automated essay scoring (AES). L’AES può essere definita come l’insieme dei programmi informatici specializ-zati nell’assegnazione di valutazioni numeriche a testi prodotti in un contesto educativo. In particolare, l’obiettivo degli AES systems è quello di classificare grandi insiemi di documenti in un numero ristretto di categorie discrete, cor-rispondenti ai possibili gradi di valutazione delle produzioni scritte10_.

In questo contesto di ricerca, uno dei sistemi più avanzati è rappresentato da e-rater11, uno strumento di valutazione automatica delle produzioni scritte per la lingua inglese basato su sistemi di NLP e in grado di fornire anche un profilo diagnostico tramite il quale poter rintracciare le principali lacune grammati-cali, stilistiche e organizzative. L’attuale versione di e-rater, così come viene descritta in Y. Attali e J. Burstein (2006)12_{, si basa su una selezione di dieci}

features linguistiche relative alle competenze di scrittura per restituire il grado di valutazione delle produzioni scritte. In particolare, le caratteristiche uti-lizzate sono riconducibli a quattro sottoinsiemi: grammatica, errori e utilizzo delle strutture linguistiche (quattro features), organizzazione e sviluppo (due features), complessità lessicale (due features) e utilizzo del vocabolario speci-fico (due features).

Per fornire una stima dell’efficienza di e-rater, Attali e Burstein (2006) hanno inoltre proposto un confronto fra la valutazione manuale di una selezione di produzioni scritte raccolte sul web e quella automatica, arrivando alla conclu-sione che i due metodi di valutazione tendono a raggiungere risultati simili e

10_{Wikipedia, Voce Automated essay scoring, https://en.wikipedia.org/wiki/}

Automated_essay_scoring (visitato il 2/03/2017).

11_{https://www.ets.org/erater/about}_{(visitato il 2/03/2017).}

12_{Yigal Attali e Jill Burstein. «Automated essay scoring with e-rater}® _{V. 2». In: The}

(12)

a misurare le stesse compentenze.

Uno degli studi più interessanti, tra quelli relativi all’utilizzo di e-rater, è stato condotto da Paul Deane (2014)13 _{e riguarda la possibilità di determinare}

quanta informazione sulle competenze di scrittura può essere rintracciata ana-lizzando le features linguistiche estratte a seguito di una fase di valutazione automatica. In particolare, e-rater è stato utilizzato per estrarre una serie di product feautres (proprietà misurabili del testo scritto) da una selezione di test di scrittura (comprensioni del testo, stesura di temi) e di lettura realizzati da un campione di 3592 studenti provenienti da diverse scuole degli Stati Uniti. Tali caratteristiche sono state poi sottoposte ad una fase di Exploratory factor analysis (EFA)14, che ha permesso di individuare tre sottoinsiemi di variabi-li variabi-linguistiche fortemente correlate tra di loro: fluency features, composto da proprietà in grado di determinare la capacità dello studente nello scrivere te-sti elaborati e completi dal punto di vista grammaticale e lessicale, accuracy features, composto da variabili che misurano il rapporto fra la ricchezza del vocabolario e la presenza di eventuali errori, e content features, composto da caratteristiche che indicano se il vocabolario utilizzato è coerente con quello adoperato dagli altri studenti.

Attraverso un’analisi di regressione15_{, è stato dimostrato che i tre sottoinsiemi}

presentano una relazione funzionale non solo con le valutazioni manuali delle produzioni scritte, ma anche con quelle assegnate ai test di lettura, suggerendo dunque che buona parte delle proprietà linguistiche estratte con e-rater sono in grado di rintracciare informazioni relative sia alle competenze di scrittura sia a quelle di lettura.

13_{Paul Deane. «Using writing process and product features to assess writing quality and}

explore how those features relate to other literacy tasks». In: ETS Research Report Series 2014.1 (2014), pp. 1–23.

14_{In statistica multivariata, l’Exploratory factor analysus è un metodo statistico utilizzato}

per individuare la struttura sottostante di un insieme di variabili. Per ulteriori informazio-ni: Wikipedia, Voce Exploratory factor analysis, https://en.wikipedia.org/wiki/ Exploratory_factor_analysis(visitato il 3/03/2017).

15_{L’analisi della regressione è una tecnica usata per stimare una eventuale relazione}

fun-zionale esistente tra la variabile dipendente e le variabili indipendenti. Per ulteriori informa-zioni: Wikipedia, Voce Analisi della regressione, https://it.wikipedia.org/wiki/ Analisi_della_regressione(visitato il 3/03/2017).

(13)

La valutazione delle produzioni scritte è al centro anche dello studio effettuato da McNamara Danielle S. et al. (2009)16_{, dove un corpus di testi valutato sulla}

base di uno scoring manuale è stato analizzato tramite strumenti linguistico-computazionali in modo da intercettare le differenze fra i temi valutati in modo particolarmente positivo da quelli valutati negativamente. L’assunto fonda-mentale di tale ricerca è che gli studenti con maggiori competenze realizzano produzioni con strutture sintattiche più complesse e utilizzano parole meno frequenti rispetto agli altri colleghi. Per fare ciò, McNamara et al. si sono serviti di Coh-Metrix17_{, un tool di analisi automatica in grado di identificare}

più di duecento misure relative alla coesione, alle caratteristiche linguistiche e alle leggibilità di testi18_.

Lo studio è stato suddiviso in due fasi principali: un’analisi discriminante per verificare quali proprietà estratte con Coh-Metrix sono in grado di distinguere maggiormente fra temi valutati positivamente e negativamente, e un’analisi di regressione per determinare se esite una correlazione fra tali variabili e le valutazioni manuali delle produzioni scritte.

L’analisi discriminante, effettuata a partire dalle caratteristiche linguistiche estratte con Coh-Metrix da un training set contenente 80 dei 120 temi presenti nel corpus delle ricerca, ha permesso di identificare tre variabili che presentano una notevole differenza di valori fra i temi ad alta e bassa professionalità (high e low proficiency): la complessità lessicale, in particolare il numero di parole in posizione pre-verbale, la varietà lessicale, misurata in termini di MTLD19 _e

la frequenza delle parole.

16_{Danielle S. McNamara, Scott A. Crossley e Philip M. McCarthy. «Linguistic features}

of writing quality». In: Written Communication (2009).

17_{http://cohmetrix.com}_{(visitato il 4/03/2017).}

18_{Arthur C. Graesser, Danielle S. McNamara, Max M. Louwerse e Zhiqiang Cai.}

«Coh-Metrix: Analysis of text on cohesion and language». In: Behavior research methods, instruments, & computers 36.2 (2004), pp. 193–202.

19_{La MTLD (Measure of Textual Lexical Diversity) è una misura della varietà lessicale,}

calcolata come la lunghezza media di stringhe di parole che mantengono un certo livello di variazione lessicale. Per ulteriori informazioni: Philip M. McCarthy. «An assessment of the range and usefulness of lexical diversity measures and the potential of the measure of textual, lexical diversity (MTLD)». in: Dissertation Abstracts International 66 (2005), p. 12.

(14)

Variabili Bassa professionalità Alta professionalità Complessità lessicale 4,06 4,89

Varietà lessicale 72,64 78,71 Frequenza delle parole 3,17 3,13

Tabella 1: Distribuzione delle tre variabili linguistiche che presentano la maggiore variazione fra fra temi ad alta e bassa professionalità.

In fase di testing, inoltre, il modello generato dall’analisi sul training set ha permesso di discriminare fra i due livelli delle produzioni scritte con un 67% di accuratezza.

L’analisi di regressione, invece, ha permesso di evidenziare che le tre proprie-tà linguistiche selezionate presentano una forte correlazione con le valutazioni manuali delle produzioni scritte. Nello specifico, i temi che sono stati valu-tati positivamente sono caratterizzati da una maggiore varietà lessicale e da strutture sintattiche più complesse. In altre parole, studenti con maggiori com-petenze utilizzano un linguaggio più sofisticato e, per tale ragione, più difficile da comprendere, soprattuto per i colleghi meno qualificati.

Maggiormente affini al nostro ambito di ricerca, poiché sfruttano metodolo-gie basate su un’analisi più profonda del dato linguistico, sono tutti quegli studi incentrati sullo sviluppo di sistemi in grado di intercettare e descrive-re l’evoluzione delle competenze linguistiche di appdescrive-rendenti L1 in età scoladescrive-re o prescolare. In quest’ambito, il ruolo più importante è stato svolto princi-palmente da ricerche che hanno proposto nuove metriche e indici in grado di intercettare il progresso nelle competenze linguistiche (lessicali, morfosintatti-che e sintattimorfosintatti-che).

Un’indagine particolarmente interessante ai fini di quest’ambito di ricerca è stata proposta nell’articolo di Kenji Sagae et al. (2005)20_{, dove viene illustrato}

un nuovo metodo per la misurazione automatica dello sviluppo sintattico di apprendenti L1, basato sull’utilizzo della Index of Productive Syntax (IPSyn).

20_{Kenji Sagae, Alon Lavie e Brian MacWhinney. «Automatic measurement of syntactic}

development in child language». In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics. 2005, pp. 197– 204.

(15)

La IPSyn (Scarborough, 199021_{) è una misura in grado di valutare e}

quanti-ficare la complessità grammaticale di un campione di produzioni linguistiche spontanee di apprendenti L1. È stata sviluppata con l’intenzione di superare i limiti intrinseci di un’altra importante misura per la complessità sintattica, la Mean length of utterance (MLU )22. Secondo alcuni studiosi23, infatti, dopo i tre anni di età, la MLU non sarebbe più in grado di distinguere correttamente i diversi livelli di competenza sintattica.

Per calcolare la IPSyn è richiesto un corpus di 100 enunciati spontanei trascrit-ti e l’individuazione manuale di 56 strutture linguistrascrit-tiche specifiche per ognuno di essi. Ciascuna di queste strutture linguistiche è riconducibile a quattro sot-toinsiemi specifici (sintagmi nominali, sintagmi verbali, domande e negazioni, struttura della frase) e può ricevere tre diversi punteggi: 0 nel caso in cui tale struttura non sia presente all’interno dell’enunciato, 1 nel caso sia presente una sola volta e 2 nel caso sia presente due o più volte.

Al fine di automatizzare il calcolo della IPSyn, K. Sagae et al. hanno deciso, per prima cosa, di utilizzare uno strumento di parsing in grado di annota-re sintatticamente un corpus contenente trascrizioni di bambini appannota-rendenti L1. In particolare, il sistema sviluppato si basa sullo schema di annotazione CHILDES (CHILDES syntactic annotation scheme)24_{, progettato}

specificata-mente per le trascrizioni di dialoghi tra figli e genitori ma adatto anche per l’identificazione delle strutture sintattiche necessarie per il calcolo dell’indice di complessità grammaticale. Difatti, una volta conclusasi la fase di parsing, l’annotazione ottenuta ha permesso di automatizzare il calcolo della IPSyn, favorendo la ricerca delle 56 strutture grammaticali all’interno dei vari

enun-21_{Hollis S. Scarborough. «Index of productive syntax». In: Applied psycholinguistics}

11.01 (1990), pp. 1–22.

22_{La MLU viene tradizionalmente calcolata identificando cento enunciati e dividendo}

il numero totale dei morfemi individuati per il numero totale degli enunciati. Per ulteriori informazioni: Dorothy VM Bishop e Catherine Adams. «A prospective study of the relation-ship between specific language impairment, phonological disorders and reading retardation». In: Journal of Child Psychology and Psychiatry 31.7 (1990), pp. 1027–1050

23_{Thomas Klee e Martha Deitz Fitzgerald. «The relation between grammatical}

develo-pment and mean length of utterance in morphemes». In: Journal of Child Language 12.02 (1985), pp. 251–269.

24_{Kenji Sagae, Brian MacWhinney e Alon Lavie. «Adding Syntactic Annotations to}

(16)

ciati.

I risultati ottenuti a seguito del calcolo automatico della IPSyn sono stati poi messi a confronto con quelli eseguiti manualmente e con quelli ottenuti a seguito di un’altra annotazione automatica, ottenuta tramite il software Com-puterized Profiling (CP)25. Com’è possibile osservare dalla tabella, il sistema definito da K. Sagae et al. ottiene risultati migliori se paragonati a quelli ot-tenuti con il software CP. Inoltre, la variazione fra i punteggi di annotazione automatica basata su CHILDES syntactic annotation scheme (GR) e quelli manuali è tale da garantire un’affidabilità del sistema di circa 92,8% (rispetto all’85,4% ottenuto con CP).

Sistema Diff. con annotazione umana Affidabilità

GR 3,3 92,8%

CP 8,3 85,4%

Tabella 2: Risultati ottenuti dai due sistemi per il calcolo della IPSyn GR e CP sul corpus di trascrizioni di bambini appredenti L1.

Un importante passo in avanti negli studi relativi al monitoraggio dell’evolu-zione delle competenze linguistiche ci viene fornito dall’articolo di Shannon Lubetich e Kenji Sagae (2014)26_{, dove viene proposto un metodo per la}

misu-razione dello sviluppo linguistico di apprendenti L1 senza far ricorso a inventa-ri grammaticali e indici di complessità sintattica, ma solo grazie all’utilizzo di una selezione di features linguistiche estratte automaticamente dai corpora. In particolare, data una selezione di trascrizioni linguistiche di bambini, è stato costruito un modello di regressione, basato sul sistema di apprendimento au-tomatico SVM Light27_{, in grado di prevedere il valore di IPSyn di ogni}

trascri-zione sulla base di un vettore di caratteristiche linguistiche estratte a seguito di una fase di parsing morfosintattico e sintattico. Le features utilizzate per la realizzazione del modello sono riconducibili a quattro categorie differenti: ca-tegorie morfosintattiche (Part-Of-Speech tags), relazioni grammaticali, coppie

25_{CP è uno strumento di parsing automatico che include il calcolo semi-automatizzato}

della IPSyn. Per ulteriori informazioni: Steven H. Long e Ron W. Channell. «Accuracy of four language analysis procedures performed automatically». In: American Journal of Speech-Language Pathology 10.2 (2001), pp. 180–188.

26_{Shannon Lubetich e Kenji Sagae.} _{«Data-driven Measurement of Child Language}

Development with Simple Syntactic Templates.» In: COLING. 2014, pp. 2151–2160.

(17)

morfosintattiche testa-dipendente e relazioni testa-dipendente. Per condurre gli esperimenti, le trascrizioni raccolte sono state divise in training e test set e, ad ogni vettore di features, è stato associato il valore di IPSyn precedente-mente individuato in maniera automatica.

I risultati ottenuti mostrano una variazione di circa 4,2 punti rispetto a quelli ottenuti utilizzando il metodo definito in K. Sagae et al. (2005) e di circa 5,4 punti rispetto a quelli ricavati a seguito del calcolo manuale. Ciò ha permesso di confermare, dunque, che caratteristiche linguistiche estratte a seguito di una fase di parsing sono in grado di tracciare lo sviluppo linguistico di apprendenti L1 con la stessa efficacia dei sistemi più complessi. A riprova ciò, il modello sviluppato da S. Lubetich e K. Sagae è stato utilizzato anche per predire l’e-tà di tre bambini sulla base delle loro produzioni linguistiche. Come si può osservare dalla tabella seguente, l’errore medio nell’identificazione dell’età di ognuno dei tre bambini è particolarmente basso, mentre la correlazione tra l’e-tà attuale e quella predetta dal modello è molto alta28_{. Questa è un’ulteriore}

dimostrazione della possibilità di tracciare il processo di evoluzione linguistica tramite una selezione di features grammaticali precedentemente estratte dai data set di riferimento.

Bambino (Corpus) Errore Correlazione Adam (Brown) 2,5 0,93 Ross (MacWhinney) 3,7 0,84 Naomi (Sachs) 3,1 0,91

Tabella 3: Risultati del modello di regressione utilizzato per il task di previsione dell’età (age prediction).

Un approccio simile a quello proposto da S. Lubetich e K. Sagae lo possiamo ritrovare nella ricerca effettuata da Sam Sahakian e Benjamin Snyder (2012)29_,

in cui una selezione di features linguistiche automaticamente estratte da

tra-28_{La correlazione è stata calcolata tramite l’indice di correlazione di Pearson. Date due}

variabili statistiche, l’indice di Pearson è definito come la loro covarianza divisa per il pro-dotto delle deviazioni standard delle due variabili. Per ulteriori informazioni: Wikipedia, Voce Indice di correlazione di Pearson, https://it.wikipedia.org/wiki/Indice_ di_correlazione_di_Pearson(visitato il 9/03/2017).

29_{Sam Sahakian e Benjamin Snyder. «Automatically learning measures of child language}

development». In: Proceedings of the 50th Annual Meeting of the Association for Compu-tational Linguistics: Short Papers-Volume 2. Association for CompuCompu-tational Linguistics. 2012, pp. 95–99.

(18)

scrizioni di parlato di sette bambini sono state utilizzate come input per due diverse tipologie di esperimenti: age prediction e previsione dell’ordine cronolo-gico delle produzioni linguistiche raccolte per ogni bambino. Le caratteristiche linguistiche individuate sono: numero totale di articoli, verbi ausiliari in “be” e preposizioni, media delle frequenze delle parole e densità lessicale. Per fa-vorire un riscontro sull’efficienza del sistema sviluppato, tali esperimenti sono stati inoltre eseguiti utilizzando in input tre fra le principali misure standard per l’evoluzione del linguaggio: MLU, Mean depth of dependency parse trees, un’indice di complessità sintattica simile a quello definito in Yngve (1960)30 _e

D-Level, una misura basata sull’individuazione di strutture sintattiche chiave all’interno di ogni frase31_.

Per quanto riguarda il task di age prediction, il sistema di regressione definito da S. Sahakian e B. Snyder permette di ottenere dei risultati più alti rispetto a quelli ricavabili con le tre misure precedentemente citate. Osservando la ta-bella seguente, difatti, possiamo notare che l’errore quadratico medio (MSE)32

calcolato per tale sistema è inferiore di circa 10 punti rispetto a quello ottenuto negli altri tre esperimenti.

D-Level Mean Depth MLU Features MSE 63,795 66,327 64,578 54,041

Tabella 4: Errore quadratico medio per ognuno dei quattro esperimenti di age prediction.

Il sistema sviluppato per la seconda tipologia di esperimenti (previsione dell’or-dine cronologico delle produzioni linguistiche), invece, si basa su un modello in grado di calcolare, per ogni trascrizione, un punteggio sulla base di una metrica selezionata (combinazione di features linguistiche o Mean length of utterance) e, successivamente, di ordinare i campioni secondo i punteggi ottenuti. Al fine di determinare l’accuratezza del sistema, per ogni studente è stata calcolata la correlazione fra l’ordine cronologico attuale delle produzioni linguistiche e

30_{Victor H. Yngve. «A model and an hypothesis for language structure». In: Proceedings}

of the American philosophical society 104.5 (1960), pp. 444–466.

31_{Sheldon Rosenberg e Leonard Abbeduto. «Indicators of linguistic competence in the}

peer group conversational behavior of mildly retarded adults». In: Applied Psycholinguistics 8.01 (1987), pp. 19–32.

(19)

quello predetto, tramite il coefficiente di Kendall (τ)33_.

A differenza del compito di age prediction, il risultato ottenuto tramite la me-trica che combina le cinque features non presenta una variazione significativa rispetto a quello ricavabile utilizzando la sola MLU. Nonostante ciò, la media dei valori di τ è tale da poter confermare l’efficienza del presente sistema e ha permesso inoltre di ipotizzare che i bambini seguano percorsi simili nello sviluppo del linguaggio. Si noti, infine, che i risultati più alti si ottengono combinando fra di loro la MLU e la caratteristica relativa alla densità lessica-le dellessica-le trascrizioni. Difatti, come possiamo osservare nella tabella seguente, il punteggio di questa terza fase di esperimenti è maggiore di circa 3 punti rispetto agli altri due.

MLU Features MLU + Densità lessicale 0,7456 0,7457 0,7780

Tabella 5: Media dei valori di τ ottenuti per i tre diversi esperimenti.

2.1.1 I corpora

Ciò che ha permesso agli studi appena citati di sviluppare metodologie avan-zate e ottenere buoni risultati nelle fasi di analisi è sicuramente la possibilità di ricorrere a grandi quantità di produzioni linguistiche o, per meglio dire, a corpora in grado di fornire un campione sufficientemente esaustivo della popo-lazione d’indagine. Come vedremo infatti nel capitolo successivo, la raccolta e l’analisi dei dati costituisce una delle fasi più importanti per lo sviluppo delle future tecnologie.

In linea generale, i corpora utilizzati nelle ricerche precedentemente discusse sono composti quasi ed esclusivamente da produzioni linguistiche di appren-denti L1 o L2 (lingua secondaria), per la maggior parte stuappren-denti a diversi gradi di istruzione e bambini. A seconda della tipologia di indagine, invece, è pos-sibile distinguere le produzioni che compongono i diversi corpora sulla base

33_{Coefficiente in grado di misurare il livello di correlazione fra due ordinamenti. In}

par-ticolare, se i due ranking sono uguali il coefficiente assume valore 1; se opposti assume valore -1; se indipendenti assume valore 0. Per ulteriori informazioni: Wikipedia, Voce Ken-dall rank correlation coefficient, https://en.wikipedia.org/wiki/KenKen-dall_rank_ correlation_coefficient (visitato il 11/03/2017).

(20)

di tre categorie principali: temi scritti, compiti di scrittura e/o di lettura e trascrizioni del parlato.

Per quanto riguarda gli studi relativi ai task di valutazione automatica, i corpora utilizzati sono composti quasi unicamente da temi scritti e valutati manualmente da docenti o studiosi competenti. Questo è il caso, ad esempio, delle produzioni linguistiche utilizzate in Y. Attali e J. Burstein (2006), che sono state raccolte tramite tre software online: Criterion34_{, un programma}

per il supporto e la revisione di saggi scritti, GMAT (Graduate Management Admission Test), un test online per determinare l’attitudine personale agli studi economici a livello universitario, e TOEFL (Test of English as a Foreign Language)35, una prova d’esame che misura le capacità linguistiche di studenti che non sono di madrelingua inglese. In particolare, sono stati selezionati circa 25000 saggi scritti, che sono stati poi organizzati a seconda della loro tipologia e valutati manualmente con una scala di valori compresa nell’intervallo [1,6]. Nella seguente tabella sono riportate la distribuzione delle tipologie, la media di temi per tipologia e la media delle valutazioni a seconda del database di produzioni linguistiche. Si noti, a tal proposito, che i testi raccolti da Crite-rion sono stati selezionati tra sette diversi livelli (gradi) di competenza, dal sesto al dodicesimo.

Database Tipo-logia

Media di temi per tipologia Media valutazione Criterion (Grado 6) 5 203 2,93 Criterion (Grado 7) 4 212 3,22 Criterion (Grado 8) 5 218 3,58 Criterion (Grado 9) 4 203 3,70 Criterion (Grado 10) 7 217 3,39 Criterion (Grado 11) 6 212 3,93 Criterion (Grado 12) 5 203 3,66 GMAT 8 756 3,57 TOEFL 12 500 4,05 Totale 64 401 3,67

Tabella 6: Distribuzione delle principali caratteristiche del corpus di produzioni scritte raccolte da Y. Attali e J. Burstein.

34_{https://criterion.ets.org/}_{(visitato il 13/03/2017).} 35_{https://www.ets.org/toefl}_{(visitato il 13/03/2017).}

(21)

Un’altra importante collezione di produzioni scritte per i compiti di valuta-zione automatica è quella utilizzata nello studio di D. S. McNamara et al. (2009), per il quale sono stati raccolti una selezione di saggi realizzati dagli studenti della Mississipi State University (MSU)36_{. L’MSU Corpus è formato}

da 120 temi ed è stato progettato tenendo conto di alcune importanti variabili, quali l’età degli studenti (studenti adulti), il contesto di apprendimento (classi di matricole), la tipologia e la lunghezza delle produzioni (temi argomenta-tivi composti da un minimo di 500 ad un massimo di 1000 parole). Per la realizzazione delle prove, ogni studente ha avuto la possibilità di scegliere fra quattro diverse consegne, somministrate sotto forma di quesito. Come per la raccolta precedente, i temi dell’MSU Corpus sono stati valutati manualmen-te da cinque tutor aventi almeno un anno di esperienza in ambito universitario.

Un discorso a parte va fatto invece per il corpus descritto nell’articolo di Da-niel Dahlmeier et al. (2013)37_{, il NUCLE (NUS Corpus of Learner English).}

Il NUCLE è una raccolta di produzioni scritte realizzate da apprendenti L2 e, in particolare, da studenti di lingua inglese iscritti presso l’istituto CELC (Centre for English Language Communication)38 _{della National University of}

Singapore (NUS). È composto da 2249 temi di circa 500 parole l’uno e organiz-zati in diverse tipologie, a seconda dell’argomento della consegna (ad esempio innovazione tecnologica o assistenza sanitaria).

Lo scopo principale di questa raccolta è dovuta alla necessità di fornire una collezione di dati sufficientemente esaustiva per lo sviluppo di strumenti lega-ti all’apprendimento di una lingua straniera e, in parlega-ticolare, alla correzione linguistica automatica. Per tale ragione, una sezione del corpus (1414 temi) è stata arricchita con l’annotazione e la correzione manuale degli errori gramma-ticali, per un totale di circa 46597 errori su 1,2 milioni di parole. Nella seguente tabella sono riportate le principali caratteristiche del corpus NUCLE.

L’annotazione degli errori ha inoltre permesso di estrarre alcune statistiche

36_{http://www.msstate.edu}_{(visitato il 13/03/2017).}

37_{Daniel Dahlmeier, Hwee Tou Ng e Siew Mei Wu. «Building a large annotated corpus of}

learner english: The nus corpus of learner english». In: Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications. 2013, pp. 22–31.

(22)

NUS Corpus of Learner English Temi 1414 Frasi 59871 Parole 1220257 Parole tipo 30492 Errori 46597

Media di frasi per tema 42,34 Media delle parole per tema 862,98 Media delle parole per frase 20,38 Media degli errori per tema 32,95 Media degli errori ogni 100 parole 3,82 Tabella 7: Panoramica del corpus NUCLE.

preliminari sulla distribuzione di questa categoria linguistica all’interno del corpus. In generale, è stato notato che la densità degli errori è particolarmente bassa (3,82 per ogni 100 parole) e che circa il 57,64% delle frasi presenti all’in-terno dei temi annotati non presentano errori, mentre solo l’11,21% ne contiene più di due. Per quanto riguarda invece le varie tipologie, si è notato che la maggior parte degli errori sono riconducibili all’uso delle preposizioni, delle cooccorrenze e degli idiomi (15,69%), seguiti poi dalle ripetizioni (13,71%) e dall’uso degli articoli (12,88%).

È importante però sottolineare che il NUCLE non è l’unico corpus compo-sto da produzioni linguistiche di apprendenti L2 degno di nota. Tra le varie raccolte, infatti, possiamo menzionare almeno altri due esempi significativi: l’International Corpus of Learner English (ICLE)39_{, composto da 3640 temi}

privi però di annotazione degli errori, e il Cambridge Learner Corpus (CLC)40_,

che con circa 16 milioni di parole rappresenta il corpus annotato più grande per gli apprendenti della lingua inglese.

Per quanto concerne invece i corpora composti da esercizi di scrittura e/o di lettura, l’esempio più significativo è riscontrabile nella conformazione del corpus utilizzato in P. Deane (2014), per il quale sono stati selezionati una

39_{Sylviane Granger, Estelle Dagneaux, Fanny Meunier e Magali Paquot. International}

corpus of learner English. Presses universitaires de Louvain, 2002.

40_{Diane Nicholls. «The Cambridge Learner Corpus: Error coding and analysis for}

lexico-graphy and ELT». in: Proceedings of the Corpus Linguistics 2003 conference. Vol. 16. 2003, pp. 572–581.

(23)

serie di studenti ai quali somministrare diversi compiti linguistici. Nello speci-fico, sono state predisposte due prove di scrittura (realizzazione di tema scritto o comprensione del testo) e una di lettura (basata su domande a risposta mul-tipla), da realizzare nell’arco della primavera del 2011. In totale, sono stati individuati 3592 alunni provenienti da 35 diverse scuole degli Stati Uniti e, per ognuno di essi, è stata richiesta la realizzazione di due compiti, uno a distan-za di due mesi dall’altro. Le produzioni linguistiche sono state poi raccolte all’interno di un unico corpus, arricchito inoltre da una serie di informazioni relative ai tempi di produzione e di battitura (keystroke logging) delle prove.

Infine, le ricerche relative allo sviluppo di strumenti in grado di intercettare e descrivere l’evoluzione delle competenze linguistiche si sono servite princi-palmente di corpora composti da trascrizioni del parlato. In particolare, la maggior parte di questi studi (K. Sagae et al., 2005; S. Lubetich e K. Sagae (2014); S. Sahakian e B. Snyder, 2012) hanno sfruttato i documenti presenti all’interno del corpus CHILDES (Child Language Data Exchange System)41_,

una repository contenente trascrizioni del parlato in circa 26 lingue, provenien-ti da 130 corpora differenprovenien-ti. I documenprovenien-ti presenprovenien-ti all’interno del corpus sono memorizzati nel formato di codifica CHAT (Codes for the Human Analysis of Transcripts) e sono stati raccolti principalmente da interazioni spontanee e da conversazioni bambino-adulto. Come abbiamo avuto modo di vedere nelle pa-gine precedenti, il corpus CHILDES è principalmente utilizzato per l’analisi del linguaggio dei bambini e per lo sviluppo di metodologie in grado di monitorare l’evoluzione del linguaggio.

2.2 Prime indagini sul monitoraggio delle

compe-tenze di scrittura per la lingua italiana

Come già accennato, la presente relazione si inserisce in un contesto di ricerca che ha visto la collaborazione fra due importati istituti di ricerca, l’Istituto di

41_{Brian MacWhinney. «Child Language Data Exchange System.» In: Transcript Analysis}

(24)

Linguistica Computazionale “Antonio Zampolli” (ILC-CNR) e il Dipartimento di Psicologia dei processi di Sviluppo e socializzazione dell’Università di Roma “La Sapienza”. Tale collaborazione, iniziata nel 2015, ha favorito la pubblica-zione di alcuni studi finalizzati al monitoraggio dell’evolupubblica-zione del processo di apprendimento della lingua italiana. Fino ad allora, le ricerche effettuate sul-l’italiano sono state particolarmente limitate. Nonostante ciò, vi sono almeno due lavori precedenti che vale la pena citare. Il primo è uno studio effettuato da L. Marconi et al. (1993)42_{, il quale ha portato alla realizzazione di un}

cor-pus di circa 5000 temi scritti da studenti nell’intervallo temporale che va dal primo al quinto anno di scuola elementare (1000 prove per ogni anno). Tali produzioni sono state raccolte durante il triennio scolastico 1987-89 fra tutte le regioni italiane e sono state poi analizzate in modo da fornire una stima sta-tistica delle principali componenti linguistiche, a partire dalle frequenze delle parole, dei lemmi e delle categorie grammaticali più utilizzate. Tuttavia, è bene sottolineare che questo corpus non include però saggi scritti dallo stesso gruppo di studenti nel corso dei cinque anni di scuola elementare.

Il secondo studio, descritto in C. Borghi (2013)43_{, ha invece come oggetto di}

studio l’analisi sincronica di testi scritti da studenti in ingresso nella scuo-la secondaria di secondo grado tramite l’utilizzo di punteggi di valutazione e misure automatizzate di carattere lessicale, morfologico e sintattico. In parti-colare, sono state raccolte 2500 produzioni linguistiche (per un totale di circa 276 mila parole) che sono state poi sottoposte a due fasi di misurazione: va-lutazione olistica secondo i criteri e la metodologia d’indagine internazionale IEA-Written Composition44_{e analisi automatica tramite il modello GULPease}

integrato in ambiente Eulogos45 _{e gli strumenti di annotazione linguistica}

svi-luppati dall’ILC-CNR. Tale studio ha permesso anzitutto di definire un profilo

42_{Lucia Marconi, Michela Ott, Elia Presenti, Daniela Ratti e Mauro Tavella. Lessico}

elementare: dati statistici sull’italiano scritto e letto dai bambini delle elementari. Zanichelli, 1994.

43_{Carlotta C. Borghi. Analisi di produzioni scritte. Valutazioni e misure automatizzate}

di elaborati scolastici. 2013.

44_{Il metodo IEA-Written Composition prevede una valutazione dell’elaborato attraverso}

otto tratti principali: qualità del contenuto, organizzazione del contenuto, stile e registro, grammatica, lessico, ortografia, calligrafia e impaginazione.

(25)

linguistico della popolazione presa in esame e, inoltre, ha dato la possibilità di individuare importanti relazioni fra le abilità linguistiche e alcuni fattori di sfondo, quali l’area urbana e il contesto socio-culturale di riferimento.

Sebbene le due ricerche citate rappresentino un’importante risorsa per l’os-servazione delle competenze linguistiche degli studenti italiani, è con gli studi derivanti dalla collaborazione fra l’ILC-CNR e l’Università “La Sapienza” che è stato possibile ottenere i primi e promettenti risultati sul monitoraggio dell’e-voluzione del processo di apprendimento della lingua italiana a partire dall’an-notazione automatica e dall’estrazione di conoscenza delle produzioni scritte dagli studenti. Nello specifico, tale collaborazione ha permesso la raccolta di un corpus (CItA) di 1352 temi realizzati dagli alunni di sette scuole di Roma in un intervallo temporale che va dal primo al secondo anno di scuola secondaria di primo grado. A differenza di Marconi et al., gli studenti del corpus CItA sono gli stessi in entrambi gli anni scolastici.

Questa collezione di produzioni è stata poi utilizzata per studiare l’evoluzione sia della ‘forma linguistica’ sia del ‘contenuto’ dei testi, sulla base della varia-zione temporale (passaggio dal primo al secondo anno di scuola) e rispetto ad una serie di variabili di sfondo raccolte tramite un questionario somministrato a tutti gli studenti (come il background familiare, le abitudini personali, ecc.). Sebbene ancora preliminari, i primi risultati ottenuti dall’analisi del corpus condotta con strumenti di annotazione linguistica automatica ed estrazione della conoscenza (A. Barbagli et al., 201546_{; A. Barbagli, 2016}47_{) hanno}

di-mostrato come le tecnologie del linguaggio siano oggi mature per monitorare l’evoluzione delle abilità di scrittura48_{, validando così un modello di analisi da}

poter sperimentare su campioni più ampi e su più ampi intervalli di tempo.

46_{Alessia Barbagli, Pietro Lucisano, Felice Dell’Orletta, Simonetta Montemagni e Giulia}

Venturi. «Il ruolo delle tecnologie del linguaggio nel monitoraggio dell’evoluzione delle abilità di scrittura: primi risultati». In: IJCoL vol. 1, n. 1 december 2015: Emerging Topics at the First Italian Conference on Computational Linguistics. Accademia University Press. 2015, p. 99.

47_{Alessia Barbagli. Quanto e come si impara a scrivere nel corso del primo biennio della}

scuola secondaria di primo grado. Nuova Cultura, 2016.

48_{Per le metodologie utilizzate e l’analisi dei risultati consultare il terzo capitolo (in}

(26)

Inoltre, il corpus di produzioni linguistiche e i sistemi di annotazione automati-ca sono stati utilizzati anche per sviluppare un sistema in grado di intercettare l’evoluzione delle competenze linguistiche a partire da alcuni compiti di clas-sificazione probabilistica. Questo sistema, descritto in Stefan Richter et al. (2015)49_{, parte dal presupposto che se uno strumento di classificazione è in}

grado di determinare, sulla base di una serie di proprietà linguistiche prece-dentemente estratte, l’ordine cronologico di scrittura di due temi da parte di un dato studente, allora tale sistema sarà in grado di intercettare anche il processo di apprendimento dell’alunno e, dunque, l’evoluzione delle sue com-petenze di scrittura. Sulla base di questa ipotesi, sono stati sviluppati diversi esperimenti, a seconda dei possibili intervalli temporali che intercorrono fra la realizzazione di due produzioni scritte, e i risultati ottenuti hanno permesso di confermare l’efficienza di tale sistema. Come vedremo nel quarto capitolo della relazione, è proprio a partire da questa metodologia che sono stati realiz-zati i nuovi esperimenti, con l’intenzione di definire e affinare le tecniche per tracciare il processo di apprendimento.

49_{Stefan Richter, Andrea Cimino, Felice Dell’Orletta e Giulia Venturi. «Tracking the}

Evolution of Written Language Competence: an NLP–based Approach». In: CLiC it (2015), p. 236.

(27)

3 Il corpus e il monitoraggio

linguistico

Come abbiamo potuto vedere nel capitolo precedente, gli ultimi dieci anni hanno visto un notevole sviluppo di tecnologie linguistico-computazionali fi-nalizzate allo studio delle competenze linguistiche di apprendenti la propria lingua materna (L1). Nostante i diversi obiettivi, le ricerche condotte a livello internazionale condividono una medesima metodologia, basata sull’utilizzo di strumenti di annotazione automatica al fine di indagare la struttura linguisti-ca di corpora di produzioni spontanee. In questa prospettiva è facile intuire come la raccolta e lo studio dei dati linguistici costituisca una delle fasi più importanti per lo sviluppo futuro delle diverse tecnologie. In particolare, i me-todi tradizionalmente impiegati nel monitoraggio delle competenze di scrittura fanno riferimento a un comune paradigma, che si serve di una serie di compiti svolti dagli studenti e valutati dagli insegnanti per modellare il processo di apprendimento linguistico.

Per il nostro studio, la raccolta dei dati linguistici è stata effettuata con l’in-tenzione di rintracciare l’evoluzione delle compentenze di scrittura in una pro-spettiva diacronica e socio-culturale, scegliendo come ambito scolastico di ri-ferimento il primo biennio della scuola secondaria di primo grado.

Il seguente capitolo intende dunque focalizzarsi sulle prime ricerche effettuate sui dati linguistici raccolti. In particolare, verrà illustrata la struttura interna del corpus di produzioni scritte, facendo speciale attenzione alle variabili di sfondo e alla componente socio-culturale di riferimento; successivamente, ci si focalizzerà sulle caratteristiche linguistiche estratte tramite gli strumenti di

(28)

annotazione automatica, in modo da fornire una panoramica il più completa possibile sul profilo linguistico dei dati raccolti.

3.1 Il corpus

CItA

Il contesto di riferimento per lo studio dell’evoluzione delle competenze di scrit-tura e, dunque, per la raccolta dei dati linguistici, è rappresentato dalla ricerca IEA50 _{IPS (Association for the Evalutation of Educational Achievement,}

In-dagine sulla Produzione Scritta) che, a partire dagli anni ’80, si occupa del-l’insegnamento e dell’apprendimento della produzione scritta nelle scuole. In particolare, l’ipotesi di questo progetto si basa sull’idea che nei due anni presi in esame, ovvero il primo biennio della scuola secondaria di primo grado, si realizzino dei cambiamenti rilevanti nelle modalità di approccio alla scrittura degli studenti51 _{e che tali cambiamenti possano essere verificati proponendo}

uno studio diacronico delle competenze di scrittura, in grado cioè di rilevare le variazioni che risultano dall’attività di scrittura scolastica.

A partire da questo presupposto, dunque, tra il gennaio del 2013 e il giugno del 2014, sono stati raccolti una serie di temi scolastici scritti nell’intervallo temporale preso in esame, in modo da ottenere un campione di testi sufficiente-mente grande per le future attività di ricerca. Conclusasi la fase di recupero, le produzione scritte sono state poi raggruppate all’interno di quello che, ad oggi, rappresenta l’unico esempio di corpus italiano di produzioni scritte finalizza-to al monifinalizza-toraggio dell’evoluzione del processo di apprendimenfinalizza-to linguistico: il corpus CItA (Corpus Italiano di Apprendenti L1 )52_{, sviluppato grazie}

al-la colal-laborazione fra l’Istituto di Linguistica Computazionale “A. Zampolli” del CNR di Pisa e il Dipartimento di Psicologia dei processi di Sviluppo e

50_{http://www.iea.nl}_{(visitato il 3/02/2017).}

Venturi. «Tecnologie del linguaggio e monitoraggio dell’evoluzione delle abilità di scrittura nella scuola secondaria di primo grado». In: Proceedings of the First Italian Conference on Computational Linguistics (CLiC-it). 2014, pp. 9–10.

Venturi. «CItA: an L1 Italian Learners Corpus to Study the Development of Writing Com-petence». In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). 2016.

(29)

socializzazione dell’Università di Roma “La Sapienza”.

3.1.1 La struttura del corpus

Il corpus CItA è composto da 1352 prove scritte da 156 studenti di sette diverse scuole secondarie di primo grado di Roma. In particolare, per la scelta delle scuole, ci si è basati sul pressupposto che esista una forte relazione l’area ter-ritoriale in cui è situato un determinato istituto e l’ambiente socio-culturale di riferimento. Per questo motivo, sono state indivudate due precise aree territo-riali, rappresentative rispettivamente di un ambiente socio-culturale medio-alto e medio-basso: il centro storico e la periferia. Per ogni scuola è stata poi indi-viduata una classe, per un totale di 77 studenti in centro e 79 in periferia.

Primo anno Secondo anno Centro

Scuola Studenti Temi

Centro

1 25 123 1 25 108

2 27 143 2 28 130

3 24 138 3 23 117

Periferia

4 21 58 4 22 62

5 19 77 5 19 64

6 24 66 6 24 146

7 13 64 7 14 56

Totale 153 669 Totale 155 683 Tabella 8: Composizione del corpus CItA.

Anche per quanto riguarda i temi, sono state raccolte due tipologie diverse: le tracce assegnate dai docenti nei due anni scolastici e due prove comuni rela-tive alla percezione dell’insegnamento della scrittura, svolte dagli studenti al termine del primo e del secondo anno scolastico.

Per quanto riguarda le prove comuni, è stato deciso di somministrare agli stu-denti le tracce della prova 9 della ricerca IEA IPS, che consiste in una lettera di consigli di scrittura indirzzata ad un compagno che si sarebbe iscritto allo stesso istituto53_.

Le normali tracce assegnate nel corso dei due anni da parte dei docenti, invece, possono essere ricondotte a cinque macro-categorie testuali: riflessiva,

narra-53_{Barbagli, Quanto e come si impara a scrivere nel corso del primo biennio della scuola}

(30)

tiva, descrittiva, espositiva e argomentativa.

Osservando i dati raccolti nella Tabella 9, possiamo anzitutto notare uno scar-to significativo tra le il numero di prove assegnate fra il centro e la periferia. Difatti, le tracce proposte dai docenti del centro risutano essere circa il dop-pio rispetto a quelle somministrate nelle classi di periferia. Come spiega A. Barbagli, questa differenza è legata al fatto che gli insegnanti delle scuole di periferia, avendo constatato un livello di abilità linguistica di partenza molto basso, hanno preferito far esercitare i propri studenti in classe e a casa, propo-nendo una sola verifica scritta a quadrimestre.

Per quanto riguarda invece la distribuzione delle tipologie testuali54_{, possiamo}

constatare che in entrambi gli anni i temi riflessivi e narrativi sono quelli più ricorrenti, mentre la prova assegnata con minor frequenza da parte dei docenti è quella di tipo descrittivo. In generale, questa distribuzione riflette abbastan-za fedelmente l’approccio all’insegnamento della scrittura da parte dei docenti delle sette scuole: la stesura di un tema narrativo è da considerarsi la più semplice, mentre la produzione di testi a carattere espositivo o argomentativo è assai più complessa e richiede dunque competenze linguistiche e discorsive particolarmente avanzate.

Poiché uno dei principali scopi della ricerca riguarda il monitoraggio linguisti-co rispetto ad alcune caratteristiche descrittive e socio-culturali del campione di studenti preso in esame, è stato messo a punto un questionario da som-ministrare agli alunni e composto da circa trenta domande corrispondenti ad altrettante variabili di sfondo. In particolare, i primi tredici quesiti riguarda-no gli aspetti anagrafici degli studenti e il livello socio-culturale della famiglia (professione e titolo di studio dei genitori, lingua parlata in casa), mentre il secondo gruppo di domande si sofferma principalmente sui convincimenti e sulle abitudini dei ragazzi a proposito della lettura e della scrittura (scolastica e non). Come vedremo, queste variabili di sfondo influsicono notevolmente

54_{Si noti, a tal proposito, che la tipologia testuale è una delle componenti raccomandate}

dalle indicazioni nazionali in riferimento agli obiettivi della scuola secondaria di primo grado. Per ulteriori informazioni: Indicazioni nazionali per il curricolo della scuola dell’infanzia e del primo ciclio d’istruzione, http://www.indicazioninazionali.it/J/ (visitato il 3/02/2017).

(31)

Tipologia Centro Periferia Totale Primo anno Riflessivo 25 13 38 Narrativo 18 4 22 Descrittivo 2 1 3 Espositivo 0 1 1 Argomentativo 2 2 4 Totale 47 21 68 Secondo anno Riflessivo 24 5 29 Narrativo 3 6 9 Descrittivo 0 0 0 Espositivo 4 5 9 Argomentativo 5 4 9 Totale 36 20 56 Tabella 9: Distribuzione delle tipologie testuali.

sui lavori di scrittura e, nello specifico, su alcune delle principali componenti linguistiche estratte a seguito della fase di annotazione automatica.

3.2 L’annotazione degli errori

Una delle caratteristiche che contraddistingue maggiormente il corpus CItA riguarda il fatto che tutte le prove raccolte sono state annotate manualmente con le diverse tipologie di errore da un’insegnante della scuola secondaria di primo grado.

L’annotazione degli errori rappresenta un compito particolarmente complesso, data l’arbitrarietà stessa della definizione di errore e data la mancanza di un sistema per definire una classificazione degli errori. Per questa ragione, prima di poter passare alla fase di annotazione, è stato necessario stabilire una definizione precisa per questa realizzazione linguistica, attraverso la quale poter poi sviluppare uno schema di codifica. Per fare ciò, si è deciso di far riferimento al concetto di italiano neostandard individuato da Gaetano Berruto (1987), il quale attribuì l’errore alla realizzazione linguistica che differisce maggiormente da quella prevista dalla norma55_{. Sulla base di queste considerazioni, è stato}

dunque possibile sviluppare uno schema di codifica per l’annotazione degli

(32)

errori56_.

Come mostra la Tabella 10, gli errori sono stati ricondotti a tre macro-aree (grammatica, ortografia e lessico), che a loro volta sono state suddivise in una serie di sotto-categorie corrispondenti alle principali classi morfosintattiche. Per ognuna di queste classi sono state poi definite diverse tipologie di errore, in modo predisporre una struttura di annotazione il più completa possibile.

Categoria Sotto-categoria I anno_Freq. II anno_Freq. Tot. Grammatica

Verbi

Uso dei tempi 7,78 15,67 11,26 Uso dei modi 4,25 4,92 4,55 Concordanza con soggetto 2,85 4 3,36 Preposizioni Uso errato 6,48 6,75 6,6

Omissione/eccesso 1,03 0,72 0,90 Pronomi

Uso errato 5,09 3,54 4,4 Omissione 0,41 0,59 0,49

Eccesso 2,70 1,57 2,2

Uso del pronome relativo 2,13 1,70 1,94 Articoli Uso errato 5,81 3,54 4,81 Congiunzioni Uso errato 0,57 0,52 0,55

Altro 7,31 5,18 6,37

Totale 46,41 48,7 47,43

Ortografia

Doppie Difetto 6,74 5,05 5,99

Eccesso 3,27 3,67 3,45

Uso dell’h Difetto 3,21 1,64 2,52

Eccesso 1,66 1,11 1,42

Monosillabi Uso dei monosillabi accentati 4,87 4,07 4,52 po e pò anziché po’ 1,66 1,64 1,65 Apostrofo Uso errato 4,82 4,52 4,69

Altro 21,77 23,02 22,32

Totale 47,63 44,72 46,56

Lessico

Vocabolario Uso errato 5,60 6,56 6,02 Tabella 10: Distribuzione percentuale degli errori secondo lo schema di annotazione definito.

Il formato di annotazione scelto, invece, si ispira a quello definito da Hwee Tou

56_{Alessia Barbagli, Piero Lucisano, Felice Dell’Orletta, Simonetta Montemagni e Giulia}

Venturi. «CItA: un corpus di produzioni scritte di apprendenti l’italiano L1 annotato con errori». In: Bosco, C., Tonelli, S., Zanzotto, FS (a c. di), Proceedings of the Second Italian Conference on Computational Linguistics, CLiC-it. 2015, pp. 31–35.

(33)

Ng et al57_{. e permette di codificare ogni singolo errore, specificando anche la}

forma corretta. Di seguito è riportato un esempio dove sono state annotate due diverse tipologie di errore:

[...] scapparono al piano di sopra e dal <M t="200" c="buio">buglio</M> <M t="113" c="spuntò">spuntarono</M> un esercito [...]

Dove il tag <M> (Mistake) e la sua rispettiva chiusura </M> delimitano l’area dell’errore, l’attributo t (type) specifica la tipologia (secondo lo sche-ma osservabile nella Tabella 10) e l’attributo c (correction) riporta la forsche-ma corretta.

3.2.1 La distribuzione degli errori

Osservando la distribuzione degli errori riportata in Tabella 10, possiamo an-zitutto notare che la categoria più ricca, sia dal punto di vista delle sotto-categorie indentificate sia da un punto di vista strettamente distribuzionale, è sicuramente quella degli errori grammaticali, la quale ricopre da sola una media di circa il 47,34% degli errori totali per entrambi gli anni.

Un dato particolarmente significativo per quanto riguarda la distribuzione di questa categoria riguarda il fatto che gli studenti che non producono errori nelle prove scritte passano dal 15% del primo anno al 25,5% del secondo. Nonostante ciò, la quantità media di errori grammaticali tende ad aumentare leggermente nel corso del biennio. A tal proposito, si osservi che l’uso errato dei tempi verbali presenta un incremento di frequenza di circa 7,89 punti percentuali nel passaggio tra il primo e il secondo anno. Questa precisa variazione potrebbe essere dovuta alle diverse tipologie di temi assegnate dai docenti durante il periodo di raccolta delle prove. Infatti, se durante il primo anno agli studenti era stato chiesto di realizzare principalmente temi narrativi, per i quali è ri-chiesto l’utilizzo di modi e tempi verbali semplici, durante il secondo, invece, gli alunni hanno dovuto confrontarsi con la realizzazione di prove più difficili e, di conseguenza, con l’uso di tempi verbali complessi.

57_{Hwee Tou Ng, Siew Mei Wu, Ted Briscoe, Christian Hadiwinoto, Raymond Hendy e}

Bryant Christopher. «The CoNLL Shared Task on Grammatical Error Correction». In: Eighteenth Conference on Computational Natural Language Learning. 2014, pp. 1–15.

(34)

Tuttavia, per alcune sotto-categorie si registra comunque una diminuzione nel-la produzione di errori. In particonel-lare, gli errori che decrescono maggiormente nel corso dei due anni sono quelli relativi all’uso errato dei pronomi (se gli chiedi al posto di se le chiedi) e degli articoli (agli colloqui al posto di ai col-loqui).

Osservando invece la distribuzione dell’ortografia, possiamo vedere che il nu-mero totale di errori diminuisce sensibilmente, passando da un 48% del primo anno ad un 44,72% del secondo. Inoltre, la percentuale di studenti che produco-no un numero molto limitato di errori nel corso dei due anni è particolarmente alta. Nello specifico, gli alunni in grado di scrivere i temi senza commettere errori di ortografia sono, rispettivamente, il 13% e il 16% del totale per il primo e il secondo anno.

Le sotto-categorie che presentano una maggiore diminuzione nella produzione di errori ortografici sono quelle relative all’uso per difetto delle doppie e dell’h, ovvero quando lo studente scrive una parola senza la doppia o senza l’h laddove questa le richieda.

Per quanto riguarda gli errori relativi all’uso del lessico, l’unica sotto-categoria registrata riguarda l’uso scorretto dei termini, come riportato nell’esempio seguente:

[...] ti consiglio quelli di fantascienza che sono molto <M t="311" c="avventurosi">avventurati</M> e intraprendenti [...]

Come per le categorie precedenti, la percentuale di studenti che non commette errori lessicali aumenta nel corso dei due anni scolastici, passando da un 59,9% del primo anno al 64,3% del secondo. Inoltre, nonostante la frequenza generale cresca, il numero massimo di errori commessi da parte di un singolo alunno tende invece a diminuire: 17 nel primo anno, solo 5 nel secondo.

Per concludere, può essere importate sottolineare che la distribuzione di al-cune tipologie di errore sembra essere fortemente correlata alle variabili di sfondo raccolte nei questionari. È il caso, ad esempio, della correlazione fra

(35)

il numero di errori lessicali e le abitudini di lettura degli studenti. Difatti, i ragazzi che affermano di leggere frequentemente sono soliti commettere molti meno errori di tipo lessicale nel corso dei due anni.

Come si può inoltre osservare nella Tabella 11, gli errori grammaticali possono essere messi a confronto con le aree territoriali delle sette scuole. In particola-re, la media delle occorrenze di tale categoria decresce per tutte le scuole del centro città58_{, mentre aumenta per due sedi di periferia.}

Nessuna delle variabili di sfondo sembra invece influire sulla produzione degli errori ortografici. Ciò confermerebbe la teoria per cui la correttezza ortografica è un’abilità che si acquisisce con il tempo e che perciò non può essere correlata a eventuali variabili esterne59_.

Scuola I anno II anno Centro 12 2,65,2 0,93,1 3 15,1 9,3 Periferia 4 3,5 8,2 5 6,4 4,6 6 5,4 4,6 7 1,5 2,8

Tabella 11: Media delle occorrenze degli errori grammaticali rispetto alle sette scuole.

3.3 Il monitoraggio linguistico

Come accennato all’inizio di questo capitolo, il corpus di produzioni scritte, una volta digitalizzato, è stato arricchito automaticamente con l’annotazione morfo-sintattica e sintattica, allo scopo di monitorare i mutamenti linguistici nella produzione degli studenti nel passaggio dal primo al secondo anno sco-lastico. A tal fine, sono stati utilizzati i metodi e gli strumenti sviluppati congiuntamente dall’ILC-CNR e dall’Università di Pisa60_{. In particolare, si} 58_{Inaspettatamente, però, il numero più alto di errori grammaticali si registra in una}

scuola del centro città.

59_{Barbagli, Quanto e come si impara a scrivere nel corso del primo biennio della scuola}

secondaria di primo grado.

60_{http://linguistic-annotation-tool.italianlp.it} _(visitato _il