Machine Learning
6.4. La valutazione automatica della leggibilità
A partire dagli anni 2000 comincia a diffondersi un nuovo tipo di approccio al tema della leggibilità, che prevede l’applicazione di tecniche di apprendimento automatico per la predizione della difficoltà dei testi. Questi nuovi metodi di valutazione sono rivolti alla costruzione di un modello che permetta di classificare in modo automatico un insieme di documenti testuali in base al loro livello di leggibilità.
Il processo comprende diverse fasi:
• definizione di un corpus di apprendimento;
• selezione delle caratteristiche linguistiche da analizzare; • estrazione automatica delle caratteristiche dai dati; • selezione dell’algoritmo di apprendimento;
• creazione del modello; • validazione del modello.
Per prima cosa, viene costruito un corpus di allenamento, rappresentativo di quell’aspetto che si intende valutare (un particolare genere testuale, un insieme di testi destinati ad un pubblico specifico, una certa varietà linguistica, ecc.). Ad ogni testo del corpus viene assegnato un livello di leggibilità gold standard, cioè di riferimento: è su questi livelli di leggibilità che si baserà il modello. Il livello può essere assegnato in vari modi, ad esempio tramite valutatori umani esperti; in altri casi, soprattutto per la lingua inglese, è possibile trovare dei set di dati già etichettati. La stabilità e l’affidabilità del modello dipendono dalla quantità di dati utilizzati (Larsson 2006). Possono essere impiegate diverse scale di misurazione: nella maggior parte degli studi considerati, i livelli gold standard indicano i livelli di comprensione della lettura di una data popolazione e si basano sul sistema scolastico americano che prevede una divisione in 12 gradi (livelli di istruzione).
La seconda fase prevede la selezione di quelle caratteristiche linguistiche che dovranno essere analizzate da ciascun testo. Si tratta di scegliere un insieme di caratteristiche che potrebbero essere dei buoni predittori della leggibilità. Le caratteristiche possono essere di tipo lessicale, sintattico, semantico, ecc.
Una volta effettuata la selezione, si procede con l’estrazione automatica delle caratteristiche: si trasforma ogni testo in un vettore di caratteristiche numeriche che servirà da input per l’algoritmo di apprendimento. L’algoritmo crea quindi il modello: impara cioè, in base agli esempi forniti, ad associare ogni vettore di caratteristiche che rappresenta un testo al livello di leggibilità definito per quel testo.
L’ultima fase prevede la validazione del modello su un nuovo set di dati. Il modello ottimizzato viene applicato a un nuovo corpus per stimare la sua capacità di predizione, cioè per valutare se il sistema è in grado di prevedere correttamente il livello di leggibilità dei nuovi testi. La qualità del modello dipende da una serie di fattori coinvolti nel processo: la scelta del set di dati di allenamento, la scelta di un algoritmo di apprendimento efficiente e la selezione delle caratteristiche linguistiche da estrarre dai dati.
Per quanto riguarda i diversi metodi di valutazione automatica della leggibilità, è possibile fare una prima distinzione in base al tipo di approccio utilizzato: la valutazione della leggibilità può essere trattata come un compito di classificazione (assegnazione del
147
documento a una specifica classe o livello di leggibilità), un compito di ranking (assegnazione del documento a una posizione all'interno di una scala di leggibilità) o come un problema di regressione (i livelli o i punteggi si trovano in un intervallo continuo). La classificazione è l’approccio più utilizzato, ad esempio in studi come quelli di Si e Callan 2001, Liu et al. 2004, Collins-Thomson e Callan 2004, Schwarm e Ostendorf 2005, Heilman et al. 2007, Al-Kalifa e Amani 2010, Aluisio et al. 2010, Chen 2013. Il metodo di ranking è adottato da Inui e Yamamoto 2001, Pitler e Nenkova 2009, Tanaka-Ishii et al. 2010. Il modello di regressione è invece utilizzato da Kate et al. 2010 e François e Fairon 2012. Un’ulteriore distinzione può essere operata a seconda delle caratteristiche linguistiche considerate.
Gli studi analizzano tutta una serie di funzionalità collegate alla leggibilità, le quali possono essere raggruppate in diverse categorie: caratteristiche lessicali, sintattiche, semantiche e relative alle parti del discorso. Le caratteristiche lessicali e semantiche si riferiscono agli aspetti associati al vocabolario dei testi, come la difficoltà o la familiarità delle parole; vengono utilizzate ad esempio:
• la frequenza relativa delle parole;
• la presenza o assenza in una data lista di parole; • la ricchezza lessicale (rapporto tipi/repliche); • la lunghezza delle parole;
• il numero di parole funzionali; • il numero di pronomi;
• il modello statistico del linguaggio (fornisce la distribuzione delle probabilità delle parole nel testo).
La complessità sintattica, valutata tramite la lunghezza delle frasi, è una delle metriche più usate nelle formule di leggibilità tradizionali; gli studi più recenti considerano un insieme più ampio di parametri per valutare la complessità e sono in grado di analizzare anche le strutture delle frasi più complesse, tramite strumenti specifici, chiamati parser (analizzatori). Le principali caratteristiche sintattiche considerate sono:
• lunghezza delle frasi; • numero di frasi verbali; • numero di frasi nominali; • numero di subordinate; • numero di frasi preposizionali.
Anche le relazioni che esistono tra i vari elementi della frase influiscono sulla leggibilità: una buona organizzazione e la coerenza dei contenuti contribuiscono infatti a rendere un testo più leggibile. Le tradizionali formule di leggibilità non sono in grado di cogliere questi aspetti, che sono invece considerati dai lavori più recenti. Le variabili misurate sono:
• la coesione; • la coerenza;
• le relazioni tra le parti del discorso.
Per valutare questi aspetti si considerano ad esempio: • i connettivi;
148
• la densità delle idee; • il numero di pronomi;
• il numero di articoli determinativi; • la sovrapposizione delle parole.
Nella maggior parte degli studi è impiegata una combinazione delle diverse caratteristiche: Si e Callan (2001) e Collins-Thompson e Callan (2004) utilizzano modelli statistici del linguaggio di tipo unigram combinati con altre caratteristiche, di tipo sintattico o semantico. Liu et al. (2004) e Schwarm e Ostendorf (2005) impiegano l’algoritmo SVM per combinare le caratteristiche sintattiche con quelle semantiche. Kate et al. (2010) usano algoritmi di regressione per combinare caratteristiche sintattiche, lessicali e modelli linguistici specifici per generi testuali. François e Fairon (2012) considerano ben 46 parametri linguistici diversi (lessicali, sintattici, semantici, oltre a parametri relativi al francese come L2).
I metodi si differenziano tra loro anche in base al campo di applicazione e ai destinatari. Schwarm e Ostendorf (2005), Heilman et al. (2007) e Peterson e Ostendorf (2009) si occupano di classificare il livello di lettura di testi scritti destinati a studenti di L2. Altri studi si concentrano sulla valutazione del livello di lettura di pagine web, come Si e Callan (2001) e Collins-Thompson e Callan (2004). Wang (2006) misura la leggibilità delle informazioni presenti nei siti web di assistenza sanitaria. Liu et al. (2004) determinano il livello di lettura dei risultati delle query dei motori di ricerca. Miltsakaki e Troutt (2007) progettano un’applicazione per valutare la leggibilità dei testi sul web e classificarli in base al loro contenuto tematico.
In questa sezione presentiamo alcuni dei principali approcci alla valutazione automatica della leggibilità.
6.4.1. Si e Callan 2001
Si e Callan (2011) propongono un metodo per stimare la leggibilità, intesa come difficoltà di lettura, di pagine web educative. La leggibilità viene considerata come un problema di classificazione: i classificatori dei vari livelli di lettura sono creati come combinazioni lineari di un modello statistico del linguaggio di tipo unigram e di un modello che renda conto delle caratteristiche linguistiche del testo.
L’ipotesi di partenza è che la misurazione della leggibilità sarebbe più accurata se le formule prendessero in considerazione anche le informazioni sul contenuto dei documenti. Le formule tradizionali considerano infatti soltanto le caratteristiche “di superficie”, come la lunghezza delle frasi o delle parole. Questi parametri non sono però adatti a valutare pagine web destinate alla didattica, ad esempio per il fatto che contengono testi molto brevi per cui il livello di difficoltà è spesso sottostimato. Gli autori propongono quindi un approccio che tenga conto sia delle caratteristiche linguistiche sia del contenuto.
Per quanto riguarda la valutazione del contenuto, l’ipotesi è che un modello statistico del linguaggio come quello unigram sia in grado di acquisire informazioni sul contenuto relative alla difficoltà di lettura. Come corpus di allenamento viene scelto un campione di 91 pagine web di educazione scientifica, scritte sia da studenti con vari gradi di istruzione ed età, sia da adulti. I testi coprono vari livelli di lettura: materna-2° grado, 3°-5° grado, 6°-8° grado; i livelli di lettura sono indicati dalla fonte o sono dedotti in base all’età degli autori dei testi.
149
In base alle caratteristiche del corpus, gli autori scelgono la lunghezza dei testi come parametro linguistico da considerare; la lunghezza delle parole (in sillabe) ed altre metriche, come il numero dei monosillabi o delle parole polisillabiche, non risultano in questo caso parametri rilevanti.
La terza ipotesi di Si e Callan è che la distribuzione normale possa essere usata per modellare la distribuzione della lunghezza della frase per ogni livello di leggibilità.
Per combinare i due modelli (modello unigram e modello per la lunghezza della frase) viene scelta una combinazione lineare, realizzata tramite l’algoritmo EM132; questo tipo di algoritmo è utilizzato spesso nei modelli lineari quando i dati di addestramento contengono vari tipi di informazione.
Gli esperimenti hanno mostrato che questo metodo di misurazione della leggibilità è più accurato rispetto alle formule tradizionali, come ad esempio l’indice Flesch-Kincaid.
6.4.2. Inui e Yamamoto 2001
Lo studio di Inui e Yamamoto (2001) si inserisce nel contesto di una ricerca più ampia sulla semplificazione di testi giapponesi destinati all’assistenza alla lettura; i testi sono rivolti in particolare a studenti non udenti delle scuole secondarie di primo grado che presentano difficoltà nella lettura e nella scrittura. Le persone non udenti tendono infatti ad avere difficoltà nel comprendere frasi passive, causali, relative, frasi scisse, ecc. Scopo della ricerca è sviluppare un sistema di semplificazione testuale che sia in grado di trasformare in modo automatico un dato documento in uno più semplice e comprensibile, tramite parafrasi di tipo lessicale e sintattico.
Per sviluppare questo sistema è innanzitutto necessario costruire un modello che si occupi di classificare un determinato insieme di parafrasi in base al loro livello di leggibilità.
Per quanto riguarda il giapponese, esistono diversi studi che si sono occupati della misurazione della leggibilità, soprattutto in ambito tecnico o in contesti ingegneristici; “the readability criteria proposed in those works are, however, based mainly on simple statistics such as sentence length, depth of embedding, and the Kanji/Kana ratio, analogous to Flesch's readability measurement (Flesch, 1948); they are far less sophisticated than the criteria we present in this paper. Furthermore, none of those works took into account the language prociency of a particular population segment such as deaf people, aphasic people, or second-language learners” (Inui e Yamamoto 2001, p. 2).
Per la costruzione del modello, gli autori si servono di un questionario, sottoposto a 240 insegnanti di giapponese e inglese delle scuole per non udenti. I questionari, composti da 510 domande, hanno lo scopo di raccogliere i dati per la valutazione della leggibilità: ai docenti è chiesto di confrontare una data frase con altre possibili parafrasi per quella frase e di valutare la leggibilità di ognuna di queste. Per realizzare il questionario, gli autori selezionano 50 aspetti morfosintattici che possono influenzare la comprensione di una frase per le persone non udenti. Per ognuno di questi parametri raccolgono alcune frasi di esempio e poi costruiscono un set di parafrasi per ciascuna, togliendo ovviamente dalle frasi alternative l’elemento che procura difficoltà (vedi Figura 19). Per minimizzare
132 L’algoritmo EM (expectation-maximization) viene impiegato per la stima di massima
150
l’incidenza del lessico sulla difficoltà, gli studiosi limitano il vocabolario delle frasi a un set di 2000 parole di base (NIJL 1991)133.
Figura 19. Esempio di questionario. L’elemento di difficoltà è in questo caso la frase relativa (A), che viene eliminata sia in (B) che in (C). L’immagine è tratta da Inui e Yamamoto 2001.
I risultati del questionario servono come dati di apprendimento per la costruzione di un modello che classifica le parafrasi in base al loro livello di leggibilità. Per semplificare, il compito di classificazione può essere scomposto in una serie di confronti tra due elementi selezionati dal set: il classificatore deve valutare quale dei due elementi è più leggibile o se le frasi hanno la stessa leggibilità. Per l’apprendimento del classificatore è possibile usare diverse tecniche di modellazione automatica; gli autori ne hanno sperimentati due: un metodo che si basa su regole di classificazione e un metodo basato sulla classificazione SVM.
Usando i due metodi, gli studiosi hanno condotto una convalida incrociata dei dati raccolti e ottenuto dei risultati promettenti: entrambi i modelli hanno infatti ottenuto una precisione superiore all'88%; in particolare, il modello basato su SVM ha ottenuto una precisione del 95%.
6.4.3. Liu et al. 2004
Il lavoro di Liu et al. (2004) si concentra sul riconoscimento automatico dei livelli di lettura degli utenti in base alle interrogazioni nei motori di ricerca.
I tradizionali indici di leggibilità sono stati sviluppati per valutare generalmente brani o porzioni di testo di almeno 100 parole o 10 frasi134 e divengono inaffidabili nel caso di testi più brevi, come invece è tipico delle domande poste nei vari motivi di ricerca. In questo studio, la leggibilità è trattata come un problema di classificazione: tramite algoritmi di apprendimento automatico, le ricerche degli utenti nei motori di ricerca sono classificate in
133 The National Institute for Japanese Language (NIJL), Nihongo Kyôiku-no tame-no Kihon-Goi Chôsa
(The basic lexicon for the education of Japanese), Shuei Shuppan, Giappone, 1991.
134 L’unica eccezione è la formula creata da Fry 1990 (cfr. 3.13). Sviluppata appositamente per
valutare testi scritti brevi (tra le 40 e le 100 parole), può essere applicata anche alla misurazione della leggibilità di pagine web.
151
base alle proprie caratteristiche sintattiche (lunghezza della frase, lunghezza delle parole, ecc.), in modo da determinare, per ciascuna domanda, il livello di lettura.
Il corpus di apprendimento è composto da 3 sotto corpora: il primo è un set di domande raccolte da una scuola elementare nel giugno del 2003 e il cui livello di lettura è il 6° grado; si tratta di domande sollevate dagli studenti su vari argomenti discussi in classe nelle lezioni di scienze. Il secondo set è composto da un campione raccolto casualmente tra le interrogazioni inviate al motore di ricerca Excite il 20 dicembre 1999; il terzo set è composto dalle domande archiviate tra il 1996 e il 2002 dal servizio di consulenza di Mad Scientist135. Le statistiche del corpus sono sintetizzate nella Tabella 31:
Grade Level N. di query
N. medio di