Machine Learning
N. medio di parole per
6.4.5. Schwarm e Ostendorf
Schwarm e Ostendorf (2005) propongono un metodo per valutare in modo automatico il livello di lettura di testi scritti destinati a studenti che studiano l’inglese come lingua seconda. Il loro approccio prevede l’uso di algoritmi SVM per combinare le caratteristiche di modelli linguistici tradizionali e modelli statistici di tipo n-gram. Lo studio si inserisce in un
0 0,00005 0,0001 0,00015 0,0002 0,00025 0,0003 0,00035 0,0004 0,00045 0,0005 0 1 2 3 4 5 6 7 8 9 10 11 12 P(w o rd |g ra d e) Grade Class
155
più ampio progetto di ricerca che si occupa di sviluppare strumenti di supporto per insegnanti di lingue, ad esempio sistemi di semplificazione automatica di testi; questi strumenti possono essere utili non soltanto per studenti stranieri ma anche per tutti coloro che presentano scarse abilità di lettura o difficoltà di apprendimento.
Nonostante il modello Smoothed Unigram di Collins-Thompson e Callan (2004) abbia ottenuto dei buoni risultati e risulti più accurato delle metriche tradizionali di leggibilità, Schwarm e Ostendorf sostengono che i modelli statistici del linguaggio possano ottenere prestazioni migliori acquisendo sia informazioni di tipo semantico che sintattico.
Il corpus di addestramento è formato da circa 2400 articoli, tratti da Weekly Reader, una rivista educativa in cui è possibile trovare testi rivolti ai vari livelli di istruzione, e copre i livelli di lettura dal secondo al quinto grado (Tabella 33). Come supplemento al corpus, sono impiegati anche altri set di testi, in modo da avere un numero più ampio di classi di lettura: il corpus dell’Enciclopedia Britannica137, che contiene sia i testi della versione completa dell'enciclopedia sia i testi corrispondenti della Britannica Elementary, la versione rivolta ai bambini e un archivio di notizie della CNN, sia in forma estesa che in versione ridotta138 (Tabella 34).
Livello Numero di articoli Numero di parole
2° 351 71,5 k
3° 589 444 k
4° 766 927 k
5° 691 1 M
Tabella 33. Statistiche del corpus Weekly Reader.
Corpus Numero di articoli Numero di parole
Britannica 115 277 k
Britannica Elementary 115 74 k
CNN 111 51 k
CNN ridotta 111 37 k
Tabella 34. Statistiche del corpus dell’Enciclopedia Britannica + CNN.
Gli autori costruiscono un classificatore per ogni livello di lettura. Il classificatore non si occupa di categorizzare i documenti nelle varie classi (cioè nei vari livelli di lettura) ma si occupa invece, per ciascuna classe, di decidere se un documento appartiene o meno a quella classe.
Il modello statistico impiegato è il trigramma, che risulta più accurato rispetto all’unigramma e al digramma. L’algoritmo SVM utilizza diverse caratteristiche linguistiche, come la lunghezza della frase, la lunghezza delle parole, la leggibilità misurata con l’indice di
137 Barzilay e Elhadad (2003).
156
Flesch-Kincaid e il sistema Lexile, ecc. La combinazione del modello statistico con il Support Vector Machine fornisce i risultati migliori.
Il classificatore è testato con successo su un ulteriore corpus di articoli tratti dall’edizione “Kidspost” del Washington Post del 2005, che coprono i livelli dal terzo all’ottavo; gli autori si ripropongono di sperimentare il loro metodo anche su lingue diverse dall’inglese e di riuscire ad incorporarlo in un sistema di recupero delle informazioni sul web, come strumento di supporto per gli insegnanti di lingua straniera.
6.4.6. Larsson 2006
Larsson (2006) crea un modello per classificare testi svedesi in livelli di leggibilità. Il sistema può servire come strumento di supporto per gli insegnanti o può essere integrato in un sistema di recupero delle informazioni; è creato per lo svedese ma può essere applicato anche ad altre lingue.
Dal momento che per la lingua svedese non è disponibile un corpus annotato in diversi livelli di lettura, il set di addestramento utilizzato nella ricerca è assemblato dall’autore e comprende tre diversi corpora (e quindi tre livelli di leggibilità):
• Giornali del mattino
Il set è costituito da articoli tratti due giornali svedesi, Uppsala Nya Tidning (UNT) e Svenska Dagbladet (SvD) e utilizzati nel progetto SCARRIE139. I testi sono scritti da professionisti e sono rivolti ad un pubblico di lettori adulti: il livello può essere considerato come difficile.
• Testi delle scuole superiori
Il corpus comprende 418 testi scritti da studenti di 16-18 anni nel corso degli esami. Esistono ovviamente delle differenze, ma in generale i testi possono essere classificati nello stesso livello di difficoltà, il livello medio.
• Giornali di facile lettura
Il set è costituito da 787 testi tratti dal sito di Sesam, un giornale di facile lettura. Gli articoli sono scritti da professionisti ma sono indirizzati specificamente a persone che presentano difficoltà nella lettura: il livello può essere quindi considerato semplice.
Il corpus è ridimensionato in modo che ogni sottocorpora abbia lo stesso numero di testi (418).
Il sistema progettato da Larsson utilizza LIBSVM, il software integrato per la classificazione tramite SVM; il software comprende varie funzioni, tra cui la selezione dei parametri, la formazione del modello, la classificazione multiclasse e un modulo per la convalida incrociata.
Per la costruzione del modello si considerano diverse caratteristiche linguistiche: frequenza delle parole (unigram), lunghezza della frase, profondità sintattica (proporzione di frasi complesse), numero di frasi preposizionali, numero di congiunzioni subordinanti, numero di parole difficili (parole con più di 6 lettere), numero medio di vocali per frase (= numero di sillabe per parola), quoziente nominale (NQ)140, quoziente nomi/pronomi, numero di
139 Cfr. Dahlqvist 1999.
140 Inteso come numero di nomi, preposizioni e participi diviso il numero di pronomi, verbi e avverbi.
157
attributi per frase nominale, lunghezza dell’espressione (phrase)141, numero di articoli determinativi (misura l’astrattezza della frase). La Tabella 35 mostra i risultati della classificazione per ciascuna caratteristica.
Caratteristiche Totale Facile Medio Difficile profondità sintattica 61,04 81,92 32,50 68,67 lunghezza della frase 58,02 93,97 2,40 79,49 frasi preposizionali 63,45 86,75 28,92 74,70 cong. subordinanti 52,61 62,65 59,03 36,14 parole difficili 62,25 81,92 28,91 75,90 vocali 62,25 43,37 72,29 71,08 NQ 69,73 55,41 69,67 84,12 nomi/pronomi 69,44 60,24 74,70 73,39 attributi 61,04 43,37 72,28 67,47 lunghezza espressione 59,04 46,99 54,21 75,90 articoli determinativi 49,40 73,49 53,01 21,69
Tabella 35. Punteggi di copertura (recall) per ciascuna caratteristica.
Come si osserva, la caratteristica migliore risulta il quoziente nominale (NQ). In generale, esistono molte differenze tra i tre livelli di leggibilità, ad esempio la lunghezza della frase ha un punteggio di recupero di circa 94% nel classificare il livello facile ma solo del 2,4% nel classificare il livello medio. Questi punteggi sono utilizzati per la combinazione delle caratteristiche più rilevanti; i risultati sono mostrati nella Tabella 36.
Combinazione Caratteristiche combinate Recall
Tutte le caratteristiche Tutte 88,26
10 migliori caratteristiche Tutte tranne articoli determinativi 87,86 9 migliori caratteristiche Tutte tranne articoli determinativi e cong. subordinanti 86,96 7 migliori caratteristiche NQ, Nomi/pronomi, frasi preposizionali, vocali, parole difficili, profondità sintattica, attributi. 86,87 8 migliori caratteristiche Tutte tranne articoli determinativi, cong. subordinanti e lunghezza della frase 86,57 6 migliori caratteristiche NQ, Nomi/pronomi, frasi preposizionali, vocali, parole difficili, profondità sintattica 85,37 2 migliori / liv. leggibilità NQ, lunghezza della frase, frasi preposizionali, vocali, attributi 85,37 Migliori / liv. leggibilità NQ, lunghezza della frase, Nomi/pronomi 83,68 3 migliori caratteristiche NQ, Nomi/pronomi, frasi preposizionali 82,69
2 migliori caratteristiche NQ, Nomi/pronomi 69,85
Tabella 36. I risultati della convalida incrociata di 40 volte delle varie caratteristiche.
158
La combinazione di tutte le caratteristiche risulta avere il valore di copertura più alto (88,26); con la sola eccezione della combinazione di 8 caratteristiche, aumentando il numero di caratteristiche, aumenta anche il punteggio di recupero. Viene dunque effettuata una nuova convalida incrociata di 40 volte, stavolta con le possibili combinazioni di 10 caratteristiche. I risultati sono mostrati nella Tabella 37.
Caratteristiche combinate Recall Tutte tranne lungh. espressione 88,76
Tutte tranne NQ 88,06
Tutte tranne frasi prep. 88,06 Tutte tranne articoli det. 87,86 Tutte tranne parole difficili 87,86 Tutte tranne nomi/pronomi 87,86 Tutte tranne profondità int. 87,56 Tutte tranne vocali 87,36 Tutte tranne lunghezza frase 87,26 Tutte tranne attributi 86,57 Tutte tranne cong. Sub. 86,47
Tabella 37. I risultati della convalida incrociata di 10 caratteristiche.
In base ai dati raccolti, vengono selezionati 4 diversi modelli:
• notPhrase-model: modello basato sulla combinazione di tutte le caratteristiche tranne la lunghezza dell’espressione (valore di recall 88,76);
• all-model: modello basato sulla combinazione di tutte le caratteristiche (88,26); • notPP-model: modello basato sulla combinazione di tutte le caratteristiche tranne
le frasi preposizionali (88,06);
• notNQ-model: modello basato sulla combinazione di tutte le caratteristiche tranne NQ (88,06).
I 4 modelli sono quindi usati per la classificazione del corpus (Tabella 38).
Modello Precisione Copertura Punteggio F
notPP-model 90.21 89.56 89.88
notPhrase-model 88.93 88.35 88.64
All-model 88.90 88.35 88.62
notNQ-model 88.55 87.95 88.25
Tabella 38. Risultati della classificazione tramite i 4 modelli.
Larsson riporta 3 tipologie di punteggio e ne fornisce una spiegazione (p. 22): il valore di precisione, definito come “the fraction of documents that actually turns out to be correct in the group of documents that the model has declared as a class”, mostra l’affidabilità del
159
modello nella classificazione; il valore di copertura, definito come “the fraction of documents correctly predicted by the model compared to what actually should be detected”, misura la quantità di documenti rilevati; la combinazione del punteggio di precisione e copertura è una misura chiamata punteggio F ed è così calcolata:
2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 (𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛)⁄
Il modello che risulta avere le migliori prestazioni è quello not-PP, cioè il modello che considera tutte le caratteristiche tranne le frasi preposizionali.
6.4.7. Wang 2006
Wang (2006) si è occupato di valutare la difficoltà delle informazioni presenti nei siti web che si occupano di salute142. L’algoritmo SVM è usato per classificare i documenti in due livelli di difficoltà principali: testi di facile lettura, destinati a un pubblico con un basso livello di competenze sanitarie (4°-6° grado) e testi per un pubblico generico, destinati a un pubblico con un livello medio di alfabetizzazione sanitaria (6°-8° grado). A differenza dello studio di Liu et al. (2004), che stima la leggibilità a livello della frase, in questo caso l’approccio SVM è impiegato a livello del documento. L’accuratezza della classificazione è confrontata tramite diversi set di caratteristiche:
• caratteristiche linguistiche di superficie
Comprendono le metriche usate solitamente nelle formule tradizionali: numero medio di parole per frase, numero medio di caratteri per parola e numero medio di sillabe per parola.
• difficoltà delle parole
Dato che l’autore non è stato in grado di trovare un indicatore affidabile per quanto riguarda la difficoltà delle parole appartenenti al dominio medico, vengono usati parametri più generali. Si considerano facili le parole che appartengono alla lista di Dale e Chall (1995), difficili le parole polisillabiche, con 3 o più sillabe.
• modello statistico del linguaggio di tipo unigram.
Per verificare se le performance dei set di caratteristiche sono coerenti con vari metodi di apprendimento automatico, oltre all’approccio SVM sono utilizzati anche gli alberi decisionali e il metodo Naïve Bayes143. Gli algoritmi sono forniti tramite il software open source Weka144.
142 Per i diversi studi che hanno esaminato il livello di leggibilità di siti web che trattano di salute cfr.
capitolo 8.2.
143 Zheng et al. 2002 si è occupato di classificare articoli di notizie mediche tramite l’applicazione di
due metodi di apprendimento automatico: gli alberi decisionali e il metodo Naïve Bayes. Il classificatore è in grado di classificare gli articoli, distinguendo tra materiale medico e non, con un’accuratezza del 92%.
144 Weka (Waikato Environment for Knowledge Analysis) è un software open source sviluppato
dall’Università di Waikato in Nuova Zelanda nel 1993. Si tratta di una raccolta di algoritmi di apprendimento automatico per attività di data mining. Gli algoritmi possono essere applicati direttamente a set di dati: Weka contiene strumenti per la pre-elaborazione dei dati, la classificazione, la regressione, il clustering, le regole di associazione e la visualizzazione. È anche adatto per lo sviluppo di nuovi schemi di apprendimento automatico.
160
Il set di addestramento è formato da documenti tratti da alcuni siti web di assistenza sanitaria, etichettati in base ai due livelli di lettura: i testi di facile lettura sono raccolti dal sito di MedlinePlus145, quelli generali dal sito Familydoctor146.
L’indice di Flesch (F) e l’indice di Flesch-Kincaid (FK), misurati tramite Microsoft Word, sono utilizzati per filtrare i documenti147: testi che presentano punteggi FK superiori all’8° grado e punteggi F inferiori a 60 sono esclusi dai materiali di facile lettura in quanto considerati troppo difficili. testi con valori FK oltre il 10° grado e valori F inferiori a 50 sono esclusi dai materiali per un pubblico generico. In totale, risulta un corpus formato da 79 articoli di facile lettura e 95 articoli di livello di lettura medio.
Categorie Flesch Reading Ease Flesch-Kincaid Facile lettura (79) 65,86 (51,5 – 86,1) 6,66 (3,7 – 8,3) Livello medio (95) 62,25 (46,4 – 91,4) 7,87 (4,8 – 9,9)
Tabella 39. Punteggi di leggibilità dei due corpora.
I set di caratteristiche sono confrontati con una validazione incrociata di 10 volte. L’accuratezza della classificazione dei tre set e delle loro combinazioni è mostrata nella Tabella 40:
Set di caratteristiche Alberi decisionali Naïve Bayes SVM
(1) Caratter. superficiali 66,81 66,34 62,72
(2) Difficoltà delle parole 67,18 66,68 64,67
(1) + (2) 73,41 75,55 76,82
(3) Modello Unigram 78,68 75,26 80,71
(1) + (2) + (3) 79,72 76,18 84,06
Tabella 40. Valori di accuratezza (%) della classificazione dei tre set.
Come si osserva, il metodo SVM che utilizza solo caratteristiche superficiali raggiunge una precisione del 62,72% e non sembra essere un buon indicatore di difficoltà per questo corpus. Se si considera la difficoltà della parola, l’accuratezza aumenta al 64,7%; una combinazione delle due migliora le prestazioni fino al 76,82% di accuratezza. Le caratteristiche unigram raggiungono una precisione dell’80,71%. La combinazione di tutte e tre i set di caratteristiche sembra essere l’opzione più efficace, con un’accuratezza dell’84,06%.
Per quanto riguarda i tre approcci di machine learning, i risultati mostrano che le prestazioni del metodo SVM sono inferiori quando si utilizzano i primi due set
145 https://medlineplus.gov/ 146 https://familydoctor.org/
147 Secondo l’indice di Flesch un testo è considerato facile se ottiene un punteggio superiore a 70,
standard se ottiene un punteggio tra 60 e 70, difficile se il punteggio è inferiore a 60. La formula
modificata Flesch-Kincaid fornice un punteggio in termini di livello di istruzione, con un range che va da 0 a 12 (livello universitario).
161
separatamente, ma superiori se sono usati in combinazione; sono invece migliori per quanto riguarda il modello unigram o una combinazione dei tre set.
“The combination of three feature sets are the most effective in classifying consumer health information into easy to read or general reading difficulty level in our corpus. Since three feature sets may capture different aspects of text difficulty, it is not surprising that their combination achieve the best performance.” (Wang 2006).
6.4.8. Heilman et al. 2007
Heilman, Collins-Thompson, Callan e Eskenazi hanno sviluppato il sistema di tutoraggio REAP148 che fornisce agli studenti di inglese L2 materiali di lettura appropriati al loro livello di lettura; i testi sono selezionati automaticamente dal web. Per migliorare il loro sistema gli studiosi si sono concentrati su un metodo di valutazione automatica della leggibilità che tiene conto sia delle caratteristiche lessicali che di quelle sintattiche.
Il loro studio (Heilman et al. 2007) si occupa di valutare il livello di lettura sia di testi in lingua madre (L1) sia in lingua seconda (L2). Per quanto riguarda i materiali in L1, la classificazione in 12 livelli (secondo il sistema di istruzione statunitense) avviene tramite l’uso di modelli statistici del linguaggio di tipo unigram, in combinazione con l’analisi delle caratteristiche grammaticali. Il modello statistico utilizzato si basa una variazione del classificatore multinomiale Naïve Bayes.
Per i testi in L2, la difficoltà lessicale è stimata tramite il modello unigram; la struttura sintattica delle frasi è analizzata tramite la combinazione di modelli statistici e i più tradizionali alberi sintattici. Le caratteristiche grammaticali prese in considerazione sono 12, tra cui l’uso del passivo, le frasi relative e alcuni tempi verbali e sono classificate tramite l’algoritmo k-NN (con k=12).
L’approccio utilizza due corpora di dati già etichettati: per il corpus L1 si utilizzano 362 testi raccolti dal web, classificati in 12 livelli da insegnanti delle scuole elementari (cfr. Collins- Thompson e Callan 2005); per il corpus L2 si utilizzano documenti tratti da 4 libri di testo che coprono i livelli da 2 a 5 (da principiante ad avanzato).
I risultati mostrano che, per entrambi i corpora, l’approccio che impiega modelli statistici del linguaggio produce previsioni più accurate rispetto a quello che si basa sulle sole caratteristiche grammaticali (Tabella 41). La combinazione dei due metodi porta ad una precisione maggiore.
Si può inoltre osservare che le caratteristiche grammaticali sembrano influire maggiormente sulla difficoltà nei testi in lingua seconda rispetto a quelli in lingua madre.
Metodi L1 (12) L2 (4)
Modelli statistici del linguaggio 0.71 0,80 Caratteristiche grammaticali 0.46 0.55 Combinazione dei due 0,72 0.83
Tabella 41. Coefficienti di correlazione tra i metodi di valutazione e i due corpora.
162
In uno studio successivo (Heilman et al. 2008) gli autori riportano dei diversi risultati, mostrando che anche le sole caratteristiche grammaticali possono essere efficaci predittori della difficoltà; va precisato che in questa ricerca è impiegato un set più ampio di funzioni grammaticali.