• Non ci sono risultati.

Machine Learning

N. medio di parole per

6.4.15. Al-Kalifa e Amani

Al-Kalifa e Amani (2010) presentano il loro prototipo, Arability, uno strumento per misurare in modo automatico la leggibilità di testi in arabo. Il problema della leggibilità nella lingua araba è ancora nelle prime fasi della ricerca e, come osservano gli autori, sono state sviluppate soltanto due formule, quella Dawood e quella Al-Heeti162.

La Figura 27 illustra le diverse fasi di sviluppo del prototipo.

Figura 27. Fasi di sviluppo del prototipo (rielaborazione da Al-Kalifa e Amani 2010).

162 La formula Dawood considera 5 variabili: la lunghezza media delle parole, la lunghezza media

della frase, la frequenza delle parole, la percentuale di frasi nominali e la percentuale di sostantivi definiti; la formula Al-Heeti invece include una sola caratteristica, la lunghezza media delle parole.

Dataset Collection

Text Pre-processing

Classification (Weka SVM classifier) Feature Extraction Readability Level SRLIM Toolkit Documents Processed Documents Feature Vectors

176

Dal momento che non è disponibile per la lingua araba un corpus di testi già etichettati in livelli di lettura, gli autori raccolgono manualmente un set di addestramento; il corpus comprende 150 testi tratti da libri che si trovano nei programmi di studio delle scuole elementari, intermedie e secondarie dell’Arabia Saudita. Ad ogni ordine di scuola corrisponde un livello di leggibilità: facile, medio e difficile. La tabella seguente mostra le statistiche del corpus.

Livello di

leggibilità N. testi N. parole

Lunghezza media della frase Lunghezza media delle parole Facile 50 4.729 3,95 4,38 Medio 50 24.810 6,37 4,56 Difficile 50 27.550 7,72 4,77

Tabella 56. Composizione del corpus.

Come si osserva, la lunghezza media delle parole e delle frasi aumenta via via che il livello di leggibilità diventa più difficile.

Le caratteristiche linguistiche considerate per lo sviluppo del modello sono: • Lunghezza media della frase (numero medio di parole per frase); • Lunghezza media delle parole (numero di lettere per parola); • Numero di sillabe per parola (numero di vocali per parola), • Frequenza delle parole (% di parole con frequenza <1);

• Punteggio di perplessità (perplexity scores) per il modello linguistico basato su bigrammi (un modello per ogni livello di leggibilità).

È creato un modello statistico basato su bigrammi per ogni livello di leggibilità. Il punteggio di perplessità indica la probabilità che ha un testo di appartenere a quella data classe (cioè a quel dato livello di leggibilità); una minore perplessità indica una probabilità maggiore. Questa funzionalità è misurata tramite il Toolkit SRILM163, che è stato integrato nel prototipo in fase di estrazione delle caratteristiche, per generare modelli statistici specifici per ogni livello.

Per misurare le altre quattro caratteristiche, gli autori sviluppano un programma java in grado di calcolare, dato un testo di input, un vettore di caratteristiche e restituire i risultati in uno speciale formato, chiamato ARFF (Attribute-Relation File Format), compatibile con il software Weka.

Weka viene integrato nel prototipo e serve per la generazione di algoritmi di classificazione. Gli studiosi effettuano 5 esperimenti pilota per verificare quali caratteristiche (e le loro combinazioni) sono maggiormente predittive della leggibilità e quali algoritmi (SVM, alberi decisionali e Naïve Bayes) sono più adatti per questo compito di classificazione. Valutano inoltre l’affidabilità del prototipo, confrontandone l’accuratezza con le valutazioni da parte di giudici umani esperti. Infine, testano lo strumento su un nuovo set di dati. La Tabella 57 presenta i punteggi ottenuti dalle varie caratteristiche, utilizzando il classificatore SVM.

163 SRILM (The SRI Language Modeling Toolkit) è un kit di strumenti sviluppato nel 1995 dalla SRI

Speech Technology e Research Laboratory. Viene impiegato per la costruzione di modelli statistici del linguaggio.

177

Caratteristiche Accurat. Facile Medio Difficile

P R F P R F P R F Lunghezza media della frase 66,67% 0,75 1 0,857 0,571 0,667 0,615 0,667 0,333 0,444 Lunghezza media delle parole 44,44% 1 0,167 0,286 0,429 0,5 0,462 0,4 0,667 0,5 N. sillabe per parola 38,89% 0 0 0 0,333 0,5 0,4 0,444 0,667 0,533 Frequenza dei termini 50% 0 0 0 0,571 0,667 0,615 0,455 0,833 0,588 Modello linguistico 61,11% 0,625 0,833 0,714 0,667 0,333 0,444 0,571 0,667 0,615

Tabella 57. Punteggi ottenuti da ciascuna caratteristica: valori di accuratezza (%), precisione (P), recupero (R) e Punteggio F.

La migliore funzionalità risulta la lunghezza media della frase, seguita dal modello statistico del linguaggio. La lunghezza delle parole e il numero medio di sillabe per parola hanno invece bassi livelli di accuratezza. Per quanto riguarda le combinazioni tra le varie caratteristiche, il miglior modello è dato dall’unione delle tre variabili principali (lunghezza media della frase + modello statistico del linguaggio + frequenza dei termini). Come si può vedere nella Tabella 58, la combinazione delle due migliori funzionalità raggiunge un grado di accuratezza del 73,33%, quella di tutte le caratteristiche ottiene un valore più basso (72,22%).

Caratt. Accurat. Facile Medio Difficile

P R F P R F P R F

Tutte 72,22% 1 1 1 0,6 0,5 0,545 0,571 0,667 0,615 ASL + LM

+ TF 77,78% 1 1 1 0,667 0,667 0,667 0,667 0,667 0,667 ASL + LM 73,33% 1 1 1 0,571 0,667 0,615 0,6 0,5 0,545

Tabella 58. Valori ottenuti dalla combinazione delle caratteristiche.

ASL = lunghezza media della frase; LM = modello del linguaggio; TF = frequenza dei termini.

Vengono quindi confrontati diversi algoritmi di apprendimento automatico per verificare quale di questi risulta essere il migliore per questo compito di classificazione (Tabella 59). Il modello Naïve Bayes risulta più accurato quando viene impiegata una singola caratteristica, il classificatore SVM è invece più accurato quando si considera una combinazione delle variabili. Le prestazioni degli alberi decisionali risultano basse per ogni caratteristica (e combinazione) considerata. In generale, il metodo SVM risulta il migliore, raggiungendo un valore di accuratezza del 77,78%. La lunghezza della frase è un buon predittore della leggibilità con qualsiasi tecnica impiegata.

178 Caratteristiche SVM Naïve Bayes Alberi decisionali

Tutte 72,22 61,11 44,44

Lunghezza della frase 66,67 66,67 61,11

Lunghezza delle parole 44,44 50 33,33

N. sillabe per parola 38,89 50 33,33

Frequenza dei termini 50 61,11 44,44

Modello linguistico 61,11 50 44,44

ASL + LM + TF 77,78 55,55 44,44

ASL + LM 73,33 50 44,44

Tabella 59. Valori di accuratezza (%) della classificazione usando SVM, Naïve Bayes e Alberi decisionali.

L’affidabilità del prototipo è valutata tramite il confronto con le valutazioni da parte di giudici umani esperti. Il set utilizzato nell’esperimento è composto da 26 testi, valutati da 3 esperti della Princess Norah University (Arabia Saudita). I risultati sono illustrati nella tabella seguente.

Livello Arability Esperto 1 Esperto 2 Esperto 3 Media esperti

Facile 100% 88,89% 66,67% 88,89% 81,4%

Medio 0% 71,4% 28,5% 42,8% 47,5%

Difficile 70% 80% 90% 50% 73,3%

Tabella 60. Valori di accuratezza ottenuti dal prototipo e dai giudici esperti.

Come è evidente, il prototipo Arability risulta il metodo migliore per classificare i testi con un livello facile (accuratezza del 10%), tuttavia la precisione scende a 70% per il livello difficile ed è pari a zero per il livello medio. Probabilmente, questo risultato dipende dal set di dati utilizzati negli esperimenti164. Anche i punteggi delle valutazioni degli esperti risultano peggiori per questo livello.

Il prototipo è infine testato su un nuovo set composto da 6 testi tratti da un libro dello scrittore arabo Al-Manfaloti e 6 testi di storie per bambini raccolte da vari siti web. Il 100% dei testi di Al-Manfaloti è classificato da Arability come difficile e il 75% dei testi per bambini come facile. Gli studiosi ritengono questo esperimento valido come prova dell’affidabilità del modello.

6.4.16. Aluisio et al. 2010

Questo studio si inserisce nell’ambito del progetto di semplificazione testuale PorSimples (Simplificação Textual do Português para Inclusão e Acessibilidade Digital, ‘Semplificazione

164 È infatti probabile che i tre livelli di istruzione dei testi del corpus non corrispondano esattamente

ai tre livelli di leggibilità ipotizzati dagli autori. Anche una piccola variazione tra i livelli può causare un’errata classificazione.

179

testuale del portoghese per l’inclusione e l’accessibilità digitale’)165, che prevede lo sviluppo di metodi e strumenti di adattamento dei testi per migliorare la comprensibilità di materiali rilevanti pubblicati sul web, in particolare da siti governativi e agenzie di stampa. Nello specifico, il progetto si propone di fornire uno strumento di semplificazione automatica di contenuti web da implementare nei browser e uno strumento di authoring per guidare gli autori nella creazione di versioni semplificate di testi166. Il lavoro di Aluisio et al. (2010) presenta lo sviluppo di un metodo di valutazione automatica della leggibilità per la lingua portoghese da integrare nello strumento di authoring SIMPLIFICA, il quale offre la possibilità di semplificare i testi sia dal punto di vista lessicale che sintattico. L’utente (cioè l’autore dei contenuti) può scegliere quando e in che misura applicare le operazioni di semplificazione, in base al livello di istruzione del target di riferimento. Grazie a uno strumento di valutazione automatica della leggibilità, l’utente può verificare il livello di complessità sia del testo originale, sia delle versioni da lui modificate, fino ad arrivare al livello richiesto, cioè quello adeguato al lettore di destinazione. Lo strumento classifica i testi in 3 livelli di alfabetizzazione, definiti del National Indicator of Functional Literacy (INAF): elementare, base, avanzato.

La ricerca considera un set di 59 caratteristiche (Tabella 61) e comprende alcune caratteristiche di base (1-3, 9-11), cioè parametri tradizionali che sono misurati con semplici conteggi e non richiedono l’uso di strumenti o risorse esterne, e funzionalità più complesse. Le caratteristiche sono divise in 3 gruppi: il primo include un insieme di parametri (1-42) tratti da Coh-Metrix Port (cfr. 6.5.1); il secondo contiene caratteristiche sintattiche (43-49); il terzo gruppo (50-59) considera funzionalità derivate da modelli statistici del linguaggio n- gram, che considerano punteggi di probabilità e perplessità di unigrammi, bigrammi e trigrammi e il tasso di parole fuori dal vocabolario.

N. Caratteristica N. Caratteristica

1 Number of words 31 Number of positive additive connectives 2 Number of sentences 32 Number of negative additive connectives 3 Number of paragraphs 33 Number of positive temporal connectives

4 Number of verbs 34 Number of negative temporal connectives 5 Number of nouns 35 Number of positive causal connectives 6 Number of adjectives 36 Number of negative causal connectives

7 Number of adverbs 37 Number of positive logic connectives 8 Number of pronouns 38 Number of negative logic connectives 9 Average number of words per sentence 39 Verb ambiguity ratio

10 Average number of sentences per paragraph 40 Noun ambiguity ratio 11 Average number of syllables per word 41 Adverb ambiguity ratio 12 Flesch index for Portuguese 42 Adjective ambiguity ratio

165 Cfr. Aluisio et al. 2008.

166 Gli strumenti di authoring sono software che servono per la produzione di contenuti, come

presentazioni multimediali, e-book, tutorial, lezioni/verifiche e altri strumenti didattici usati nell’e- learning, siti web, ecc.

180

N. Caratteristica N. Caratteristica

13 Incidence of content words 43 Incidence of clauses

14 Incidence of functional words 44 Incidence of adverbial phrases 15 Raw Frequency of content words 45 Incidence of apposition

16 Minimal frequency of content words 46 Incidence of passive voice 17 Average number of verb hypernyms 47 Incidence of relative clauses 18 Incidence of NPs 48 Incidence of coordination

19 Number of NP modifiers 49 Incidence of subordination 20 Number of words before the main verb 50 Out-of-vocabulary words 21 Number of high level constituents 51 LM probability of unigrams

22 Number of personal pronouns 52 LM perplexity of unigrams

23 Type-token ratio 53 LM perplexity of unigrams, without line break 24 Pronoun-NP ratio 54 LM probability of bigrams

25 Number of “e” (and) 55 LM perplexity of bigrams

26 Number of “ou” (or) 56 LM perplexity of bigrams, without line break 27 Number of “se” (if) 57 LM probability of trigrams

28 Number of negations 58 LM perplexity of trigrams

29 Number of logic operators 59 LM perplexity of trigrams, without line break

30 Number of connectives

Tabella 61. Set di caratteristiche considerate.

La leggibilità (caratteristica n. 12) è valutata tramite un adattamento della formula di Flesch (Martins et al. 1996), l’unico strumento disponibile per il portoghese; questo indice è implementato anche in Coh-Metrix-Port. Le caratteristiche dei modelli linguistici sono ricavate da un corpus di 96.868 testi tratti dal giornale brasiliano Folha de São Paulo, nel periodo 1994-2005.

Per la creazione del modello, gli studiosi utilizzano tre diversi metodi di apprendimento automatico: classificazione, ranking e regressione. Come algoritmo di classificazione è scelto SVM, fornito dal Toolkit Weka (SMO); per il ranking viene usato un metaclassificatore, anch’esso fornito dal software Weka (usa l’algoritmo SMO per effettuare una classificazione binaria); per la regressione è impiegato un classificatore di regressione SVM (SMO-reg).

Per l’addestramento sono utilizzati 7 corpora semplificati, creati nell’ambito del progetto PorSimple. Il primo è composto da articoli di notizie generiche tratti dal giornale brasiliano Zero Hora (ZH original). I testi sono stati riscritti da un linguista, secondo due livelli di semplificazione: naturale (ZH natural), che corrisponde ad un livello di alfabetizzazione di base e forte (ZH strong), che corrisponde al livello elementare. Gli altri corpora contengono articoli di divulgazione scientifica provenienti da diverse fonti: la sezione Caderno Ciência del quotidiano brasiliano Folha de São Paulo, un quotidiano di ampia diffusione (CC

181 original) e le sue due versioni semplificate (CC natural e CC strong), testi di livello avanzato tratti dalla rivista Ciência Hoje (CH). La Tabella 62 mostra la composizione dei 7 corpora.

Corpus Testi Frasi Parole Parole per testo Parole per frase.

ZH original 104 2184 46190 444,1 (133,7) 21,1 ZH natural 104 3234 47296 454,7 (134,2) 14,6 ZH strong 104 3668 47938 460,9 (137,5) 13,0 CC original 50 882 20263 405,2 (175,6) 22,9 CC natural 50 975 19603 392,0 (176,0) 20,1 CC strong 50 1454 20518 410,3 (169,6) 14,1 CH 130 3624 95866 737,4 (226,1) 26,4

Tabella 62. Statistiche dei sette corpora.

Sono quindi calcolate le correlazioni (Tabella 63) tra le diverse caratteristiche e il livello di istruzione previsto per i due corpora che contengono più versioni (originale, naturale e forte). Le correlazioni più alte sono ottenute dalle caratteristiche di base e da quelle sintattiche.

Caratteristiche Corr.

Parole per frase 0,693

Incidenza delle apposizioni 0,688

Incidenza delle frasi 0,614

Indice di Flesch 0,580

Parole prima del verbo principale 0,516

Frasi per paragrafo 0,509

Incidenza delle frasi relative 0,417

Sillabe per parola 0,414

Numero di connettivi additivi positivi 0,397 Numero di connettivi causali negativi 0,388 Tabella 63. Le 10 caratteristiche con i più alti valori di correlazione.

Viene infine eseguita una convalida incrociata di 10 volte delle varie caratteristiche e combinazioni di queste, tramite i tre metodi di apprendimento automatico.

Le tabelle seguenti mostrano i risultati ottenuti con la classificazione standard (Tabella 64), con il ranking (Tabella 65) e la regressione (Tabella 66); sono riportati il punteggio F (F), la correlazione (Corr.) e l’errore medio assoluto (MAE).

182

Caratteristiche Classe F Corr. MAE

Tutte Original 0,913 0,84 0,276 Natural 0,483 Strong 0,732 LM Original 0,669 0,25 0,381 Natural 0,025 Strong 0,221 Base Original 0,846 0,76 0,302 Natural 0,149 Strong 0,707 Sintattiche Original 0,891 0,82 0,285 Natural 0,32 Strong 0,74 Coh-Metrix-Port Original 0,873 0,79 0,290 Natural 0,381 Strong 0,712 Flesch Original 0,751 0,52 0,348 Natural 0,152 Strong 0,546

Tabella 64. Risultati della classificazione standard.

Caratteristiche Classe F Corr. MAE

Tutte Original 0,904 0,83 0,163 Natural 0,484 Strong 0,731 LM Original 0,634 0,49 0,344 Natural 0,497 Strong 0,05 Base Original 0,83 0,73 0,231 Natural 0,334 Strong 0,637 Sintattiche Original 0,891 0,81 0,180 Natural 0,382 Strong 0,714 Coh-Metrix-Port Original 0,878 0,80 0,183 Natural 0,432

183

Caratteristiche Classe F Corr. MAE

Strong 0,709 Flesch Original 0,746 0,56 0,310 Natural 0,489 Strong 0

Tabella 65. Risultati ottenuti con il metodo del ranking.

Caratteristiche Corr. MAE

Tutte 0,8502 0,3478 LM 0,6245 0,5448 Base 0,7266 0,4538 Sintattiche 0,8063 0,3878 Coh-Metrix-Port 0,8051 0,3895 Flesch 0,5772 0,5492

Tabella 66. Risultati della regressione.

I valori di correlazione e il Punteggio F ottenuti tramite la classificazione e il ranking risultano molto simili, ma l’errore medio assoluto è inferiore nel secondo metodo. La regressione raggiunge i più alti valori di correlazione (0,85), tuttavia i tassi di errore risultano più alti rispetto agli altri modelli.

Per quanto riguarda i set di caratteristiche, possiamo osservare che la combinazione di tutte le caratteristiche raggiunge risultati migliori per tutti e tre i modelli. Le prestazioni dei vari sottoinsiemi di caratteristiche invece variano da metodo a metodo. In generale, le variabili sintattiche ottengono correlazioni più alte (0,82 - 0,81 - 0,80), seguite da quelle di Coh-Metrix-Port (0,79 - 0,80 - 0,80); le funzionalità del modello linguistico riportano valori più bassi (0,25 - 0,49 - 0,62).

In base ai risultati ottenuti, gli autori scelgono di usare la classificazione come metodo per valutare automaticamente la leggibilità all’interno dello strumento di semplificazione: “the linear classification is our simplest model, has achieved the highest F-measure and its correlation scores are comparable to those of the other models” (Aluisio et al. 2010, p.8).

6.4.17. Feng et al. 2010

Feng et al. (2010) conducono uno studio approfondito in cui confrontano una vasta gamma di possibili caratteristiche da impiegare nella valutazione automatica della leggibilità. Gli autori valutano in che misura questi aspetti siano predittivi del livello di difficoltà dei materiali destinati a studenti della scuola primaria: “we treat readability assessment as a classification task and evaluate trained classifiers in terms of their prediction accuracy. To investigate the contributions of various sets of features, we build prediction models and examine how the choice of features influences the model performance” (Feng et al., p. 276).

184

Il corpus impiegato nella ricerca è costituito da 1433 testi tratti dalla rivista educativa Weekly Reader, etichettati in livelli di istruzione che vanno dal 2° al 5° grado (Tabella 67).

Grado N. testi Parole per testo Parole per frase

2 174 128,27 9,54

3 289 171,96 11,39

4 428 278,03 13,67

5 542 335,56 15,28

Tabella 67. Statistiche del corpus.

Sono analizzati 4 set di caratteristiche: superficiali, sintattiche, relative alle parti del discorso, legate ai modelli statistici del linguaggio.

Le caratteristiche che riguardano il discorso si ispirano alla linguistica cognitiva; le parti del discorso sono individuate tramite un criterio semantico-concettuale, secondo il quale le parole che appartengono a una stessa categoria possiedono un contenuto semantico comune. Le parti del discorso sono divise in base al tipo di entità che denotano: i nomi designano persone, animali, cose, i verbi si riferiscono ad azioni o processi, gli aggettivi a qualità, ecc. Le entità sono importanti per la comprensione del testo, in quanto formano le componenti di base dei concetti e delle proposizioni su cui si costruisce l’elaborazione del discorso a un livello superiore (Feng et al. 2009). Queste caratteristiche sono divise in 4 sottoinsiemi:

• densità delle entità (% di entità per frase, per documento, ecc.);

• catene lessicali (sequenze di termini semanticamente correlati tra loro, come sinonimi, iperonimi; si misura la lunghezza della catena, cioè il numero di entità contenute nella catena o l’intervallo, cioè la distanza tra la prima e l’ultima entità, ecc.);

• inferenza della coreferenza (sono estratti entità e riferimenti pronominali che hanno lo stesso coreferente e vengono formate delle catene di coreferenza; di queste, si misura il numero, la lunghezza, ecc.);

• griglie di entità (sono tracciati modelli di distribuzione delle entità per ciascuna coppia di frasi adiacenti; si calcola quindi la probabilità di distribuzione di ogni modello all’interno del testo)167.

Gli studiosi considerano inoltre le tradizionali parti del discorso, per verificare in che misura siano correlate alla difficoltà. Per ogni classe di parole (nomi, verbi, aggettivi, avverbi e preposizioni) sono valutate 5 caratteristiche: ad esempio, per la classe aggettivo sono misurate la percentuale di aggettivi (token) nel testo e la percentuale di aggettivi (type) nel testo, il numero medio di aggettivi per frase, il numero medio di aggettivi (type) per frase e il rapporto tra aggettivi (type) sul totale di tutti i type nel testo.

167 Il modello della griglia delle entità (cfr. Barzilay e Lapata 2008) si basa sul presupposto che la

distribuzione delle entità nei testi mostra alcune regolarità. La griglia è una matrice bidimensionale in cui una dimensione è rappresentata dalle entità salienti nel testo e l’altra corrisponde a ciascuna frase del testo. Ogni cella rappresenta il ruolo grammaticale (soggetto, oggetto o nessuno dei due) corrispondente a una specifica entità in una specifica frase.

185

Le caratteristiche sintattiche analizzate sono l’altezza media degli alberi di analisi, il numero di subordinate, il numero medio di frasi nominali, il numero medio di frasi verbali, il numero di frasi preposizionali, la lunghezza delle frasi in parole e in caratteri, ecc.

Per quanto riguarda i modelli statistici, sono studiati i punteggi di perplessità di unigrammi, bigrammi e trigrammi di parole.

Le caratteristiche superficiali sono quelle utilizzate nelle tradizionali formule di leggibilità; in particolare, sono prese in considerazione:

• il numero medio di sillabe per parola;

• la percentuale di parole polisillabiche nel testo; • il numero di parole polisillabiche per frase; • numero di caratteri per parola;

• numero di parole per frase; • numero di parole difficili nel testo; • il numero totale di parole nel testo;

• punteggio di leggibilità misurato tramite l’indice di Flesch-Kincaid.

Nel corso degli esperimenti, sono impiegati diversi modelli di apprendimento, tra cui la regressione lineare, la classificazione standard (Regressione Logistica e SVM), la classificazione/regressione ordinale (che presuppone che i livelli di istruzione siano ordinati)168. I risultati mostrano che il metodo della classificazione standard risulta avere una maggiore accuratezza rispetto agli altri modelli.

Rispetto ai set di caratteristiche (Tabella 68), tra i modelli addestrati con le funzionalità legate al discorso, i valori più alti sono ottenuti dalle caratteristiche relative alla densità delle entità (SVM: 59,63%, Regressione Logistica: 57,59%). La combinazione di tutte le variabili non migliora in modo significativo la precisione rispetto al solo parametro delle densità delle entità.

Le caratteristiche sintattiche riportano in generale punteggi più bassi; il miglior predittore risulta il numero di frasi verbali (SVM: 53,07%, Regressione Logistica: 48,67%). In questo caso la combinazione di tutte le caratteristiche aumenta il punteggio di precisione (SVM: 57,79%, Regressione Logistica: 54,11%). Tra le caratteristiche legate alle parti del discorso, quelle legate ai nomi presentano una maggiore precisione (SVM: 58,15%, Regressione Logistica: 57,01%). Anche in questo caso, l’utilizzo di tutte le funzionalità non comporta un aumento significativo della precisione rispetto al parametro più predittivo. Per quanto riguarda le caratteristiche superficiali, la lunghezza media della frase raggiunge il punteggio di precisione più alto (52,17).

Le caratteristiche legate ai modelli linguistici ottengono i punteggi più alti (SVM: 62,52%, Regressione Logistica: 62,14%), soprattutto considerando la combinazione di tutte le variabili (SVM: 68,38%, Regressione Logistica: 66,82%).

168 Per la costruzione del modello sono impiegati l’algoritmo SMO (LIBSVM) e quello formito da

186 Set di caratteristiche SVM Regres. Log.

Discorso

Densità delle entità 59,63 57,59

Catene lessicali 45,86 42,58

Inferenza coreferenza 40,93 42,19

Griglie di entità 45,92 42,14

Tutte 60,50 58,79

Sintattiche

Altezza alberi di analisi 44,26 43,45

Numero di subordinate 44,42 43,50

Numero di frasi nominali 51,56 48,14

Numero di frasi verbali 53,07 48,67

Numero di frasi preposizionali 49,36 46,47

Tutte 57,79 54,11 POS Nomi 58,15 57,01 Verbi 54,40 55,10 Aggettivi 53,87 52,75