4.2 L’analisi automatica
4.2.1 Le tecniche linguistico-computazionali per il monitoraggio della leggibilità
L’analisi testuale automatica, condotta sull’intero corpus, è stata effettuata con uno strumento linguistico-computazionale, READ-IT, che permette di analizzare la leggibilità di un testo, sia nella sua interezza che per ognuna delle frasi di cui è costituito.
Le tecnologie linguistico-computazionali permettono di accedere al contenuto informativo dei testi attraverso l’individuazione della struttura linguistica sottostante e la sua rappresentazione esplicita (MONTEMAGNI, 2013). Nel corso degli ultimi dieci anni le tecniche di Natural Language Processing (NLP) combinate con gli
52 algoritmi di apprendimento automatico hanno iniziato a essere utilizzate, quindi, per indagare sulla “forma” di un testo piuttosto che sul contenuto.
La gamma di compiti che condividono questo approccio all’analisi dei testi è ampia, variando da task come il riconoscimento del genere testuale, l’analisi della leggibilità, il riconoscimento della lingua madre di chi ha prodotto uno scritto (in inglese per ora) in una lingua differente dalla propria L1, il rilevamento di giudizi falsi nelle recensioni di attività commerciali e turistiche, la valutazione delle competenze linguistiche dello scrivente e il riconoscimento dello stile di un autore. Tutti questi obiettivi derivano da un macro task che consiste nella ricostruzione del profilo linguistico di un testo. Al cuore del compito di accedere alla struttura linguistica del testo c’è comunque la catena di analisi linguistica i cui passaggi principali sono:
- La segmentazione delle frasi (sentence splitting), - La tokenizzazione9
- La lemmatizzazione10
- L’annotazione morfosintattica11
- L’annotazione sintattica a dipendenze12
Il profilo linguistico costituisce, dunque, il punto di partenza per accedere alla struttura linguistica del testo: a partire da un corpus annotato linguisticamente in maniera automatica è possibile estrarre una serie di caratteristiche che sono rappresentative dell’informazione linguistica. Sulla base di queste caratteristiche viene ricostruito il profilo linguistico.
9 Tokenizzare un testo significa dividere le sequenze di caratteri in unità minime di analisi dette “token”:
parole, punteggiatura, date, numeri, sigle, ecc. I token possono essere anche entità strutturalmente complesse (es. date), ma sono comunque assunte come unità di base per i successivi livelli di elaborazione (morfologico, sintattico ecc.). La nozione di token è distinta da quella di parola: le parole sono solo un sottoinsieme di token.
10 Lemmatizzare un testo significa attuare il processo di riduzione di una forma flessa di una parola
alla sua forma canonica, detta lemma.
11 Ad ogni token viene associata l’informazione della categoria grammaticale che la parola ha nel
contesto, più il relativo lemma
12 Analisi della struttura sintattica della frase in termini di relazioni di dipendenza (es. soggetto,
53 Caratteristiche di base:
- Il calcolo della lunghezza della frase calcolata in numero medio di token per frase; - Il calcolo della lunghezza delle parole calcolate in numero medio di caratteri per parola.
Caratteristiche lessicali:
- Gli indici di ricchezza lessicale, (Type/Token Ratio) ossia il rapporto tra numero di parole tipo in un testo (dizionario) e il numero di occorrenze totali di parole (unità del dizionario).
- Il calcolo della percentuale del vocabolario del testo appartenente al vocabolario di base.
Caratteristiche morfosintattiche:
- La distribuzione delle categorie morfosintattiche (grammaticali).
- La densità lessicale: ossia rapporto tra parole di contenuto (verbi, sostantivi, aggettivi e avverbi) e numero totale di token lessicali in un testo.
- Il modo, il tempo e la persona dei verbi (distribuzione dei verbi in base a queste caratteristiche).
Caratteristiche sintattiche:
- La distribuzione di link di dipendenza sintattica (distribuzione dei diversi tipi di dipendenze sintattiche ad es. soggetto, oggetto diretto, modificatore, ecc). - Le strutture sintattiche: altezza dell’albero sintattico del testo; catene di
complementi preposizionali (complementi che modificano il nome).
- La distribuzione di frasi subordinate rispetto alla distribuzione di frasi principali.
- La distribuzione delle subordinate rispetto alla principale.
Gli strumenti software alla base della metodologia di monitoraggio linguistico per l’italiano hanno raggiunto ormai dei livelli di accuratezza13 molto elevati: per il PoS
13 L’accuratezza è calcolata come il rapporto tra il numero di tokens classificati correttamente e il
54 tagging, l’accuratezza è del 96,34% nell’identificazione simultanea della categoria grammaticale e dei tratti morfologici associati (DELL’ORLETTA: 2009).
Per quanto riguarda l’analisi a dipendenze il parser DeSR (ATTARDI et al: 2009) ha raggiunto livelli di LAS14 e UAS15 pari a 83,38% e 87,71%.
Dal profilo linguistico dunque è possibile estrarre caratteristiche utili a svolgere una serie di compiti che sono di grande uso in vari contesti, tra cui, appunto, la valutazione della leggibilità di un documento.
4.2.2 READ-IT
Le metodologie per la valutazione della leggibilità adottate prima delle tecnologie linguistico-computazionale facevano riferimento solo a determinate caratteristiche del testo, le cosiddette “caratteristiche di base”, quali la lunghezza delle parole e la lunghezza delle frasi. La formula di Flesch-Kincaid per la lingua inglese o l’indice Gulpease per la lingua italiana ne sono un esempio.
L’utilizzo di strumenti di annotazione linguistica automatica permette, invece, di valutare la leggibilità di un testo sulla base di caratteristiche linguistiche più complesse. Tali parametri spaziano tra i vari livelli di analisi linguistica e sono rintracciati in modo automatico a partire dall’output del processo di annotazione automatica del testo.
Per quanto riguarda la lingua italiana, il primo e al momento unico strumento sviluppato che si basa su questi presupposti è READ-IT (DELL’ORLETTA et al.) sviluppato dall’Italian Natural Language Processing Laboratory (ItaliaNLP Lab)16 dell’Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC) del CNR di Pisa e concepito per fornire anche un supporto alla redazione semplificata di un testo attraverso l’identificazione dei suoi luoghi di complessità.
14 LAS (Labelled Attachment Score) è una metrica che indica la proporzione di parole del testo che
hanno ricevuto un’assegnazione corretta per quanto riguarda sia la testa sintattica sia la dipendenza che le lega.
15 UAS (Unlabelled Attachment Score) è una metrica che indica la proporzione di parole del testo che
hanno ricevuto un’assegnazione corretta per quanto riguarda l’identificazione della testa sintattica.
55 READ-IT implementa un indice di leggibilità avanzato basato su analisi linguistica multi-livello del testo condotta con strumenti che rappresentano lo stato dell’arte per il trattamento automatico della lingua italiana. READ-IT, sulla base dei risultati del monitoraggio di una serie di caratteristiche linguistiche rintracciate in un corpus a partire dall’output di strumenti di annotazione linguistica automatica, permette di calcolare la leggibilità dei testi di cui il corpus è composto classificandoli come testi di facile o difficile lettura. La classificazione è realizzata da un classificatore statistico basato su Support Vector Machines che utilizza LIBSVM (CHANG, LING, 2001) il quale, dato un set di caratteristiche e un training corpus, crea un modello statistico utilizzando le statistiche estratte dal corpus.
I testi in input (linguisticamente annotati) vengono associati a due classi di lettura definite a priori. Si tratta di classi formate da testi tratti dal corpus Due Parole17, un giornale scritto con linguaggio volutamente semplificato per essere compreso da utenti con un basso livello di scolarizzazione o con disabilità cognitive, considerati testi di facile lettura, e dal corpus La Repubblica, porzione del corpus CLIC-ILC (MARINELLI et al.), considerati testi di difficile lettura. L’appartenenza ad una delle due classi è stabilita sulla base del grado di similarità tra la distribuzione di alcune delle caratteristiche linguistiche monitorate. Ad esempio, testi con valori di ricchezza lessicale, lunghezza delle relazioni di dipendenza, lunghezza di sequenze di complementi preposizionali modificatori di teste nominali, ecc. più vicini ai valori di monitoraggio linguistico di Due Parole sono classificati come testi di facile lettura rispetto a testi che mostrano valori più simili a quelli di La Repubblica.
Un tratto caratterizzante di READ-IT, innovativo rispetto alla letteratura internazionale in materia, consiste in una valutazione della leggibilità articolata su due livelli: il documento e la singola frase. La valutazione rispetto alla frase rappresenta un’importante novità dell’approccio sottostante a READ-IT: attraverso l’identificazione dei luoghi di complessità del testo (individuati a livello della singola frase) che necessitano di revisione e semplificazione, lo strumento risulta un utile ausilio per la semplificazione del testo.
56 Ampiamente sperimentato su diverse tipologie di testi, READ-IT è stato sino ad oggi utilizzato per valutare l’efficacia comunicativa di testi in diverse tipologie di comunicazione: quella tra insegnante-studente, per fornire un supporto all’insegnante nella personalizzazione della sua azione formativa; operatore di call center-utente, per fornire un supporto alla redazione dei testi usati nei call center migliorando i processi di comunicazione con l’utente; medico-paziente, per assistere la redazione di consensi informati semplici e leggibili (BRUNATO, VENTURI: 2014).
READ-IT permette di copiare e incollare nella sezione Testo da analizzare il testo digitale di cui si vuole valutare la leggibilità.
Figura n. 3 Interfaccia di READ-IT
Una volta che gli strumenti di Trattamento Automatico del Linguaggio hanno annotato linguisticamente il testo in input, è possibile visualizzare il risultato del calcolo della leggibilità nella scheda Analisi globale della leggibilità, come si può vedere nella Figura n. 4.
Oltre al calcolo del valore di Gulpease, READ-IT conduce la valutazione globale della leggibilità del testo rispetto a quattro diversi indici calcolati sulla base di quattro diverse configurazioni di caratteristiche del testo.
Dalla documentazione di READ.IT18, i diversi indici di leggibilità sono così definiti:
57 - READ-IT BASE: in questo modello, le caratteristiche considerate sono quelle usate nelle misure tradizionali della leggibilità di un testo (ovvero la lunghezza della frase e la lunghezza delle parole);
- READ-IT LESSICALE: questo modello si focalizza sulle caratteristiche lessicali del testo (ovvero la composizione del vocabolario e la sua ricchezza lessicale); - READ-IT SINTATTICO: questo modello si basa su informazione di tipo
grammaticale, ovvero sulla combinazione di tratti morfo-sintattici e sintattici; - READ-IT GLOBALE: si tratta di un modello basato sulla combinazione di tutti i
tratti considerati dagli altri modelli.
Per ciascun modello, la percentuale esprime il livello di difficoltà, ovvero si riferisce alla probabilità di appartenenza del testo in esame alla classe dei testi di difficile leggibilità19: la barra a fianco esprime visivamente questo valore, dove il rosso
rappresenta la probabilità di appartenenza alla classe dei testi difficili e il verde a quelli di facile lettura.
Figura n. 4 Interfaccia dell’analisi globale della leggibilità.
Un’analisi completa di tali differenze può essere condotta tenendo in considerazione le caratteristiche catturate da READ-IT in fase di monitoraggio linguistico del testo. Come si può vedere nella Figura n. 5, la sezione dell’interfaccia Caratteristiche
19 I punteggi di leggibilità di READ-IT vanno dunque da 0 a 100: più il valore percentuale è basso, più
58 estratte dal testo riporta i risultati del monitoraggio di un sottoinsieme delle caratteristiche linguistiche utilizzate da READ-IT nella misurazione della leggibilità. Nell’intera sezione, per ogni caratteristica riportata, oltre al valore numerico, viene fornita una rappresentazione grafica (Figura n. 5) che mette a confronto il dato relativo al testo oggetto dell’analisi (corrispondente alla barra azzurra) con la corrispondente informazione rilevata nei corpora di riferimento di facile (barra verde) e difficile (barra rossa) lettura. Il rettangolino a fianco fornisce una classificazione semantica del dato rilevato in relazione al testo oggetto dell’analisi.
Figura n. 5 Interfaccia dell’analisi rispetto alle caratteristiche di base.
Le sezioni che riguardano le caratteristiche estratte dal testo rappresentano i tre livelli linguistici (base, lessicale e sintattico).
Profilo di base:
- Numero totale periodi: ovvero, il numero di periodi in cui si articola il testo analizzato. Si considerano separatori di periodo la punteggiatura forte (“.”, “?” e “!”) e il ritorno a capo;
- Numero totale parole (tokens): ovvero, il numero di occorrenze di parole in cui si articola il testo analizzato;
- Lunghezza media dei periodi (in tokens): questo dato fornisce la lunghezza media dei periodi, espressa in tokens, all’interno del testo analizzato;
- Lunghezza media delle parole (in caratteri): questo dato fornisce la lunghezza media delle parole, espressa in caratteri, all’interno del testo analizzato.
59 Profilo lessicale:
- Composizione del vocabolario: si tratta di un parametro che riguarda la tipologia del vocabolario usato, ovvero l’insieme delle parole tipo che ricorrono all’interno del documento. Come dizionario di riferimento, è stato considerato il Grande Dizionario Italiano dell’uso (GRADIT, De Mauro, 2000), e in modo particolare l’insieme dei lemmi riconducibili al “vocabolario di base”. Nella prima riga è riportata la percentuale di vocabolario del testo appartenente al VdB. Ulteriori indicazioni in merito alla composizione del vocabolario possono essere ricavate dall’analisi della ripartizione della porzione del vocabolario del testo riconducibile al VdB rispetto ai repertori di uso “Fondamentale” (FO), che include circa 2000 parole conosciute e usate da coloro che hanno almeno un’istruzione elementare; “Alto uso” (AU), che include circa 3000 parole conosciute e usate da coloro che hanno almeno un’istruzione media (licenza media inferiore); “Alta disponibilità” (AD), ovvero circa 2000 parole altamente latenti, presenti all’uso che i parlanti non usano concretamente tutti i giorni, ma solo all’occorrenza.
- Rapporto tipo/unità (calcolato rispetto alle prime 100 parole del testo): questa misura, conosciuta anche come “Type/Token Ratio” (o TTR), rappresenta uno dei metodi più diffusi per misurare la varietà lessicale di un testo. Questo indice mette in rapporto il numero delle occorrenze delle unità del vocabolario di un testo (al denominatore) con il numero di parole tipo (al numeratore): i valori oscillano tra 0 e 1, dove valori vicini allo 0 indicano che il vocabolario del testo è meno vario mentre valori vicini a 1 caratterizzano testi particolarmente variegati dal punto di vista lessicale. Essendo TTR un indice sensibile alla lunghezza del testo, per rendere confrontabili i dati questo indice è calcolato rispetto a campioni di testo della stessa lunghezza (nella versione corrente tale limite è stato fissato alle prime 100 parole unità di un testo).
- Densità Lessicale: questo parametro riguarda il rapporto tra parole contenuto (ovvero portatrici di significato) e parole funzionali all’interno di un testo, e in modo particolare la sua “densità lessicale” (abbreviata come DL) calcolata come la proporzione delle parole semanticamente “piene” (ovvero, nomi, aggettivi, verbi e avverbi) rispetto al totale delle occorrenze di parola all’interno
60 del testo. Valori più alti di DL corrispondono in linea di massima a maggiore leggibilità.
Profilo sintattico:
Il profilo sintattico di un testo si articola in due parti, a seconda che l’informazione monitorata riguardi l’analisi morfo-sintattica del testo (ovvero il livello in cui a ogni “token” del testo viene associata informazione relativa alla categoria grammaticale che la parola ha nel contesto specifico) o la struttura sintattica sottostante (basata su una descrizione della frase in termini di relazioni di dipendenza tra parole, come “soggetto”, “oggetto diretto”, “modificatore”, etc.).
- “Misura” delle categorie grammaticali. Sono riportati i valori relativi a un sottoinsieme di categorie grammaticali, ovvero sostantivi (distinguendo tra nomi comuni e propri), aggettivi, verbi e congiunzioni. Per quanto riguarda le congiunzioni, viene riportata la loro ripartizione in coordinanti e subordinanti. Questo dato fornisce una prima e molto approssimativa indicazione del rapporto tra costruzioni paratattiche e ipotattiche all’interno del testo analizzato.
- Articolazione interna del periodo: questo costituisce un parametro complesso volto a caratterizzare l’organizzazione interna del periodo. Esso include informazioni come il numero medio di proposizioni per periodo: si tratta di un dato elementare, ma già significativo, costituito dal rapporto tra proposizioni e periodi. Chiaramente, con l’aumentare di questo valore cresce la complessità sintattica del testo (Repubblica registra una media di 2,41 proposizioni per periodo contro l’1,64 di DueParole). Questo dato, però, non dice ancora nulla su come le diverse proposizioni si rapportino l’una con l’altra all’interno del periodo. L’altra informazione riguarda le proposizioni principali vs le proposizioni subordinate: questo dato registra la proporzione di principali e subordinate; si noti che un alto uso di costruzioni subordinate contribuisce in modo significativo alla complessità grammaticale del testo;
- Articolazione interna della proposizione: è descritta nei termini di numero medio di parole per proposizione e di numero medio di dipendenti per testa verbale;
61 - “Misura” della profondità dell’albero sintattico. Un altro aspetto rilevante per la misura della complessità del testo riguarda i livelli di incassamento gerarchico: in presenza di più di una proposizione subordinata all’interno dello stesso periodo, diventa cruciale ricostruire quale tipo di rapporto sussista tra di esse, ovvero se siano ricorsivamente incassate l’una all’interno dell’altra. Una prima e approssimativa indicazione dei livelli di incassamento gerarchico all’interno della struttura sintattica può essere ricostruita a partire dall’altezza massima dell’albero, che misura la massima distanza che intercorre tra una foglia (rappresentata da parole del testo senza dipendenti) e la radice dell'albero, espressa come numero di archi (ovvero relazioni di dipendenza) attraversati nel cammino foglia-radice. Il parametro “media delle altezze massime” riporta il valore medio delle altezze massime degli alberi a dipendenza registrate all’interno del testo analizzato.
- Questa misura viene raffinata ulteriormente focalizzandosi su particolari tipi di costrutti sintattici:
a) la ricorrenza di strutture nominali complesse costituite da una testa nominale modificata da aggettivi e/o complementi preposizionali: un’alta frequenza di “catene” particolarmente “pesanti” di modificatori nominali rappresenta senza dubbio un fattore di complessità sintattica (questo dato è riportato sotto la voce “Profondità media di strutture nominali complesse”, che registra la media delle profondità di strutture nominali con modificatori); b) la ricorrenza di proposizioni subordinate ricorsivamente incassate (questo dato è riportato come “Profondità media di ‘catene’ di subordinazione”). - “Misura” della lunghezza delle relazioni di dipendenza: è noto che la contiguità
di elementi semanticamente e/o sintatticamente ‘vicini’ permette una più immediata recuperabilità e accessibilità dei rapporti sussistenti tra le parole. La “lunghezza” delle relazioni di dipendenza, calcolata come la distanza in parole tra la testa e il dipendente, rappresenta dunque un fattore di complessità ampiamente riconosciuto nella letteratura linguistica, psicolinguistica e
62 linguistico-computazionale.20 Questo aspetto della struttura sintattica viene
monitorato attraverso due parametri, corrispondenti alla media della lunghezza di tutte le relazioni di dipendenza (con esclusione dei legami riguardanti al punteggiatura), e alla media dei legami di dipendenza più lunghi per ciascuna frase.
Come precedentemente anticipato, un tratto caratterizzante READ-IT consiste nella valutazione della leggibilità articolata su due livelli: il documento e la singola frase. La valutazione rispetto alla frase è stata esplicitamente concepita per fornire un supporto al redattore del testo e guidarlo nel processo di revisione e semplificazione. I risultati di questo livello più granulare di calcolo della leggibilità sono contenuti nella scheda Proiezione della leggibilità sul testo dove è possibile identificare le frasi che necessitano di revisione. Come si può vedere nella Figura 6, per ogni frase viene riportato il livello di difficoltà base (base), lessicale (less.), sintattico (sint.) e globale (glob.) in colonne distinte, livello calcolato dai corrispondenti modelli di analisi della leggibilità. Il livello di difficoltà è rappresentato cromaticamente mediante colori che vanno dal verde (frase leggibile) al rosso (frase particolarmente difficile): il rosso, così come le sfumature giallo-arancioni, marca frasi che necessitano di revisione.
Figura n.6 Interfaccia dell’analisi della leggibilità per periodo.
20Documentazione di READ_IT
http://polo4.elearning.unipi.it/pluginfile.php/13172/mod_resource/content/0/Documentazione%20RE AD-IT%20Demo-1.pdf
63 4.2.3 L’analisi
L’analisi automatica ha previsto una valutazione con lo strumento linguistico- computazionale READ-IT. Sono stati analizzati i moduli singolarmente, per un totale di nove valutazioni.
Il primo step di analisi su cui soffermarsi riguarda la valutazione globale della leggibilità del testo rispetto ai quattro indici calcolati sulla base di quattro diverse configurazioni di caratteristiche del testo (livello base, lessicale, sintattico e globale). Inoltre è stato considerato anche il valore Gulpease. Tutti i valori sono calcolati sull’intero testo.