• Non ci sono risultati.

3. IL PRIMO CORPUS PER LA SEMPLIFICAZIONE AUTOMATICA DI TEST

3.2. I corpora del progetto

3.2.1. Progetto TERENCE

Il primo corpus che verrà illustrato è Terence, il quale prende il nome direttamente dal progetto Terence20 da cui proviene, che illustra un metodo di semplificazione di

racconti. Il progetto è indirizzato a ricercatori, insegnanti o policy makers ed è innovativo da diversi punti di vista. La semplificazione di un testo viene infatti suddivisa in 3 differenti stadi intermedi, mentre normalmente si parla di testo originale e testo semplificato tramite un unico passaggio. Inoltre il processo di semplificazione illustrato è fatto su misura per la categoria dei poor reader. Alla base del processo di semplificazione sta infatti l’idea che sono richiesti diversi livelli di semplificazione per migliorare la comprensione di un testo per poor readers. Gli scopi di questo progetto possono essere riassunti in:

1. Migliorare la comprensibilità del testo;

2. Offrire testi “graduati”, ovvero disponibili con diversi gradi di semplificazione a seconda dei bisogni delle persone che andranno a leggerli (4 livelli di difficoltà);

3. Minimizzare il più possibile i cambiamenti sul testo.

I livelli di difficoltà secondo cui vengono classificati i testi di un corpus seguendo la linea guida di Terence sono (dal più difficile al più semplice):

Livello 4. Storia originale (nessuna semplificazione effettuata);

Livello 3. Coerenza globale: le informazioni necessarie alla comprensione del significato generale della storia, della sequenza degli eventi, dei luoghi, ecc. sono rese in maniera più esplicita possibile;

61  Livello 2. Coerenza locale: il testo viene ulteriormente semplificato a livello locale, aumentando la connessione logica tra le frasi, aumentando la coesione e eliminando possibili ambiguità;

Livello 1. Livello lessico-sintattico: i termini più complessi utilizzati vengono sostituiti con sinonimi più comuni, le metafore vengono ridotte e le frasi con una certa complessità sintattica vengono riscritte. Questo livello è studiato principalmente per quei bambini con difficoltà anche a livello di parole.

Nel caso del corpus sviluppato dall’ILC-CNR, sono stati presi in considerazione solo i livelli 2 e 1, rispettivamente ad indicare il testo originale e quello semplificato. Quello che infatti si cercherà poi di svolgere tramite computer è una semplificazione automatica concentrata soprattutto sul livello lessicale e sintattico dunque la scelta è stata motivata dalla necessità di tracciare solo alcuni gradi di semplificazione.

3.2.1.1. Livello 2: frasi originali

Le frasi originali del corpus Terence corrispondono al livello 2 di semplificazione illustrato dal progetto Terence. Il miglioramento della comprensibilità di una frase a livello locale consiste nell’introduzione di connettivi espliciti, nella sostituzione dei pronomi con dei nomi per rendere semplici i collegamenti di coreferenza o nell’aggiunta di informazioni necessarie a collegare il significato di due frasi. Cambiare un testo applicando questi metodi può influire però in maniera negativa sull’aspetto e lo scorrimento di una storia, in modo possibilmente dannoso per la lettura. In generale l’applicazione di queste regole non può essere sistematica, in quanto, ad esempio, la risoluzione di qualsiasi anafora incontrata nel testo potrebbe semplicemente essere di troppo, in quanto alcuni eventi o personaggi descritti nelle storie saranno comprensibili anche al lettore meno abile, sebbene impliciti.

In Terence la rimozione delle ellissi o dei pronomi non è sistematica, ma viene effettuata sono quando ciò risulta strettamente necessario per l’aumento della comprensione di una frase. Alcune di queste figure retoriche vanno lasciate intatte anche perché il lettore che presenta una qualche difficoltà di lettura deve apprendere le abilità per comprenderle in futuro in testi normali. In alcuni casi si effettuano inoltre dei collegamenti logici tra eventi, per evitare che il lettore debba sforzarsi per

62 comprenderli; in questo caso non si può effettuare l’operazione in maniera automatica, ma vanno valutate le singole frasi e le possibili incomprensioni che potrebbero generare.

3.2.1.2. Livello 1: frasi semplificate

Dalle frasi originali si effettua un’ulteriore semplificazione, che corrisponde al livello 1 del progetto Terence. In questo caso si è agito a livello lessicale e sintattico applicando le seguenti istruzioni:

 Sostituire unità lessicali “rare” con sinonimi più comuni;  Evitare metafore;

 Evitare espressioni idiomatiche;  Evitare frasi lunghe e complesse;  Evitare costruzioni sintattiche inusuali;

 Porre attenzione all’ordine temporale delle proposizioni, cercando di mantenere un ordine cronologico.

3.2.1.3. Composizione del corpus TERENCE

Il corpus è composto da 32 testi (o documenti) in totale, derivanti a loro volta dai capitoli di 5 racconti differenti, i quali sono stati semplificati nei diversi step descritti sopra; il livello è stato poi selezionato per costituire la versione originale e questa è stata allineata a livello di frase con il livello 1. Le frasi del testo originale sono 1060 e quelle del testo semplificato risultano 1081. Questa piccola differenza è causata dalle operazioni di semplificazione quali lo split (la divisione di una frase in più frasi) o il merge. I testi sono, nel dettaglio:

LIBRI DAI 7 AI 9 ANNI:

o Ugolino Scellino Giramondo, di Monica Massaro (5 capitoli); o Ernesta Sparalesta Eploratrice, di Monica Massaro (5 capitoli); o Una estate da ricordare (6 capitoli).

LIBRI DAI 9 AGLI 11 ANNI:

o Le avventure di Sofia e Benedetto (9 capitoli); o Muoversi (7 capitoli).

63 La tabella 3.1 mostra le percentuali dei tipi di allineamento effettuato all’interno del corpus Terence.

Allineamento 1:1 1:2 1:3 2:1 1:0 0:1

Percentuale 92.1 3.75 0.19 2.88 0.67 0.38

Tabella 3.1: Percentuali allineamento delle frasi del corpus Terence

Si può notare che un’evidente maggioranza corrisponde a frasi allineate 1 a 1, ma è presente un 4% circa di frasi che sono state divise in due frasi distinte, mentre solo raramente la divisione arriva a tre frasi differenti. Circa il 3% degli allineamenti corrispondo a frasi che sono state unite a formarne una soltanto. Un esempio di questo genere di evento (ovvero il merge delle frasi) è il seguente:

Frasi originali:

Ugolino pensò che il suo amico Elio era troppo impegnato per chiacchierare e passò oltre. Andò da Giacomo il fruttivendolo ma anche il fruttivendolo non gli rivolse neanche una

parola.

Frase semplificata:

Ugolino pensò che il suo amico Elio era troppo impegnato per chiacchierare e andò a trovare Giacomo il fruttivendolo, ma anche il fruttivendolo non gli rivolse neanche una

parola.