• Non ci sono risultati.

4. UN CASO PARTICOLARE DI SEMPLIFICAZIONE: FOCUS

4.4. Conclusioni sull’operazione di inserimento

Analizzando la buona quantità di esempi che i corpora Terence e Teacher forniscono nel caso dell’inserimento di una o più parole nel testo, non si può far altro che notare come l’operazione in questione sia molto complessa da modellare tramite regole (fatte a mano o in maniera automatica) che riescano nell’intento di descrivere in maniera esaustiva e soddisfacente come effettuare inserimenti in un testo. La scelta di cosa inserire inoltre spesso è qualcosa di totalmente arbitrario. Questo si nota soprattutto nel caso degli aggettivi che è stato riportato nella sezione precedente, dove la scelta di quale aggettivo inserire (e se inserirlo) dipendeva solo dalla persona che effettuava la semplificazione. L’inserimento serve principalmente ad aggiungere una qualche informazione mancante e questa a volte è recuperabile dalle cancellazioni che sono state effettuate dallo stesso testo (come negli esempi del “non”, sezione 4.3.2.). In altri casi però questi dati mancanti non sono recuperabili dal contesto, ma solo tramite ragionamenti anche piuttosto complessi.

In conclusione, tramite le analisi effettuate, si può dedurre che:

 L’operazione di inserimento è spesso “causata” da altre operazioni di semplificazione e dunque risulta necessario individuare il corretto ordine con cui eseguire le diverse operazioni di semplificazione nel sistema che verrà costruito a partire dalle risorse utilizzate;

 L’inserimento del soggetto sottinteso è un’operazione che esula dagli altri tipi di inserimento, in quanto segue uno schema più preciso delle altre (mancanza di un soggetto esplicito  individuazione del soggetto  inserimento del soggetto);

 L’inserimento è un operazione complessa, che dipende spesso da scelte non obbligate e arbitrarie;

132  L’insieme delle risorse descritte non può essere sufficiente per l’apprendimento automatico delle regole di inserimento, in quanto gli esempi estraibili sono molto differenti tra loro tranne che per pochissimi casi;

 Dal punto sopra deriva che la classificazione dei diversi inserimenti è utile per uno studio sulla distribuzione delle diverse tipologie, ma dal punto di vista pratico servirebbe una classificazione più approfondita, per ogni singola categoria e sottocategoria (es: l’aggettivo andrebbe diviso in tutte le tipologie di aggettivo disponibile nella lingua italiana). Questa non è stata effettuata perché con una quantità di dati così ridotta si sarebbe ottenuta una grande quantità di classi con all’interno pochissimi elementi (1 o 2 in molti casi).

133

CONCLUSIONI

La semplificazione automatica dei testi (ATS) rappresenta un task di NLP di alta difficoltà. Risulta infatti necessario un ampio quantitativo di risorse adatte allo studio di come la semplificazione venga effettuata da un essere umano e si necessita di regole di semplificazione che modellino in maniera efficace ciò che i dati estratti dalle risorse rappresentano. La varietà degli approcci alla semplificazione che si nota studiando attentamente un corpus frase per frase e la diversità degli esempi per ogni singola regola di trasformazione annotata, rendono l’ATS un campo di studio per il quale ancora la ricerca non ha portato risultati ottimali.

In questa tesi è stato mostrato in che modo, per diverse lingue, vari gruppi di ricercatori si siano applicati per trovare soluzioni soddisfacenti al problema, risolvendo alcuni dei casi di semplificazione di natura più facilmente modellabile. Non esiste però ancora un sistema che fornisca una semplificazione automatica che prenda in considerazione tutte la sfumature che un essere umano è in grado di introdurre quando si approccia alla semplificazione manuale.

È stato poi introdotto il concetto di leggibilità, mostrando in che modo sia possibile, analizzando le caratteristiche linguistiche di un testo, valutare in maniera automatica diversi indici di questa per una frase o un intero documento tramite READ-IT, un sistema costruito appositamente per la lingua italiana. Inoltre è stato mostrato in che modo effettuare il monitoraggio linguistico di un testo e quali diverse caratteristiche possono intervenire nel modificare la leggibilità.

Sono stati in seguito introdotti i primi corpora per l’italiano costruiti appositamente per la semplificazione automatica, ovvero Terence e Teacher. Tramite un’approfondita analisi delle caratteristiche degli stessi con il tool Monitor-IT è stato possibile sottolineare come la semplificazione effettuata da esperti del settore e insegnanti abbia fornito degli evidenti miglioramenti a livello di leggibilità e di come dunque le risorse presentate siano valide per il compito per cui sono state costruite.

Infine è stato analizzato nel dettaglio il caso di una particolare operazione di semplificazione tra quelle annotate nei corpora e che non è stata studiata in maniera

134 approfondita in precedenza: l’inserimento. L’operazione di inserimento è con certezza tra le più complesse da svolgere in maniera automatica (forse la più complessa di tutte). Gli studi effettuati nell’ultimo capitolo tendono a mostrare come la completa automatizzazione della stessa risulti al momento fuori discussione, in quanto per certi casi è possibile immaginare una soluzione fondata su regole “fatte a mano” mentre per altri (es: inserimento di un aggettivo) l’impressione è che inserimenti di un certo genere siano possibili solo per la mente umana (e come questi spesso risultino non catturabili dagli attuali indici di leggibilità attuali). Un ampliamento futuro delle risorse e dunque un ulteriore approfondimento su questa particolare regola di semplificazione potrebbe però condurre alla formulazione di idee in grado di portare a risultati interessanti e che mostrino spunti per un metodo preciso e funzionante di inserimento automatico. La natura dell’operazione e la sparsità dei dati dei corpora presentati, per il caso dell’inserimento, non concedono ancora di ipotizzare il successo dell’apprendimento automatico delle regole. Un primo approccio alla creazione di regole generate a partire dagli esempi andrebbe considerato però come una possibilità da non scartare, per studiare gli eventuali risultati ed approfondire le ricerche su questa operazione di semplificazione che, nel campo dell’ATS, non è stata ancora esaminata a fondo nonostante gli evidenti miglioramenti che mediamente porta a livello di leggibilità del testo.

135

BIBLIOGRAFIA

 ADURIZ Itziar, ARANZABE Maria Jesus, ARRIOLA Jose Mari, ATUTXA Aitziber, DE ILARRAZA Arantza Diaz, EZEIZA Nerea, GOJENOLA Koldo, ORONOZ Maite, SOROA Aitor, URIZAR Ruben. (2006) Methodology and steps towards the construction of

EPEC, a corpus of written Basque tagged at morphological and syntactic levels for automatic processing. In: Language and Computers, 56(1): pp. 1–15.

 ALLEN D. (2009) A study of the role of relative clauses in the simplification of news

texts learners of English. System, 37(4): 585-599.

 ALUISIO Sandra, SPECIA Lucia, MAZIERO Erick, PARDO Thiago, FORTES R. (2008)

Towards Brazilian Portoguese Automatic Text Simplification Systems. In: Proocedings of the 8th ACM Symposium on Document Engineering, pp. 240-248.

 ALUISIO Sandra, SPECIA Lucia, GASPERIN Caroline, SCARTON Carolina (2010)

Readability assessment for text simplification. In: TETRAULT J., BURSTEIN J., LEACOCK

C. (A cura di), Proceedings of the NAACL HLT 2010 Fifth Workshop of Innovative Use

of NLP for Building Educational Application, pp. 1-9.

 ANULA A. (2007) Tipos de textos, complejidad linguistica y facilitacion lectora. In: Man-Ki, Jy-Eun, Macas (a cura di), Actas del Sexto Congreso de Hispanistas de Asia (pp.45-61). Corea del Sud, Seul.

 ANULA A. (2008) Lecturas adaptadas a la enseñanza del español como L2: variable

linguisticas para la derminacion del nivel de legibilidad.

 ARANZABE Maria Jesus, DE ILARRAZA Arantza Diaz, GONZALEZ-DIOS Itziar (2013)

Transforming complex sentences using dependency trees for automatic text simplification in Basque. In: Procesamiento del lenguaje natural, 50, pp. 61-68.

 ATTARDI Giuseppe, DELL’ORLETTA Felice, SIMI Maria, TURIAN Joseph (2009)

Accurate Dependency Parsing with a Stacked Multilayer Perceptron. In: Evalita, 2009.

 BARLACCHI Gianni, TONELLI Sara (2013) ERNESTA: A Sentence Simplification Tool for

Children’s Stories in Italian. In: Proceedings of the 14th Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2013), pp. 476-487.

 BOHNET B., LANGJAHR A., WANNER L. (2000). A development environment for an

MTT-based sentence generator. In: Proceedings of the first international conference on natural language generation (pp. 260–263). Stroudsburg, PA, USA: Association for Computational Linguistics.

136  BOTT Stefan, SAGGION Horacio (2011) An unsupervised alignment algorithm for text

simplification corpus construction. In: Workshop on monolingual text-to-text generation, co-located with ACL 2011, Portland, Oregon.

 BOTT Stefan, SAGGION Horacio (2014) Text Simplification Resources for Spanish. In:

Language Resources & Evaluation, 48, pp. 93-120.

 BOWERS, J.S. (2000) In defense of abstractionist theories of repetition priming and

word identification. In: Psychonomic Bulletin & Review, 7, pp. 83-99.

 BROUWERS Laetitia, BERNHARD Delphine, LIGOZAT Anne-Laure, FRANÇOIS Thomas (2014) Syntactic Sentence Simplification for French. In: Proceedings of the 3rd

Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR), Gothenburg, Svezia: pp. 47-56.

 BRUNATO Dominique, DELL’ORLETTA Felice, VENTURI Giulia, MONTEMAGNI Simonetta (2014) Defining an annotation scheme with a view to automatic text

simplification. In: Proceedings of the First Italian Conference on Computational Linguistics (CLiC-it), 9-10 Dicembre, Pisa, Italia.

 CASELI Helena, PEREIRA Tiago , SPECIA Lucia, PARDO Thiago, GASPERIN Caroline, ALUISIO Sandra (2009) Building a Brazilian Portoguese parallel corpus of original and

simplified texts.

 CANDIDO Arnaldo Jr., MAZIERO Erick, GASPERIN Caroline, PARDO Thiago, SPECIA Lucia, ALUISIO Sandra (2009) Supporting the Adaptation of Texts for Poor Literacy

Readers: a Text Simplification Editor for Brazilian Portoguese. In: Proocedings of the NAACL HLT Workshop on Innovative Use of NLP for Building Educational Applications, pp. 34-42.

 CARROL John, MINNEN Guido, CANNING Yvonne, DEVLIN Siobhan, TAIT John (1998)

Practical simplification of English Newspaper Text to assist Aphasic Readers. In: Proceedings of AAAI98 Workshop o integrating Artificial Intelligence and Assistive Technology.

 CHANDRASEKAR R., DORAN C., SRINIVAS B. (1996) Motivations and Methods for Text

Simplification. In: Proceedings of the 16th International Conference on Computational Linguistics (COLING ’96).

 CHANG Chih-Chung, LIN Chih-Jen (2001) LIBSVM: a library for support vector

machines. Software disponibile all’indirizzo: http://www.csie.ntu.edu.tw/~cjlin/libsvm.

 DE BELDER Jan, MOENS Marie-Francine (2010) Text simplification for children. In:

137  DE MAURO Tullio (2000) Il dizionario della lingua italiana, Torino, Paravia.

 DELL’ORLETTA Felice (2009) Ensemble System for Part-of-Speech tagging. In: Evalita 2009.

 DELL’ORLETTA Felice, MONTEMAGNI Simonetta, VENTURI Giulia (2011) READ-IT,

Assessing Readability of Italian Texts with a View to Text Semplification. In: Proceedings of the Workshop on Speech and Language Processing for Assistive Technologies (SLPAT 2011), pp. 73-83, Edinburgh, 30 luglio 2011.

 DELL’ORLETTA Felice, MONTEMAGNI Simonetta, VECCHI Eva Maria, VENTURI Giulia (2011b), Tecnologie linguistico-computazionali per il monitoraggio della competenza

linguistica italiana degli alunni stranieri nella scuola primaria e secondaria. In:

BRUNO G.C., CARUSO I., SANNA M., VELLECCO I. (A cura di), Percorsi migranti:

uomini, diritto, lavoro, linguaggi, Milano, McGraw-Hill, pp.319-336.

 DELL’ORLETTA Felice, MONTEMAGNI Simonetta, VENTURI Giulia (2014) Assessing

document and sentence readability in less resourced languages and across textual genres. In International Journal of Applied Linguistics (2014) pp. 163-193.

 DEVLIN S., TAIT J. (1998) The use of a psycholinguistic database in the simplification

of text for aphasic readers. J. Nerbonne, ed., Linguistic Databases, pp. 161-173. Stanford, California: CSLI Publications.

 DING Yuan, PALMER Martha (2005) Machine translation using probabilistc

synchronous dependency insertion grammars. In: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 541-548. Association for Computational Linguistics.

 DRAS M. (1999) Tree adjoining grammar and the reluctant paraphrasing of text.

Ph.D. thesis, Macquarie University NSW 2109 Australia.

 DUBAY W. (2004). The principles of readability. Impact Information, 1–76.  FLESCH Rudolf (1949) The Art of Readable Writing. Pubblicato da: Harper & Row.  FLESCH Rudolf (1981) How to Write Plain English. Pubblicato da: Barnes & Noble. FRANCHINA V., VACCA Roberto. 1986. Adaptation of Flesh readability index on a

bilingual text written by the same author both in Italian and English languages. In

Linguaggi (3), pp. 47–49.

INUI Kentaro, FUJITA Atsushi, TAKAHASHI Tetsuro, IIDA Ryu (2003) Text Simplification

for Reading Assistance: a project note. In: Proceedings of the second international workshop on Paraphrasing-Volume 16.

 KOEHN P., HOANG H., BIRCH A., CALLISON-BURCH C., FEDERICO M., BERTOLDI N., COWAN B., SHEN W., MORAN C., ZENS R., et al. (2007) Moses: Open source toolkit

138

for statistical machine translation. In: Proceedings of the 45th Annual Meeting of the ACL on the Interactive Poster and Demonstration Sessions.

 LUCISANO I., PIEMONTESE M. E. (1988) GULPEASE: una formula per la predizione

della difficoltà dei testi in lingua italiana. In: Scuola e città, 3, 31, marzo 1988, La

Nuova Italia.

 MONTEMAGNI Simonetta (2013) Tecnologie linguistico-computazionali e

monitoraggio della lingua italiana. In: Studi Italiani di Linguistica Teorica ed Applicata (SILTA) Anno XLII, Numero 1, 2013, pp. 145-172.

 NIVRE Joakim, HALL Johan, KUBLER Sandra, MCDONALD Ryan, NILSSON Jens, RIEDEL Sebastian, YURET Deniz (2007) The CoNLL 2007 Shared Task on Dependency Parsing.  OGDEN Charles Kay (1930) Basic English: A General Introduction with Rules and

Grammar. Londra, Paul Treber.

 PETERSEN S. E., OSTENDORF M., (2007) Text Simplification for Language Learners: A

Corpus Analysis. In: Proceedings of the Speech and Language Tecnology for Education Workshop (SLaTE-2007), Pennsylvania, USA, pp. 69-72.

 SIDDHARTHAN Advaith (2002) An Architecture for a Text Simplification System.

Proceedings of the Language Engineering Conference (LEC 2002)

 SIDDHARTHAN Advaith (2011) Text Simplification Using Typed Dependencies: A

Comparison of the Robustness of Different Generation Strategies. In: Proceedings of the 13th European Workshop on Natural Language Generation (ENLG’11), Nancy, France, pp. 2-11.

 SIDDHARTHAN Advaith, ANGROSH Mandya (2014) Hybrid Text Simplification Using

Synchronous dependency grammars woth hand-written and automatically harvested rules. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2014).

 SIDDHARTHAN Advaith, ANGROSH Mandya (2014b) Text simplification using

synchronous dependendy grammars: Generalising automatically harvested rules.

 WOODSEND Kristina, LAPATA Mirella (2011) Learning to simplify sentences with

quasi-synchronous grammar and integer programming. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 409-420. Association for Computational Linguistics.

 WUBBEN S., van den BOSCH A., KRAHMER E. (2012) Sentence simplification by

monolingual machine translation. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1.

139  YATSKAR M., PANG B., DANESCU-NICULESCU-MIZIL C., LEE L. (2010) For the sake of

simplicity: Unsupervised extraction of lexical simplifications from Wikipedia. In: Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.

 ZENG-TEITLER Q., GORYACHEV S., TSE T., KASELMAN A., BOXWALA A. (2008)

Estimating consumer familiarity with health terminology: a context-based approach.