Palacky University Olomouc (CZ) - [email protected] 2
Sleska University Opave (CZ) - [email protected]
ABSTRACT
Obiettivo dell’intervento è quello di presentare il progetto Czech-IT!, un corpus in fase di sviluppo basato sull’analisi quantitativa di parlanti madrelingua ceca in fase di acquisizione dell’italiano. Differenti tipologie di testi sono inserite nel corpus: comunicazioni via mail per analisi di linguaggio burocratico, ricerche sul linguaggio informale (messaggi di testo e conversazioni) e linguaggio parlato e spontaneo. Si utilizzano strumenti di NLP ed automazione per ottenere informazioni morfologiche, sintattiche e POS dei testi.
1. INTRODUZIONE
In questo intervento vorremmo presentare il progetto “Czech-IT! A Linguistic corpus of native Czech learners acquiring Italian language”, un corpus linguistico online, reso disponibile alla massa di studiosi e interessati, dal Luglio 2017 e tuttora in fase di sviluppo all’indirizzo web https://czech-it.github.io/.
Si tratta di un corpus composto dall’analisi di differenti situazioni comunicative e diversi livelli di esperienza linguistica con la lingua target, che mira a descrivere un ampio spettro di variazione nel processo acquisizionale. La varia modalità delle entrate permette in primis la possibilità di individuare diversi fenomeni linguistici nelle strategie di acquisizione linguistica degli apprendenti, e in seconda analisi di approfondire altri campi di ricerca, come la linguistica contrastiva, la sociolinguistica e la linguistica computazionale.
Attualmente, il corpus Czech-It! conta circa 175 entrate da parte di più di 50 apprendenti, per un totale di circa 8000 parole, a cui si aggiungono le risposte ai questionari a risposta chiusa.
1.2 MOTIVAZIONI
Il Ceco (CZ) è una lingua del gruppo Slavo-Occidentale della famiglia indoeuropea (IE) [2, 11], con una spiccata complessità morfologica derivazionale e flessionale, riscontrabile nella formazione delle parole. L’Italiano (IT) è una lingua romanza della famiglia IE, strettamente collegata al latino1, che esibisce un ampio spettro di variazione distribuito tra dialetti, lingue regionali
e stili specialistici. I rapporti commerciali e culturali tra la Repubblica Ceca e l’Italia sono effettivi e profondi, e lo studio della lingua italiana tra parlanti madrelingua ceca è un fatto certamente degno di nota.
Dal punto di vista linguistico, CZ e IT conoscono un insieme di fenomeni divergenti, che permette un’investigazione in senso comparativo, incentrata sugli errori mostrati durante il percorso di acquisizione: ad esempio, l’assenza del sintagma del Determinatore (DP) e la ricca flessione nominale nella sintassi del CZ, laddove l’IT non mostra tale livello di complessità morfologica e non permette un simile uso dell’articolo [4, 15], che risulta in esempi di omissione (ex.1) o forme ipercorrette (ex.2):
• Sono vestiti vecchi 10 anni, quindi le uso per ø barca [I001, L001] • Mia insegnante Danka ha il coniuge e lui è l’italiano [I023, L004]
1.3 METODI
Data la sua natura libera da framework e indipendente da questioni teoriche, Czech-IT! vuole essere una risorsa sia per studi speculativi data-based, che per processi di insegnamento della L2 basati sulle acquisizioni empiriche. Il progetto e l’insieme dei dati raccolti sono rilasciati con licenza Creative Commons Attribution 4.0 International License, grazie alla quale rappresenta una risorsa inseribile nell’universo open knowledge [16].
2. IL CORPUS
Gli studi sul Second Language Acquisition (SLA) rappresentano un terreno fertile di ricerca, sia da una prospettiva applicativa [9] che da una teorica [10, 17]. L’uso di tecnologie computazionali e l’architettura digitale [6, 14, 19] per analisi comparative e quantitative rappresenta un passaggio fondante nell’attuale panorama di sviluppo degli studi linguistici, che apre ad un modello interdisciplinare di ricerca.
2.1 UN CORPUS BASATO SUGLI APPRENDENTI
Molteplici sono le esperienze di corpora basati su apprendenti e notevoli per estensione sono quelli centrati sull’italiano come L2 - citando a titolo di esempio il VALICO (www.valico.org/), il LIPS (www.parlaritaliano.it/index.php/it/dati/653-corpus- lips) ed il corpus multilingue MERLIN (www.merlin-platform.eu/).
Tuttavia, tali strumenti purtroppo non sempre sono sensibili dell’alta variazione sociolinguistica in fase di acquisizione, preferendo l’analisi di un singolo asse linguistico (lo scritto nel caso del Merlin) oppure focalizzandosi su esercizi guidati. Per tentare di ovviare ad una possibile monodimensionalità e raggiungere l’obiettivo di offrire un ampio spettro di situazioni linguistiche, tale da poter mettere in luce le diverse strategie dell’apprendente, si è scelto di schedare differenti tipi di situazioni comunicative:
• Un subcorpus di email per il linguaggio (quasi-)burocratico e accademico;
• Messaggi di testo come SMS, chat ed altre piattaforme di messaggistica informale; • Analisi di conversazioni in modalità spontanea;
• Questionari online creati con l’intento di ottenere auto-valutazioni da parte degli apprendenti rispetto al loro processo di acquisizione: i test prevedevano domande a risposta chiusa ed esercizi di scrittura.
I dati sono stati inseriti in una forma base di tipo testuale, in cui sono state archiviate le informazioni sull’apprendente, la data di inserimento nel corpus e le note del revisore, mentre il contenuto testuale di ogni esempio è stato processato attraverso tool automatici che hanno portato ad annotazioni sintattiche, morfologiche e categorizzazioni delle parti del discorso, rilevanti per fini quantitativi e statistici. Allo stato attuale, un dataset primario che contiene le entrate del corpus è collegato ad altri due fogli di calcolo: l’uno relativo agli apprendenti e l’altro alle categorizzazioni manuali dei fenomeni linguistici e trattamento automatico dei testi (tokenizzazione, lemmatizzazione e tagging POS -Part of Speech).
La separazione dei dati non marcati dallo schema di annotazione [13, 12] agevola la possibilità di trattare gli stessi in un più ampio spettro di output: per fini statistici e di data-visualization e si inserisce all’interno dei più recenti studi riguardo lo sviluppo delle iniziative in termini di progettazione digitale e digital scholarship.
Inoltre, l’architettura alla base può essere effettivamente implementata senza la necessità di ripensare la piattaforma nella sua interezza. Ciò permette ai dati di essere indipendenti dagli obiettivi contingenti e facilmente accessibili all’intera comunità di studenti, ricercatori ed utenti.
Tale progetto può essere utile per approcci data-based al SLA e per ricerche teoriche su interlingua, variazione sintattica e linguistica computazionale. Rispetto al corpus orientato sull’asse diamesico, le attività controllate permettono di ottenere informazioni da una prospettiva multifocale sullo SLA e sviluppare corpora orientati in senso diamesico e diafasico, testimonianti un ampio range di situazioni comunicative.
Oltre al modo automatico di analizzare i dati, si segnala anche un set manuale di annotazioni ai testi, che fornisce una tassonomia dei fenomeni linguistici riscontrati. Le annotazioni automatiche e le categorizzazioni manuali permettono al dataset di essere interpretabile tanto dall’utente quanto dalla macchina, il che porta ad un corpus interrogabile in manieraipertestuale basato su tecnologie web.
Un altro aspetto fondamentale del data management è quello del cosiddetto data curation, ovvero la salvaguardia dei dati stessi durante il processo di acquisizione e di trasformazione, e la delicata questione del loro trattamento [7, 18]. A questo proposito, si è reso necessario anche un sistema coerente di acquisizione dei dati che rispettasse i dati personali degli apprendenti. Così, a ognuno è stato, preventivamente alla collazione dei testi prodotti, presentato un modulo di consenso alla pubblicazione, l’interpolazione e interrogazione a fini scientifici della totalità delle produzioni da egli devolute al progetto Czech-IT. Tutto questo naturalmente garantendo all’autore dei testi, cioè all’apprendente, il diritto delle produzioni linguistiche indicate. Infine, l’apprendente non autorizza invece in nessun caso la pubblicazione di informazioni personali quali il nome, il cognome e l’indirizzo email. In questo modo i dati sono preservati e resi in forma anonimi già in fase di raccolta tramite l’utilizzo di un codice alfanumerico quale identificativo delle entrate del corpus: learners (attraverso la sigla Lxxx) e produzioni linguistiche (Ixxx) (es. L001, I001).
2.2 L’ARCHITETTURA INFORMATICA
L’architettura del progetto è distribuita e decentrata: ciò è reso possibile attraverso l’adozione di Github quale piattaforma di interscambio e pubblicazione di dati, e da software specifici per l’ottimizzazione del flusso di lavoro distribuito quali Trello e Slack. In questo modo i curatori del progetto hanno la possibilità di lavorare sugli stessi file nonostante una certa distanza fisica tra essi e comunicare tempestivamente gli aggiornamenti necessari.
Gli strumenti di Natural Language Processing (NLP) sono usati per le attività automatiche: la tokenizzazione ed il conteggio delle parole per ogni frase sono realizzati attraverso l’impiego di librerie dell’ambiente Python specificatamente designate per scopi linguistici, come NLTK[5], mentre l’attività di tagging POS [1] è attualmente in fase di rifinitura e verrà effettuata con Treetagger [20] in base ai parametri sviluppati da M.Baroni.
Similemente, è in programma lo sviluppo di un sistema di annotazione coerente dei dati linguistici così da poter essere fruiti al di là delle necessità contingenti del progetto: metadati ed annotazioni linguistiche utilizzabili sia per processazioni automatiche che per essere interrogati dall’utente.
3. CONCLUSIONI
In questo intervento abbiamo mostrato i principali paradigmi coinvolti nel progetto: una divisione dei subcorpora di tipo diamesico che permette di ottenere informazioni su diverse situazioni linguistiche, un certo numero di parlanti con differenti background, un sistema orientato in diafasia per le forme di autovalutazione dei parlanti.
L’uso delle procedure automatiche per analizzare il linguaggio naturale è coinvolto nelle strategie digitali e computazionali: gli strumenti di NLP permettono di ottenere una divisione in tokens dell’intero corpus, il conteggio delle parole, POS-tagging e lemmatizzazione. Ciò favorisce la possibilità di lavorare con un grande numero di dati a partire da un singolo testo. Gli apprendenti sono inseriti in un dataset con un insieme di informazioni riguardo la loro formazione: grado di istruzione, età, altre lingue conosciute e livello acquisito di Italiano scritto e orale. Quest’ultima informazione è fornita dagli apprendenti sottoforma di autovalutazione, e, in caso di studenti di corsi di lingua universitari o privati, in sintonia con i requisiti previsti dal corso stesso. Dal punto di vista del data curation, i contributi degli apprendenti sono elaborati con il consenso informato di questi ultimi, e i loro dati personali resi immediatamente anonimi.
Infine, tale procedimento rappresenta un percorso economicamente affrontabile per sviluppare corpora linguistici: attualmente è ospitato su Github ed usa molti software open source per processare i dati. Si è optato, in continuità con le facilitazioni sperimentate dall’uso di materiale aperto, di rendere completamente accessibile alla comunità l’intera collezione di dati in forma aperta.
3.1 SCOPI
Un simile progetto si propone dunque come una semplice piattaforma per ricerche linguistiche e per analisi collaborative orientate ai dati. Czech-IT! è un corpus incentrato sull’analisi di alcuni pattern linguistici esibiti durante il processo di acquisizione della seconda lingua (SLA), da ceco (CZ) a italiano (IT).
Il vantaggio di un tale modo di procedere è duplice: da un lato permette una chiara separazione tra i dati e il loro studio, dall’altro offre una modalità di collezione di dati indipendenti da framework teorici, che può essere usata in una grande varietà di ricerche linguistiche.
Tali tipologie di corpora possono essere sfruttati sia per ricerche accademiche che per iniziative private ed aziendali, come nel caso di modelli di insegnamenti nel mondo SLA, orientati su una prospettiva basata empiricamente sull’analisi degli errori e dell’interlingua, così da poter fornire ipotesi mirate ed esercizi centrati sull’apprendente.
3.2 SVILUPPI FUTURI
Il primo passo verso cui ci si vuole orientare è costituito dal superamento del limite minimo di 15000 tokens nel dataset, così da poter risultare in una mole di dati dotata di un certo (seppur piccolo) grado di scientificità. A questo si affiancano le operazioni computazionali sopra discusse, l’adozione di un sistema di markup coerente e la possibilità di disporre di annotazioni sintattiche automatiche. Questi processi ci sembra si inseriscano nella visione di un progetto aperto e disponibile per gli studiosi interessati al
tema.
4. BIBLIOGRAFIA
[1] Steven Abney. «Part-of-Speech Tagging and Partial Parsing». In: Corpus-Based Methods in Language and Speech Processing. A cura di Steve Young e Gerrit Bloothooft. Dordrecht: Springer Netherlands, 1997, pp. 118–136. ISBN: 978-94-017-1183-8. DOI: 10.1007/978-94-017-1183-8_4.
[2] Robert S. P. Beekes e Michiel A. Cor de Vaan. Comparative Indo-European Linguistics. Vol. 1. John Benjamins Publishing, 2011. ISBN: 978-90-2721-185-9.
[3] Giuseppe Berruto. Sociolinguistica dell’italiano contemporaneo. Manuali universitari (Rome, Italy).: Linguistica. Carocci, 2012. ISBN: 9788843063499.
[4] Valentina Bianchi. «Sulla struttura funzionale del sintagma nominale italiano». In: Rivista di Grammatica Generativa 17 (1992), pp. 105–127.
[5] Steven Bird, Ewan Klein e Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O’Reilly Media, 2009. ISBN: 978-0-596-51649-9.
[6] Alexander Clark. The Handbook of Computational Linguistics and Natural Language Processing. Vol. 1. 2010. ISBN: 978-14-0515- 581-6.
[7] Melissa H. Cragin e al. An Educational Program on Data Curation. 2007.
[8] Paolo D’Achille. L’italiano contemporaneo. Itinerari (Il Mulino).: Linguistica. Il Mulino, 2003. ISBN: 9788815088710. [9] Rod Ellis. The Study of Second Language Acquisition. Vol. 1. 1994. ISBN: 978-01-9442-257-4.
[11] Harald Hammarström, Robert Forkel e Martin Haspelmath. clld/glottolog: Glottolog database 3.0. Mar. 2017. DOI:10.5281/zenodo.437430.
[12] Nancy Ide e James Pustejovsky. Handbook of Linguistic Annotation. Springer Netherlands, 2017. ISBN: 9789402408812.
[13] Nancy Ide e Laurent Romary. «International standard for a linguistic annotation framework». In: Natural Language Engineering 10.3- 4 (2004), pp. 211–225. DOI: 10.1017/S135132490400350X.
[14] Mohamed Zakaria Kurdi. Natural Language Processing and Computational Linguistics. 2016.
[15] Giuseppe Longobardi. «Reference and proper names: a theory of N-movement in syntax and logical form». In: Linguistic Inquiry (1994), pp. 609–665. ISSN: 0024-3892.
[16] Marco Petolicchio e Marcello Bolpagni. Czech-IT! - Linguistic corpus of native Czech learners acquiring Italian language. Lug. 2017. DOI: 10.5281/zenodo.824984.
[17] Jason Rothman e Roumyana Slabakova. «The generative approach to SLA and its place in modern Second Language studies». In: Studies in Second Language Acquisition (2017), pp. 1–26. DOI: 10.1017/S0272263117000134.
[18] Arjun Sabharwal. Digital Curation in the Digital Humanities. Chandos Publishing, 2015. ISBN: 978-0-08-100143-1. DOI: https://doi.org/10.1016/B978-0-08-100143-1.00004-0.
[19] Heike Zinsmeister Sandra Kuebler. Corpus Linguistics and Linguistically Annotated Corpora. annotated edition. Bloomsbury Academic, 2015. ISBN: 1441116753,9781441116758.
[20] Helmut Schmid. «Probabilistic Part-of-Speech Tagging Using Decision Trees». In: Proceedings of International Conference on New Methods in Language Processing. 1994.