I corpora di italiano parlato - Il corpus KIParla: una nuova risorsa per lo studio dell’italian

Il corpus KIParla: una nuova risorsa per lo studio dell’italiano parlato

2. I corpora di italiano parlato

Come mostrano le recenti rassegne bibliografiche di Pusch (2002), Baroni (2011) e Crocco (2015), sono attualmente disponibili numerose risorse per lo studio dell’italiano parlato. Vengono qui presentati i principali corpora di libero accesso, escludendo però sia le raccolte esistenti di parlato televisivo e radiofonico, sia le risorse che si concentrano su singole varietà di lingua (ad esempio varietà acquisizionali, specifiche situazioni di contatto, ecc.). Si presterà particolare attenzione a una serie di parametri, ritenuti di particolare interesse ai fini di uno studio della variazione linguistica e sociolinguistica del parlato (cfr. Voghera 2017):

1) Il punto / i punti di indagine

2) Le caratteristiche sociolinguistiche dei parlanti e la possibilità di accesso ai metadati

3) I tipi di ricerca possibili 4) L’accesso all’audio

5) Il periodo di riferimento del corpus

I Corpora LIP e VOLIP. La risorsa principale attualmente in uso in Italia è costituita dal Lessico dell’Italiano Parlato (LIP), pubblicato da De Mauro et al. (1993) e attualmente rivisto nel suo formato attraverso la risorsa VOLIP (Voghera et al. 2014). Il corpus consta di circa 60 ore di parlato (500 mila parole), differenziate per punto di indagine e per tipo di attività. Sono considerati quattro punti di indagine: Milano, Roma, Firenze e Napoli. I tipi di attività considerati sono riconducibili a cinque macro- categorie: A) conversazioni faccia a faccia; B) conversazioni telefoniche; C) scambi comunicativi bidirezionali con alternanza di turno predefinita, come interviste, dibattiti, interazioni in aule scolastiche, esami orali, ecc.; D) monologhi, come letture, sermoni, discorsi, ecc.; E) programmi radiofonici e televisivi. I criteri che definiscono ciascuna delle macro-categorie sono: 1) il formato della comunicazione, che può essere unidirezionale (monologo) o bidirezionale (dialogo); 2) la presenza o assenza di restrizioni sulla presa di turno; 3) la dimensione faccia a faccia o a distanza della comunicazione. A fianco dei molti vantaggi offerti dalle risorse LIP/VOLIP, che hanno avuto un ruolo pionieristico negli studi relativi all’italiano parlato oltre a rappresentare per molto tempo praticamente l’unica risorsa disponibile ad accesso libero, vi sono una serie di problemi che si presentano. Nonostante “[t]he corpus represents diaphasic, diatopic, and diamesic variations” (Voghera et al. 2014: 630), l’impossibilità di accedere alle coordinate contestuali in cui ciascuna registrazione è stata realizzata ostacola non poco l’identificazione ad esempio di quali interazioni siano da ritenersi formali o informali, del rapporto fra i partecipanti, della natura dell’interazione. Inoltre, senza l’accesso ai metadati dei parlanti è possibile solo individuare tendenze di grana grossa anche per quanto riguarda la dimensione diatopica: in molti casi solo l’accesso alla biografia linguistica dei partecipanti permetterebbe un’analisi di grana più fine relativa a fatti di variazione geografica.

Il corpus LABLITA. Il corpus LABLITA, elaborato presso l’Università di Firenze costituisce per larga parte l’aggiornamento del precedente corpus Stammerjohann

(Tucci & Signorini 2004), raccolto a Firenze intorno al 1965. Per quanto riguarda la caratterizzazione sociolinguistica dei dati, gli autori hanno lavorato sul bilanciamento dei dati sia da un punto di vista diamesico, con riferimento a vari casi in cui sia coinvolto il canale fonico-acustico quali broadcasting, conversazione telefonica, parlato “naturale”, sia da un punto di vista diafasico, con attenzione per la natura del rapporto fra i partecipanti (privata, familiare, pubblica), per la qualità dell’interazione (libera o regolata), per la struttura dell’evento comunicativo (monologo, dialogo o conversazione). Una parte di questi dati è stata trascritta e annotata in formato CHILDES (MacWhinney 2000) e resa disponibile nell’ambito del progetto C-ORAL ROM (Cresti & Moneglia 2005). Attualmente, tuttavia, il corpus non risulta essere di libero accesso.

Il corpus CLIPS. Il corpus CLIPS (Sobrero & Tempesta 2007) ha alla base della sua struttura un maggiore interesse per lo studio della variazione, e in particolare della dimensione geografica. Sulla base dell’incrocio di una serie di criteri sia linguistici e dialettologici, sia socio-economici, è dunque stato scelto un campione di 15 città che mira a essere rappresentativo delle principali divisioni dialettologiche presenti sul territorio nazionale e dei vari gradi di sviluppo socioeconomico attestati per i singoli centri urbani. Il corpus si compone di quattro sottosezioni, ciascuna con una propria caratterizzazione diafasica specifica: parlato radiotelevisivo, parlato dialogico, parlato letto, parlato telefonico. In virtù della campionatura presentata, il corpus sarebbe, tra quelli attualmente disponibili, quello maggiormente adatto allo studio della variazione nell’italiano parlato. Vi sono però alcuni elementi che ne limitano l’efficacia: la sottosezione corrispondente al parlato dialogico, quella che spesso è più interessante per gli studi sulla comunicazione parlata, è stata costruita utilizzando le tecniche del map task e del test delle differenze, e restituisce dunque dati di parlato elicitato che sono sicuramente adeguati per studi di interesse fonetico/fonologico, ma risultano meno adatti ad esempio per lo studio di fenomeni pragmatico-conversazionali. Uno degli aspetti desiderabili del corpus è invece la possibilità di avere accesso diretto sia ai file audio che alle trascrizioni.

Il Perugia Corpus. Il Perugia Corpus (Spina 2014) offre la possibilità di consultare una serie di dati di italiano parlato, unendo risorse già esistenti con dati inediti raccolti presso l’Università per Stranieri di Perugia, per un totale di 3.932.160 parole (2.158.522 escludendo la parte di parlato televisivo e filmico). Sono contenuti nella sezione relativa al parlato tutti i testi del LIP, la sezione italiana del corpus Saccodeyl (Pérez-Paredes & Alcaraz Calero 2007) e alcune parti del corpus CLIPS (v. sopra). L’innegabile vantaggio di questa risorsa relativamente recente è la sistematica lemmatizzazione ed etichettatura dei materiali e la presenza di un’interfaccia accessibile online che permette così ricerche di vario tipo. Tuttavia, il corpus eredita le stesse disfunzioni dei corpora meno recenti che lo compongono per buona parte, per cui anche qui è impossibile risalire sia ai metadati delle singole interazioni, sia a quelli dei partecipanti. In particolare, non è facile individuare le caratteristiche dei testi inediti raccolti dal gruppo di ricerca dell’Università di Perugia, di cui non vengono fornite indicazioni relative alla provenienza, alle modalità di elicitazione o ai partecipanti.

Il corpus ParVa. Il corpus ParVa (Guerini 2016), nonostante le sue modeste dimensioni, ha innumerevoli vantaggi. In primo luogo il corpus si caratterizza per la sua coerenza interna, sia per quanto riguarda il punto di inchiesta, in quanto è rappresentativo di varietà di italiano parlate nella provincia bresciana e in particolare

nella val Camonica, sia per quanto riguarda il tipo di interazione rappresentato: sono raccolte interviste semistrutturate a ex partigiani, ai quali viene chiesto di raccontare fatti legati alla Resistenza e alla Seconda guerra mondiale; è garantita così anche una certa compattezza dei testi da un punto di vista tematico e contenutistico. In secondo luogo, il ParVa fornisce una serie di informazioni relative ai parlanti stessi, soprattutto per quanto riguarda occupazione e titolo di studio: ciò è di vitale importanza in quanto permette di ottenere generalizzazioni anche per quanto riguarda la collocazione dei fenomeni osservati lungo l’asse diastratico. In Cerruti (2016) e Ballaré & Goria (in stampa) ad esempio sono considerate due classi di parlanti nel ParVa, la prima corrispondente a parlanti di italiano popolare, la seconda corrispondente a parlanti di varietà diastraticamente più alte. Il principale ostacolo alla consultazione del ParVa è il formato in cui i dati sono archiviati: il corpus infatti non dispone di una piattaforma di ricerca online e può essere indagato soltanto mediante l’accesso ai singoli testi, con evidenti limiti rispetto ai tipi di ricerca che possono essere eseguiti.

Questa rassegna estemporanea dei principali corpora di italiano parlato mette in luce una serie di aspetti che meritano attenzione. Da un lato si osserva che il crescente interesse per le varietà parlate di italiano ha stimolato la raccolta di dati e la costruzione di risorse che sono state successivamente rese disponibili, in alcuni casi anche in forma annotata e lemmatizzata; dall’altro si nota però che spesso i singoli corpora rispecchiano esigenze di ricerca molto specifiche e solo in alcuni casi possono essere “riciclati” per scopi più generali. L’ostacolo più grande, che caratterizza tutte le risorse considerate, è l’assenza di un sistema di metadati che permetta di verificare ipotesi relative alla marcatezza sociale di determinati tratti linguistici: in quasi tutti i casi è impossibile avere accesso all’età di chi parla, alla sua occupazione o al suo livello di istruzione. Allo stesso modo sono spesso insufficienti le informazioni fornite relativamente al contesto in cui si è effettuata la registrazione, rendendo ancora una volta i dati di difficile interpretazione. Sembra porre un limite alla ricerca sull’italiano parlato anche la scarsa accessibilità dei dati: anche in corpora di libero accesso, non vi è mai sincronizzazione tra l’audio e la trascrizione, così come è spesso assente un’interfaccia di ricerca che permetta di effettuare ricerche estensive su tutto il corpus invece che sulla singola registrazione o trascrizione. Si pongono infine questioni di natura etica e deontologica che derivano dall’esigenza di proteggere l’identità e i dati sensibili degli informatori e che in molti casi impediscono la condivisione dei dati linguistici. Molti gruppi di ricerca oggi richiedono agli informanti la firma di un modulo per il consenso informato, che tra le altre cose autorizza al trattamento dei dati, ma l’adozione di questa pratica sembra essere piuttosto recente e non sembra sia stata contemplata nella costruzione dei primi corpora di italiano parlato.

3. Il corpus KIParla: metodologia per una raccolta dati trasparente e

Nel documento CLUB Working Papers in Linguistics Volume 2 (pagine 99-101)