• Non ci sono risultati.

Capitolo 2 Corpora, Traduzione e Ricerca

2.5 Corpora oral

2.5.2 C-ORAL ROM

Gli studi finalizzati alla descrizione e alla conoscenza del funzionamento della lingua parlata in tutte le sue condizioni di impiego implicano un tipo di annotazione diverso, dal punto di vista fonetico e segmentale, del testo trascritto, che deve tener conto dei dati primari. Tuttavia, i principali corpora di lingua parlata ad oggi compilati, anche se includono i dati audioregistrati primari, non prevedono una loro annotazione specifica. Un’eccezione al riguardo è costituita da C-ORAL-ROM (Integrated Reference Corpora for Spoken Romance Languages). Il progetto, realizzato da un consorzio di università europee coordinate dall’Università di Firenze, finanziato nel novero del V programma quadro dell’Unione europea, comprende una raccolta di corpora di parlato spontaneo nelle quattro principali lingue romanze (italiano, francese, portoghese, spagnolo) per un totale di 1.200.000 parole (Cresti/Moneglia 2005). I corpora C-ORAL- ROM sono stati realizzati seguendo criteri progettuali volti ad assicurare un’adeguata rappresentazione della variazione del parlato spontaneo (formale ed informale) e un’efficiente comparabilità dei dati, trasversalmente ai quattro corpora.

Da un punto di vista tecnico, i corpora di C-ORAL-ROM sono conformi agli standard EAGLES di rappresentazione del parlato (Gibbon et al. 1997). I corpora testuali, in file TXT, sono trascritti, secondo l’implementazione dello standard CHAT, includendo meta-dati relativi alle sessioni e ai parlanti, righe di testo in trascrizione ortografica e righe per informazioni di tipo contestuale. La nuova versione del formato CHAT adottata in C-ORAL-ROM prevede, inoltre, la scansione orizzontale del testo di ogni turno con tags che distinguono i confini prosodici terminali e marcano la fine delle unità naturali del parlato, i confini non terminali e i confini prosodici relativi a episodi di frammentazione. I testi del corpus C-ORAL-ROM risultano così significativamente annotati rispetto alla scansione prosodica e divisi in unità maggiori, appunto gli enunciati (Cresti/Moneglia 2005: 14-27).

Gli strumenti per l’allineamento testo-suono e gli strumenti di analisi acustica del segnale sono forniti dal software Win Pitch Corpus, realizzato nell’ambito del

progetto C-ORAL-ROM come implementazione del programma WinPitch (Martin 2004).27 Il software consente l’analisi di tutti i parametri fondamentali della voce in tempo reale (F0, spettro, intensità e forma d’onda) e la sintesi dei parametri prosodicamente rilevanti (F0, lunghezza, intensità). WinPitch Corpus è stato concepito per consentire l’allineamento di grandi corpora direttamente dal formato testuale. L’allineamento consiste nella creazione di un file che lega il file TXT di testo al file audio WAV, specificando il tempo di inizio e di fine di determinati segmenti di informazione testuale. Se ne ottiene un formato multimediale testo/suono/analisi particolarmente ricco e integrato, specificamente concepito per la valutazione dell’informazione linguistica presente in grandi corpora di parlato spontaneo. Il tagging prosodico della risorsa è realizzato su base percettiva ed è simultaneo alla trascrizione del testo. Nella fase di formazione e tagging del corpus, l’operatore trascrive il testo annotando simultaneamente sulla trascrizione tutti i confini prosodici, sia terminali che non terminali, nel punto in cui li percepisce. L’accuratezza del tagging prosodico, realizzato sempre da operatori competenti, è tuttavia oggetto, in C-ORAL-ROM, di vari livelli di verifica da parte di esperti esterni, incaricati della validazione dell’annotazione. Per la sua concezione e strutturazione specifica, C-ORAL-ROM risulta quindi essere, a nostra conoscenza, l’unico esempio in campo italiano e romanzo di corpus multimediale comparabile multilingue, in cui il dato trascritto è allineato al corrispondente dato acustico.

2.5.3 MCA

MCA (Multimodal Concordancing Authoring System), ideato da un gruppo di ricerca comune delle Università di Pavia e Trieste (Baldry/Thibault 2001, 2006; Baldry 2004), nell’ambito del progetto DIDACTAS (Didattica dell’analisi testuale, dei corpora, della traduzione e della sottotitolazione), è uno strumento per la creazione, l’annotazione e l’interrogazione di corpora multimediali (da cui l’accezione di concordancer), accessibile tramite Internet.28 Il sistema è stato inizialmente concepito come parte della ricerca nell’ambito dell’applicazione di

27

Una versione demo del programma è scaricabile dal sito: http://www.winpitch.com. 28

un approccio sistemico-funzionale all’analisi multimodale (Thibault 2000) e, come tale, prevede tuttora la possibilità di elaborare trascrizioni rifacendosi a questo tipo di analisi. Il database relazionale poggia, infatti, su un’architettura XML che include funzionalità di trascrizione e di annotazione del dato multimediale e varie opzioni di interrogazione, che consentono di combinare ricerche testuali con ricerche su parametri utilizzati per l’annotazione, fino a tre livelli successivi. L’inserimento dei dati avviene tramite l’interfaccia della home page del sito, a cui è possibile collegarsi per creare corpora specifici da parte di utenti diversi (con livelli di accesso e autenticazioni differenti), modificare corpora esistenti, o procedere all’interrogazione dei dati, selezionando il corpus desiderato. Ad oggi, la base di dati include corpora multimediali di varia natura: corpora di cartoni animati, vignette, fumetti, pubblicità televisiva, pagine web, film di circuito, documentari, serie televisive, videoclip, ecc. La prima fase di inserimento dei dati prevede la possibilità di definire la serie di parametri che verranno considerati nell’annotazione. Si passa, in seguito, alla segmentazione del dato audiovisivo in sequenze di lunghezza variabile a cui devono essere in ultima istanza abbinati i parametri in precedenza definiti e selezionati.

MCA consente, pertanto, di allineare il dato audiovideo con la trascrizione della porzione di video interessata e di lanciare ricerche di tipo testuale su singole unità o stringhe di testo. Se il corpus è costituito da sottotitoli, il sistema restituisce una serie di righe che riportano la stringa di testo ricercata e, cliccando sull’apposito link ipertestuale, si viene reindirizzati verso quella porzione del film comprendente tutte le espressioni in lingua corrispondenti all’unità ricercata. Inoltre, il sistema visualizza anche la relativa trascrizione in lingua straniera dell’unità ricercata e il rispettivo numero della stringa nel corpus, consentendo, tramite una ricerca successiva, di contestualizzare l’intero segmento che comprende la porzione di testo in precedenza ricercata. È altresì possibile impostare criteri combinati per la ricerca testuale di due sintagmi diversi, contemporaneamente in due versioni, originale e sottotitolata, e visualizzare il video corrispondente ai risultati dell’una o dell’altra versione. Attualmente il sistema non consente, tuttavia, di visualizzare più di una sequenza filmica alla volta.

Dal 2000, il sistema MCA è stato utilizzato in una serie di studi sperimentali nell’ambito del progetto LINGUATEL, fra cui studi sulla sottotitolazione e sull’apprendimento linguistico. Al riguardo, un’applicazione di MCA è rappresentata dal PADOVA MEC, Padova Multimedia English Corpus, un corpus di scambi dialogici e monologici in lingua inglese, di circa 120.000 parole, annotato in base alle varie funzioni linguistiche e utilizzato nell’ambito dell’insegnamento della lingua inglese (cfr. Ackerley/Coccetta 2007). Un’altra applicazione dello strumento è stata sperimentata presso l’Università di Trieste. Obiettivo di tali studi è la ricerca di una base scientifica per l’identificazione di strategie traduttive mirate per la sottotitolazione filmica (Taylor 2003, 2004). A tal fine, si fa ricorso alla trascrizione multimodale, che frammenta il testo filmico in unità semiotiche distinte per l’identificazione di schemi ricorrenti di significato, sulla base dei quali è possibile formulare strategie di riduzione e compressione più coerenti ai fini dell’elaborazione dei sottotitoli. Inoltre, l’estrapolazione di tali schemi è ritenuta utile per determinare differenze e similitudini tra i vari generi e adottare strategie differenziate nella traduzione dei vari prodotti. Tuttavia, lo studio della sottotitolazione nei corpora creati con MCA è stato finora, a nostra conoscenza, sempre fortemente orientato in senso pedagogico e didattico (Taylor 2004: 15). Tale approccio è in linea con il filone di ricerca che, in ambito soprattutto italiano, ha considerato prioritariamente i sottotitoli come oggetto di indagine ai fini dell’apprendimento linguistico (Caimi 2002, 2007), diversamente dal testo doppiato che, come visto (cfr. 1.2.2), è stato invece più frequentemente studiato come testo rappresentativo di una specifica varietà del parlato (cfr. 1.2.2).

Da un punto di vista tecnico, MCA rappresenta quindi, ad oggi, lo strumento più completo in grado di combinare l’applicazione di metodi della linguistica dei corpora ad analisi particolareggiate sul dato multimediale. Tuttavia, il sistema non consente di allineare il video. Di conseguenza, benché adatto allo studio di prodotti sottotitolati, in cui si può prescindere dall’allineamento di due file audio- video distinti, in quanto la versione sottotitolata è sovrimpressa sul film originale, MCA non è però utilizzabile per l’analisi dei film doppiati.29 Il sistema non è

29

In realtà si tratta, anche in questo caso, di una funzionalità limitata perché il sistema non permette attualmente di confrontare più versioni sottotitolate in lingue diverse e, quindi, di creare corpora paralleli multilingui.

dunque utilizzabile al momento per l’analisi traduttologica e la conduzione di studi contrastivi. Infine, in previsione di una futura possibile comparabilità dei dati, trasversalmente ai vari corpora, problematica potrebbe risultare anche l’adozione di “grammatiche” diverse, ossia di una serie di parametri di annotazione specifici, com’è nella prassi dei corpora confluiti sinora in MCA. Se, da un lato, tale aspetto garantisce un’estrema flessibilità al singolo ricercatore, dall’altro, esso potrebbe limitare nel tempo la possibilità di creazione di grandi corpora comparabili.