• Non ci sono risultati.

Capitolo 2 Corpora, Traduzione e Ricerca

2.6 Corpora multimediali per la traduzione

I corpora multimediali, utilizzati nell’ambito degli studi sulla traduzione, riguardano il dominio specifico dell’interpretazione o, come in parte già visto nel caso di MCA, la traduzione audiovisiva. Nonostante interpretazione e traduzione audiovisiva (in special modo le modalità di risonorizzazione, cfr. 1.2.1) richiedano la creazione di corpora multimediali paralleli allineati di lingua parlata, molto limitati e ancora in fase sperimentale di prototipo sono, a nostra conoscenza, i progetti che hanno tentato di compilare corpora di dimensioni apprezzabili per la conduzione di studi che possano realmente dirsi corpus-based. Pur esistendo, infatti, numerosissimi progetti che hanno elaborato corpora di sottotitoli e liste dialoghi di film e serie televisive, a partire da vari strumenti (anche mediante memorie traduttive), si tratta quasi esclusivamente di corpora di tipo orale in forma trascritta, che non contengono annotazioni del dato multimediale.30 Passiamo ora in rassegna alcuni dei progetti che, a nostra conoscenza, hanno tentato di colmare la lacuna esistente in materia.

30

Ne sono un esempio alcuni corpora raccolti da LABLITA dell’Università di Firenze, in particolare il Corpus Rossi e il Corpus Cresti, che includono solo la trascrizione dei film (circa 18 ore totali). Analogamente, esistono al giorno d’oggi molti corpora paralleli bilingui di dimensioni anche molto vaste, compilati a partire da raccolte di sottotitoli, spesso in maniera automatica, che trattano il testo sottotitolato alla stregua di normale testo scritto (cfr. Itamar/Itai 2008).

2.6.1 EPIC

Il corpus multilingue EPIC (European Parliament Interpreting Corpus) è stato messo a punto presso il Dipartimento di Studi Interdisciplinari su Traduzione, Lingue e Culture (SITLeC) dell’Università di Bologna, per l’analisi delle strategie traduttive adottate dagli interpreti durante l’interpretazione simultanea (Monti et al. 2005; Sandrelli/Bendazzoli 2005).31 Tale progetto ha il merito di avere per la prima volta tentato di applicare il metodo corpus-based allo studio dell’interpretazione simultanea, come a più riprese auspicato in letteratura (cfr. Shlesinger 1998).

EPIC è attualmente costituito da un archivio multimediale in cui sono conservati i dati audio-video dei discorsi originali e i dati in formato solo audio dei discorsi interpretati, e da un corpus testuale, composto a sua volta da nove sotto-corpora paralleli allineati di discorsi originali (inglese, italiano e spagnolo) di sedute plenarie di membri del Parlamento europeo e relative interpretazioni. EPIC si configura, pertanto, come un corpus di tipo reciproco, aperto e costantemente aggiornato. Il corpus trascritto è stato interamente taggato con il sistema di annotazione delle parti del discorso e lemmatizzato. Il materiale taggato è stato convertito in formato XML e indicizzato per mezzo di IMS Corpus Work Bench (CWB) (Christ 1994) per permettere all’utente di condurre interrogazioni semplici e avanzate ed estrarre liste di frequenza grazie allo strumento CPQ di CWB. EPIC è accessibile da Web mediante un’interfaccia che consente di restringere la ricerca ai singoli sotto-corpora impostando i criteri definiti nell’header e di interrogare il corpus combinando i tag utilizzati per l’annotazione. Al giorno d’oggi, pur essendo previsto nei prossimi sviluppi del progetto, il corpus di dati audiovisivi primari non è stato tuttavia ancora collegato al corpus testuale.

31

Il corpus è liberamente consultabile all’indirizzo http://sslmitdev- online.sslmit.unibo.it/corpora/corpora.php.

2.6.2 Il Pavia Corpus of Film Dialogue

Nell’ambito del doppiaggio non esistono, come premesso, corpora paralleli annotati di dimensioni significative L’unico modello, a nostra conoscenza, attualmente in fase di sviluppo, è il Pavia Corpus of Film Dialogue, messo a punto presso il Dipartimento di linguistica teorica e applicata dell’Università di Pavia, nell’ambito del progetto inter-universitario Ecolingua (Freddi 2007; Freddi/Pavesi, in stampa).32 Si tratta di un corpus bilingue parallelo unidirezionale, comprendente 12 film di origine americana e britannica doppiati in italiano, a cui si affiancherà, a regime, un corpus comparabile di film originali italiani. I film selezionati sono collocabili nell’arco temporale che va dal 1995 al 2005 e sono stati scelti perché contraddistinti da sceneggiature dialogate caratterizzate da un’alta frequenza di conversazioni faccia a faccia in situazioni quotidiane di diverso tipo.

Il database, creato con la tecnologia MY SQL, prevede l’inserimento di trascrizioni ortografiche e trascrizioni prosodiche delle liste dialoghi dei film, con la possibilità di interrogare entrambe le serie di dati, tramite sistemi tradizionali di concordanza e mediante forme di ricerca più complesse. La trascrizione prosodica prevede, oltre all’annotazione di tratti tipicamente analizzati nell’ambito dell’analisi conversazionale (quali sovrapposizioni, esitazioni, pause, interruzioni, intonazione), anche la marcatura di informazioni di tipo paralinguistico di aspetti cinesici, nonché di informazioni contestuali di natura non strettamente linguistica caratterizzanti il genere esaminato (cfr. Bonsignori in stampa). Il corpus è attualmente segmentato in base al turno di parola, corrispondente alla battuta. Ciascuna battuta viene inserita in una cella del database, assieme a informazioni di tipo extralinguistico (film, lingua, regista). Le singole battute sono inoltre allineate alle corrispondenti battute nella versione doppiata.

Il Pavia Corpus of Film Dialogue è specificamente mirato allo studio della traduzione filmica, delle equivalenze traduttive, della lingua filmica originale

32

Il progetto Ecolingua: e-corpora in linguistic and multimodal studies, in translation and in

on-line language learning and testing, finanziato dal Ministero dell’Istruzione, dell’Università e

della ricerca per il biennio 2005-2007, è stato coordinato a livello nazionale dall’Università di Trieste (Prof. Christopher Taylor). L’unità di ricerca di Pavia è stata invece coordinata dalla Prof.ssa Maria Pavesi.

(inglese) e doppiata (italiana), della variazione in base al genere, e dei vincoli che influiscono sulla traduzione. Attualmente, le ricerche condotte sul corpus, la maggior parte delle quali è raccolta nel volume di Freddi e Pavesi (in stampa), si sono incentrate sullo studio di forme lessicali specifiche (i pronomi personali soggetto), la disamina di casi di code-swhitching, l’analisi della traduzione di formule fisse, quali complimenti e insulti, e l’identificazione di soluzioni traduttive ricorrenti di vari aspetti pragmatici e sociolinguistici fortemente dipendenti dal contesto multimediale (Freddi 2007).

Tale corpus ha dunque il vantaggio di applicare metodi e strumenti della CL e dell’analisi del discorso agli studi sul doppiaggio. Ciononostante, dato che, al momento, non è stata realizzata una sincronizzazione del materiale trascritto con il corrispondente file video, e il corpus stesso è ancora in fase di compilazione, è per ora difficile individuare in maniera sistematica vantaggi e svantaggi rispetto a corpora paralleli propriamente multimediali.

2.6.3 INTCA

Nell’ambito specifico delle applicazioni lessicografiche, illustriamo, a completamento della presentazione dei corpora multimediali ad oggi disponibili, INTCA (Interjeccions Català-Anglès), un prototipo di dizionario elettronico di interiezioni in inglese e catalano, creato a partire da un corpus parallelo multimediale appositamente compilato (Matamala/Lorente 2008). Il dizionario è mirato a soddisfare le esigenze dei traduttori professionisti che operano nel campo della traduzione audiovisiva, fornendo risorse per la valutazione dell’equivalenza traduttiva di interiezioni primarie e secondarie, mediante l’accesso al contesto filmico nella sua interezza e autenticità. Per quanto riguarda le modalità di interrogazione, è possibile lanciare la ricerca sui singoli lemmi oppure selezionare la funzione pragmatica desiderata. Una volta visualizzati i risultati, è possibile accedere al relativo clip multimediale, cliccando sul link ipertestuale.

L’archivio utilizzato per la compilazione lessicografica contiene due sotto- corpora: un sotto-corpus monolingue e un sotto-corpus bilingue. Il corpus monoligue è composto da sitcom catalane (4 episodi in tutto) trascritte e

manualmente allineate al corrispondente clip video, da cui sono state estratte le interiezioni, inserite successivamente nel dizionario sotto forma di lemmi. Quest’ultimo contiene altresì le trascrizioni delle versioni delle sceneggiature originali date agli attori da interpretare, inserite per valutare l’apporto pragmatico della recitazione rispetto alle equivalenze traduttive proposte inizialmente. Il corpus bilingue comprende, invece, 3 episodi di 3 diverse sitcom inglesi con la corrispondente versione doppiata in catalano. Benché si tratti di un corpus di dimensioni limitate, anche nel caso di INTCA il corpus parallelo include solamente le versioni trascritte dei film, mentre i file video non sono né allineati né annotati.

Come gli altri corpora illustrati nel corso del capitolo, anche questo strumento non permette, dunque, un’analisi completa della totalità delle componenti semiotiche a partire dal loro supporto autentico. Come vedremo, tale sarà invece l’obiettivo specifico della banca dati messa a punto nel quadro della presenti tesi, di cui presenteremo dettagliatamente finalità, principi di progettazione e possibili usi nel capitolo successivo.

Capitolo 3