• Non ci sono risultati.

Capitolo 2 Corpora e traduzione

2.3 Tipi di corpora

2.3.1 corpora generali e specializzati

Esiste una vasta gamma di tipi di corpora che sono stati creati nell’ambito della traduzione. Infatti, è possibile classificarli a seconda dei diversi criteri. Innanzitutto due macro categorie sono rappresentate dai corpora generali e specializzati, i quali si distinguono per la maggiore o minore varietà di generi e domini rappresentati.

I corpora generali sono composti da vaste raccolte di testi rappresentativi di diverse varietà di una lingua e prodotti in diversi contesti d’uso. Esempi significativi di corpora generali sono il British National Corpus,20 un corpus di riferimento

bilanciato della lingua inglese, composto da più di 100 milioni di parole e il corpus La Repubblica che include le annate del quotidiano “La Repubblica” dal 1985 al 2000, un corpus di riferimento di italiano giornalistico composto da circa 380 milioni di tokens.21

I corpora specializzati contengono invece testi di uno specifico dominio (ad.es medico, agricolo, giuridico) o genere (articoli giornalistici, tesi di laurea). Indubbiamente, i corpora generali sono utili negli studi di traduzione, tuttavia, i corpora specializzati hanno un valore particolare per la ricerca sulla traduzione tecnico-scientifica, in quanto sono generalmente meno estesi come dimensione ma più rappresentativi di una specifica varietà linguistica. Inoltre, contengono un’alta frequenza di termini che possono essere utili per i traduttori e possono fornire una base per studiare in modo contrastivo le caratteristiche lessico-grammaticali dei testi originali e dei testi comparabili nella lingua d’arrivo.

20 <https://www.english-corpora.org> (ultima consultazione 10/03/2019)

21 Il corpus La Repubblica è accessibile attraverso la piattaforma Corpora@DipInTra, sviluppato dal

centro di ricerca CoLiTec (Corpora, Linguistica, Tecnologia). Mediante l’interfaccia di questa piattaforma, è possibile inoltre consultare i corpora come: acWaC (accademico Web-as-Corpus), un corpus per studiare il linguaggio accademico-istituzionale; WaCky (Web-As-Corpus Kool Yinitiative), una raccolta di corpora di grandi dimensioni costruita scaricando automaticamente i testi dai siti inglesi, francesi, tedeschi e italiani. <https://corpora.dipintra.it> (ultima consultazione10/03/2019)

2.3.2 Corpora monolingui e multilingui

La distinzione tra corpora monolingui e multilingui consiste nel numero di lingue presenti in un corpus. Un corpus monolingue è composto da testi in una sola lingua. Negli studi di traduzione, un corpus monolingue generalmente contiene due sottocorpora che vengono creati da testi analoghi come argomento, contenuto o genere, uno composto da testi originali non tradotti e l’altro da testi tradotti nella stessa lingua. Questo tipo di corpus monolingue è utile nello studio delle caratteristiche del linguaggio dei testi tradotti. Un progetto che utilizza questa metodologia è l’English Comparable Corpus (ECC), il quale è composto da due raccolte di testi in lingua inglese: una comprende testi giornalistici e narrativi tradotti in inglese da diverse lingue, l’altra invece testi originariamente in lingua inglese. Laviosa (1998a) ha messo a confronto i due corpora rivelando alcune caratteristiche generali dei testi tradotti.22

Un corpus multilingue invece è composto da testi in più di una lingua. I corpora che coinvolgono due lingue sono spesso conosciuti come corpora bilingui, mentre i corpora multilingui in senso stretto sono formati da più di due lingue. Un corpus multilingue può essere parallelo o comparabile (sezione 2.3.3). Entrambi i tipi sono utili negli studi di traduzione, verranno quindi descritti nella sezione successiva.

2.3.3 Corpora paralleli e comparabili

Un corpus parallelo, come afferma Olohan (2004), comprende i testi della lingua di partenza con le loro traduzioni. I corpora paralleli possono essere unidirezionali, contenenti testi originali in lingua A e relative traduzioni in lingua di destinazione, oppure bidirezionali, ovvero contenenti testi originali in due lingue A e B e le

22Laviosa (1998a) ha rilevato quattro differenze d’uso a livello lessicale tra testi tradotti e originali, in

particolare: i) i testi tradotti hanno una densità lessicale inferiore; ii) la proporzione di parole ad alta frequenza rispetto alle parole a bassa frequenza è relativamente più alta nei testi tradotti; iii) le parole più frequenti si ripetono più spesso; iv) le parole più frequenti dei testi tradotti appartengono a meno

rispettive traduzioni nelle stesse due lingue. Tutti i corpora paralleli prevedono l’inserimento di testi originali e relative traduzioni in una o più lingue. I corpora paralleli possono essere applicati nella traduzione per identificare equivalenti linguistici, nello studio di strategie traduttive adottate dai traduttori e negli studi sui sistemi di traduzione automatica (Tognini Bonelli 2001).

I corpora comparabili invece sono suddivisi in corpora comparabili bilingui e corpora comparabili monolingui. I primi vengono definiti come insiemi di testi originali nella lingua A e nella lingua B, ritenuti simili per determinate caratteristiche. Negli studi sulla traduzione la comparabilità è di solito declinata rispetto ai contenuti, al dominio e alla funzione comunicativa dei testi nelle due lingue. I corpora comparabili bilingui sono stati utilizzati principalmente per l’estrazione terminologica e la traduzione assistita e automatica. Inoltre possono fornire riferimenti sulla lingua nel suo contesto spontaneo e quindi permettono agli studenti di traduzione e/o traduttori di produrre testi d’arrivo più naturali (Pearson 2003). Questo tipo di corpus è probabilmente più rilevante per l’insegnamento della traduzione, attraverso il quale gli studenti possono imparare l’uso idiomatico dei termini e delle collocazioni o dello stile della lingua di arrivo in relazione ai tipi e generi di testi specifici (Bowker e Pearson 2002). Afferma anche Krüger (2012) che gli studi dei corpora di traduzione danno la priorità al processo di traduzione, dunque il confronto tra testi di partenza e testi di arrivo consente, almeno in parte, un ripercorso del processo decisionale traduttivo.

I secondi invece sono formati da testi originali nella lingua A e di testi tradotti nella stessa lingua. I corpora comparabili monolingue hanno un ruolo prominente nella ricerca sulla traduzione, in quanto ci offrono la possibilità di investigare degli universali che costituiscono i tratti distintivi della traduzione e di effettuare analisi contrastive delle caratteristiche lessicali e sintattiche (sezione 2.2.2.1). Sono stati condotti numerosi studi basandosi su questo tipo di corpus (ad es.Baker 2000).

In aggiunta ai tipi presentati, i corpora possono essere ulteriormente classificati a seconda del tipo di lingua coinvolta (orale o scritta) e dei fattori particolari presenti nei testi selezionati per un corpus (per esempio i testi in una determinata lingua

prodotti da parlanti nativi e quelli da non nativi). In questa sezione abbiamo esaminato solo alcuni dei principali tipi di corpora che a nostro avviso assumono particolare rilevanza all’interno del presente progetto.

La sezione successiva è dedicata al tema dei CTS in Cina, che sarà approfondito sulla base del seguente percorso: forniremo innanzitutto una panoramica sullo sviluppo e i progressi di questa disciplina; successivamente saranno presentati alcuni tra i corpora più rappresentativi a disposizione della comunità scientifica sul cinese mandarino, offrendo un quadro delle principali risorse con un’attenzione particolare ai corpora paralleli e comparabili; infine, metteremo in evidenza le maggiori applicazioni e sfide dei corpora per lo studio della traduzione che coinvolge la lingua cinese.