• Non ci sono risultati.

Sia per la lingua russa, sia per l’italiano, considerati separatamente, esistono diversi CP disponibili gratuitamente in rete. Un’enorme quantità di corpora paralleli, o meglio collezioni di testi – attenendosi alla distinzione proposta nel par. 3 – è raccolta, ad

90 Taglio nostro.

48

esempio, sui già citati InterCorp91 e Opus92, la maggiore risorsa online ad essi dedicata.

Quest’ultimo raccoglie dati provenienti da diversi settori e ricopre più di 90 lingue. Si tratta perlopiù di testi legislativi o amministrativi reperiti dai database delle Nazioni Unite o di altre istituzioni, quali l’Unione Europea, ma vi sono anche sottotitoli di film, articoli di giornale e altri testi tratti da varie risorse online a cui Opus rimanda direttamente (Tiedermann 2012). Opus permette di avviare una ricerca nelle coppie di lingue desiderate e fornisce all’utente la lista di corpora comprendenti le lingue richieste. È necessaria un’attenta analisi delle fonti, dal momento che a volte si tratta di file tradotti sia in russo che in italiano, ma con originali in un’altra lingua e il portale in questo caso non fa distinzione. Le collezioni di testi paralleli per il russo e l’italiano che abbiano come originale una delle due lingue sono le seguenti: OpenSubtitles2013, OpenSubtitles2012, OpenSubtitles2011, Books, EUbookshop, Tatoeba.

Opus consente di scaricare i file allineati, oppure, in alternativa, presenta un motore di ricerca che attinge ai dati di ciascuna collezione singolarmente; la ricerca non può essere effettuata su tutte le collezioni simultaneamente. I risultati ottenuti vengono incolonnati, con frase in L1 sulla sinistra e la rispettiva traduzione in L2 sulla destra; in alternativa possono essere visualizzati in formato KWIC.

Considerata la mancanza di chiarezza relativa a molte di queste risorse (autori dei testi e delle traduzioni, anno di pubblicazione, lingua fonte e lingua d’arrivo ecc.), non ci è consentita una descrizione precisa. Ci limiteremo ad inserire dunque in una tabella riassuntiva (tab. 2) solo i dati effettivamente disponibili.

91 Il progetto InterCorp è nato con l’intento di creare un ampio corpus parallelo comprendente tutte le lingue studiate alla Facoltà di Arte dell’Università Carolina di Praga. Una parte del corpus – definita core corpus – è stata compilata in modo tradizionale, allineando testi letterari manualmente con la rispettiva traduzione in una data lingua, sebbene in alcuni casi le coppie di lingue allineate siano entrambe traduzioni. In aggiunta, InterCorp si compone di testi processati automaticamente, quindi collezioni (cfr. definizione di EAGLES) di estratti da diverse risorse, in parte accessibili attraverso altri portali (ad esempio Opus). Nella home page di InerCorp si avvertono gli utenti della possibilità di incontrare errori di allineamento proprio per l’assenza di qualsiasi intervento manuale. Queste le fonti: Project Syndacate e PressEurop (collezione di commenti politici); Acquis Communautaire corpus (comprendente testi legali dell’Unione Europea);

Europarl (accessibile anche da Opus); Open Subtitles (accessibile anche da Opus). Il corpus è di vastissima portata. A maggio 2015 il core corpus contava 195 milioni di parole intese come token complessivamente.

La parte ceco-italiano ne contava 7,2 milioni. Di entità ancora maggiore è la sezione tratta dalle fonti sopra citate, dove si raggiungono 1,229 milioni di parole (sempre considerando tutte le coppie di lingue). Il corpus è dotato di una parziale annotazione morfologica. Per un approfondimento cfr.:

http://ucnk.ff.cuni.cz/intercorp/?req=page:info&lang=en (gennaio 2017).

92 http://opus.lingfil.uu.se/(gennaio 2017).

49 Tab 2. Collezioni di testi paralleli ru-ita disponibili online

CORPUS DOCUMENTI FRASI TOKEN DESCRIZIONE

OpenSubtitles

2011-2012-2013 10.853 7,6 milioni

91.6 milioni

Portale che presenta la traduzione di sottotitoli in diverse lingue. Le traduzioni sono realizzate e caricate sul sito dagli utenti, i quali svolgono il lavoro volontariamente e gratuitamente.

Books 2 17.900 600.000

Collezione di libri allineati in varie lingue da Andras Farkas93. Per russo e italiano tuttavia gli unici testi disponibili sono i due volumi di Anna Karenina di L. Tolstoj.

EUbookshop 37 6.600 200.000

È una libreria online composta da pubblicazioni, dal 1952 ai giorni nostri, in più di 50 lingue. La maggior parte dei documenti è redatta da enti dell'Unione Europea. La libreria è gestita dall'ufficio pubblicazioni dell'UE in Lussemburgo.

Tatoeba / 2.700 33.900

Corpus parallelo aperto e "cooperativo"

composto esclusivamente da frasi tradotte in 129 lingue. Anche in questo caso si tratta di traduzioni eseguite dagli utenti. Chiunque può offrire il proprio contributo e chiunque può impiegare il materiale tradotto a scopi di ricerca, per manuali, applicazioni e altro ancora.

totale 10892 7,6 milioni

92,5 milioni

Come avviene tradizionalmente nell’ambito della LC, il confronto con corpora già esistenti fornisce modelli da impiegare nella futura progettazione di un corpus. Come riporta Šarov, la nascita e lo sviluppo degli stessi corpora di lingua russa, tra cui БОКР (cfr. nota 76), hanno seguito le linee guida dettate dai loro predecessori, in particolare dai corpora di lingua inglese (Sharoff 2006: 168). Anche per l'ampliamento del CP ita-ru, dunque, ci atterremo a tale pratica. Tuttavia, le risorse elencate nella tabella 2 mancano della sistematicità posta come caratteristica necessaria da Nesselhauf (2011) nel paragrafo 1.3. e, in generale, non rispondono ai criteri che individueremo per caratterizzare un corpus bilanciato e utile a scopi di ricerca. Per questo motivo, prenderemo in esame sia altri CP creati fino ad ora al di fuori del NKRJa e non necessariamente in lingua russa e

93 Reperibili al sito http://www.farkastranslations.com/bilingual_books.php (gennaio 2017).

50

italiana (perché assenti), sia i principali corpora generali che si può dire abbiano segnato la storia della LC.

1.7. Corpora a confronto

Per stabilire i criteri utili alla progettazione di un corpus parallelo ci riferiremo, inizialmente, ai contributi di quanti, in passato, hanno affrontato questo problema. In particolare si è deciso di prendere in esame i seguenti corpora:

● tre corpora generali di lingua inglese, che dagli anni Sessanta ad oggi hanno fornito validi modelli nell’ambito della LC, ossia il Brown Corpus (BrC), il British National Corpus (BNC) e il Corpus of Contemporary American English (COCA);

● uno dei principali corpora di riferimento della lingua italiana: CORIS/CODIS;

● un corpus parallelo di testi in inglese e norvegese, che riteniamo particolarmente significativo: l’English-Norwegian Parallel Corpus (ENPC);

● CEXI (the English Italian Translational Corpus), che, sebbene mai realizzato per mancanza di fondi, intendeva essere il primo corpus sistematico e bilanciato di testi paralleli in inglese e italiano (Zanettin 2012: 49)94.

Elenchiamo i corpora di riferimento con alcune informazioni tecniche relative al tipo di corpus e alla sua dimensione, misurata in numero di token:

Tab. 3. Elenco e descrizione dei corpora di riferimento

NOME TIPO DI CORPUS TOKEN

BrC Corpus generale ING

americano

1 milione

BNC Corpus generale ING

britannico

100 milioni

COCA Corpus generale ING americano

450 milioni

CORIS/CODIS Corpus generale ITA 130 milioni ENPC Corpus parallelo ING-NORV 2,6 milioni CEXI Corpus parallelo ING-IT 4 milioni

94 Sebbene il corpus non sia mai stato realizzato, sembra utile esaminarne la progettazione, che invece è disponibile, proprio perché rappresentava uno dei pochi progetti per la creazione di un corpus parallelo bilanciato per la lingua italiana.

51

Abbiamo considerato innanzitutto il BrC e il BNC poiché i due corpora hanno contribuito a plasmare in maniera considerevole l’ancor giovane storia della LC, nata proprio in ambito anglosassone. In particolare il BNC deve la sua esistenza a John Sinclair, uno dei fondatori della linguistica dei corpora, che a suo tempo si occupò in prima persona della sua creazione e progettazione. Pertanto, anche se datati, questi corpora vantano una sistematicità talmente elevata da essere ancora oggi un ottimo esempio per la compilazione di qualsivoglia corpus elettronico. Il COCA è invece, attualmente, il corpus generale più vasto per l’inglese americano e può essere considerato come uno dei corpora generali più bilanciati esistenti. La differenza e novità rispetto al BrC e al BNC sta nel suo continuo monitoraggio, che prevede ogni anno un'aggiunta di 20 milioni di parole equamente distribuite tra le varie tipologie testuali in esso rappresentate.

Per quanto riguarda i restanti corpora, si è voluto prendere in esame, innanzitutto, il corpus generale CORIS/CODIS, uno dei più importanti corpora di riferimento per la lingua italiana creato presso l’Università di Bologna. Infine abbiamo considerato due corpora paralleli: CEXI, per quanto riguarda la lingua italiana, e l’ENPC, un corpus parallelo particolarmente strutturato che si presta molto bene come modello per la costituzione di un CP rappresentativo. Quest’ultimo, in particolare, merita maggiore attenzione per due motivi: il primo riguarda il suo prestigio e la popolarità di cui gode nell’ambito della LC, tant’è che, a sua volta, è stato d’esempio per la progettazione sia di CEXI (Zanettin 2002), sia di molti altri CP, quali ad esempio COMPARA, un corpus di testi paralleli in inglese e portoghese (Frankenberg-Garcia, Santos 2003); il secondo motivo riguarda la sua sistematicità e la relativa completezza rispetto ad altri corpora paralleli oggi esistenti.