1.8. C RITERI PER LA PROGETTAZIONE DI UN CORPUS
1.8.1. Finalità
La prima questione, messa in evidenza sia dagli autori del BNC, sia da Rossini Favretti nella sua guida alla compilazione di CORIS, è legata alla finalità del progetto. Dalla finalità del nostro corpus, infatti, dipenderà la maggior parte delle restanti variabili.
Stabilire la finalità del corpus significa anche definirne le caratteristiche tipologiche.
Nel caso di CORIS, l’intenzione consisteva nel creare un corpus generale e, più precisamente, un corpus di testi rappresentativi dell’italiano contemporaneo (Rossini Favretti 2000). Analogamente il BNC doveva essere un corpus rappresentativo della lingua inglese contemporanea (Burnard 2000), ossia dagli anni Sessanta all’inizio degli anni Novanta.
Un metodo valido, per stabilire lo scopo di un corpus in fase di progettazione, consiste nel definire innanzitutto i suoi possibili usi. Gli autori del BNC, ad esempio, stabilirono i seguenti: ricerca linguistica, insegnamento, intelligenza artificiale, acquisizione di informazioni ed elaborazione del linguaggio naturale (Burnard 2000).
Per quanto concerne gli altri corpora, notiamo che il BrC nacque con uno scopo pressoché analogo a quello di BNC e CORIS: compilare un corpus rappresentativo dell’inglese americano di quel periodo, vale a dire i primi anni Sessanta. Mentre più elaborato è il caso di COCA, che intendeva esplicitamente apportare delle innovazioni rispetto ai corpora precedenti. Come spiega Davies (2009: 3), COCA è stato creato innanzitutto con il fine di ottenere un corpus per l’inglese americano che ovviasse alle
95 Un corpus è una cosa eccezionale, non tanto perché è una collezione di testi, ma per le caratteristiche che acquisisce se ben progettato e attentamente compilato.
53
lacune del BNC, da un lato, e dell’American National Corpus (ANC)96, dall’altro. Il COCA si pone dunque lo scopo di essere vasto, bilanciato, rappresentativo e soprattutto costantemente monitorato, aspetto che invece non ritroviamo né nel BNC, né nel BrC. In sintesi, lo scopo comune ai corpora citati è senza dubbio la rappresentatività, anche se, come già ribadito, non si tratta di una variabile di semplice definizione.
Per quanto riguarda i corpora paralleli, anche in questo caso la struttura e il design dipendono dal futuro impiego dei dati. Se lo scopo è permettere ricerche di traduttologia letteraria, ne consegue che i testi da inserire saranno esclusivamente letterari. Se l’idea è di concentrarsi su di un singolo autore, verrà in questo caso creato un corpus ad hoc con i suoi scritti originali e le rispettive traduzioni, creando un corpus AB. Se, al contrario, lo scopo è predisporre materiale utile per la traduzione specialistica, si tratterà di identificare le macro-aree a cui attingere per il recupero dei testi: potrebbe trattarsi di articoli di giornale, articoli accademici, testi legali, manuali tecnici e via dicendo (Gandin 2009).
L’ENPC nacque come strumento per la traduzione e gli studi di linguistica contrastiva. L’intento inziale era creare un corpus bi-direzionale di testi paralleli in inglese e norvegese, prevedendo poi l’inserimento di testi non paralleli, ma comparabili, appartenenti cioè allo stesso genere, ma senza essere l’uno la traduzione dell’altro.
Tuttavia, quest’ultimo sotto-corpus non fu mai realizzato (Johansson, Ebeling, Oksefjell 2002: 2). Johansson, Ebeling e Oksefjell mettono in luce come l’ENPC consenta di avanzare negli studi contrastivi grazie all’analisi e al confronto non solo tra testi originali e le loro traduzioni, ma anche tra testi originali in inglese e testi originali in norvegese, nonché tra le traduzioni nelle due lingue. Pertanto il corpus è da considerarsi anche comparabile (per ulteriori riflessioni relative a questo aspetto cfr. par. 4.1.).
CEXI, infine, fu pensato come progetto dell’Università di Interpreti e Traduttori di Forlì (Università di Bologna) con l’intento di favorire gli studi connessi alla traduzione e all’apprendimento della lingua. Zanettin, in fase di progettazione, sottolineava come il corpus avesse non solo finalità descrittive, ma anche applicative: non si trattava solo di apprendere qualcosa sulla lingua, ma anche di imparare a usarla parlando, scrivendo o traducendo (Zanettin 2002: 330).
96 Corpus generale e rappresentativo dell’inglese americano, rilasciato per la prima volta nel 2003 e contenente ad oggi circa 15 milioni di parole (Ide, Suderman 2004). Il corpus è accessibile dal sito:
http://www.anc.org/ gennaio 2017).
54
1.8.2. Corpus statico o di monitoraggio
Dopo aver stabilito le finalità del corpus da creare, come ricorda Kennedy (1998:60), è necessario scegliere se realizzare un corpus statico o un corpus dinamico, meglio conosciuto come “corpus di monitoraggio”. Un corpus statico è anche definito “di riferimento” (reference corpus), poiché, rimanendo invariato, presenta sempre le medesime caratteristiche, ma soprattutto gli stessi risultati, e può essere dunque impiegato come punto di riferimento per le ricerche che richiedono dati invariabili.
I corpora di prima generazione nacquero quasi tutti come statici, con lo scopo di considerare la lingua in un intervallo di tempo ben definito. Si pensi al Brown Corpus, con i suoi testi pubblicati esclusivamente nell’anno 1961. Analogamente, il BNC non pianificò mai alcun tipo di monitoraggio successivo al momento della sua creazione.
I corpora più recenti tendono invece ad essere dinamici e aperti. Tale scelta è determinata in parte dalla convinzione che una lingua storico-naturale sia un sistema in continua evoluzione e che proprio questa evoluzione possa essere in molti casi di grande interesse; dall’altro lato lo sviluppo delle tecnologie informatiche permette il continuo monitoraggio di un corpus; non era così nei primi anni Sessanta, quando le possibilità tecnologiche di allora non consentivano di elaborare contemporaneamente un gran numero di dati. L’esempio più palese è il caso di COCA a cui ogni anno vengono aggiunte 20 milioni di parole. Tuttavia, anche il continuo monitoraggio di un corpus non risulta privo di difficoltà, poiché la quantità rischia di prevalere a discapito della qualità. È questo un problema di cui era ben cosciente Sinclair e ce lo ricorda anche Rossini Favretti (2000) quando tratta il problema della dimensione durante la progettazione di CORIS/CODIS.
In (Barbera 2013) questo tema prende il nome di “finitezza” di un corpus. Secondo l’autore si tratta di una caratteristica imprescindibile per almeno due motivi: in primo luogo per poter rendere ripetibili le analisi condotte, conferendo così maggiore scientificità ai risultati ottenuti; la seconda motivazione riguarda la possibilità di condurre, grazie ai corpora, analisi statistiche, che, come Barbera puntualizza, esigono dati stabili.
Dal nostro punto di vista, sebbene sia difficile condurre analisi di tipo statistico su dati in continua variazione, senza dubbio maggiore è il loro numero, maggiori sono le possibilità di ottenere una quantità di risultati utili per avanzare ipotesi valide. Il corpus di monitoraggio rimane quindi l’alternativa più desiderabile, purché le informazioni
55
riguardanti il numero di testi e di parole che compongono il corpus vengano costantemente aggiornate e rese note ai fruitori nel corso dell’ampliamento.
Il continuo monitoraggio di un corpus richiede, naturalmente, risorse e sforzi costanti che spesso scoraggiano la sua realizzazione. L’ENPC, ad esempio, prevedeva l’aggiunta di testi in inglese e norvegese comparabili. In seguito, tuttavia, quest’ultimo progetto è stato abbandonato lasciando spazio alla creazione di un sotto-corpus di testi paralleli multilingui.
CEXI, infine, nasceva con un piano di monitoraggio ben preciso: da un lato si pensava di ampliare gli estratti già esistenti, dall’altro si prevedeva di introdurre nuovi testi. Per permettere la prima opzione, venne da subito espressa la volontà di ottenere dalle case editrici i permessi per testi interi, così da poter aggiungere nuovi campioni degli stessi in una fase di espansione successiva (Zanettin 2002: 340).