• Non ci sono risultati.

3. I corpora testuali

3.1 Che cos'è un corpus?

Poiché la proposta metodologica qui discussa è pensata anche per corpora digitali e poiché lo stesso Carlo Finelli Corpus è un corpus testuale (tanto che il termine “corpus” è presente nel nome del progetto), si è ritenuto necessario inserire nella presente trattazione una sezione dedicata ai corpora, per capire che cosa è un corpus e per comprendere qual è la grande utilità dei corpora nell'ambito degli studi linguistici.

Un “corpus” (plurale “corpora”, letteralmente “corpo”) in linguistica può essere definito come una “collezione di materiale testuale, raccolto secondo precisi criteri” (“a special collection of textual material collected according to a certain set of criteria”)98, “memorizzata

su un computer” (“usually stored on a computer”)99: questi testi possono “caratterizzarsi per la

lingua in cui sono codificati, per il periodo in cui sono stati prodotti o anche per l'ambito settoriale a cui fanno riferimento”100. Ciò significa che un corpus potrebbe raccogliere opere

letterarie del Cinquecento italiano, o ancora traduzioni in inglese, oppure leggi medievali, e via dicendo.

A questo punto è lecito chiedersi quale differenza può esserci tra un corpus e un archivio di testi o un database. La differenza esiste ed è suggerita da Geoffrey Leech, uno dei pionieri della linguistica dei corpora: “la differenza tra un archivio e un corpus consiste nel fatto che il secondo è designato per una particolare funzione 'rappresentativa'” (“the difference between an archive and a corpus must be that the latter is designed for a particular 'representative' function”101). Un archivio quindi è semplicemente una raccolta di testi, normalmente non

strutturata e non organizzata secondo precisi criteri.

Un corpus ha quattro caratteristiche principali: la rappresentatività, la dimensione finita, il formato “machine-readable”, l'essere un riferimento standard102.

La rappresentatività è la capacità di un corpus di essere un valido campione del contesto al quale fa riferimento: questo significa, per esempio, che nel realizzare un corpus 98 Cristopher D. Manning, Heinrich Schütze, Foundations of statistical natural language processing

(Cambridge, Massachussetts: MIT Press, 1999), 119.

99 Anne O'Keeffe, Michael McCarthy e Ronald Carter, From corpus to classroom: language use and language teaching (Cambridge: Cambridge University Press, 2007), 2.

100 Bruno Osimo, Traduzione e nuove tecnologie (Milano: Hoepli, 2001), 37.

101 Geoffrey Leech, “The state of the art in corpus linguistics” in English Corpus Linguistics: Studies in Honour of Jan Svartvik, a cura di Karin Aijmer e Bengt Altenber (Londra: Longman, 1991), 11.

102 Tony McEnery e Andrew Wilson, Corpus linguistics: an introduction (Edinburgo: Edinburgh University Press, 2001).

3. I corpora testuali

rappresentativo del linguaggio epistolare del Cinquecento italiano, non sarà sufficiente selezionare soltanto lettere di Pietro Aretino, ma sarà necessario operare una selezione più ampia e quindi più rappresentativa possibile della lingua.

I corpora devono avere anche una dimensione finita, perché deve poter permettere precise analisi quantitative (oltre che qualitative). Nonostante ciò, possono esistere alcune eccezioni: un esempio è il “monitor corpus” Bank of English realizzato all'Università di Birmingham, una “collezione di testi” (come preferisce chiamarla John Sinclair, il direttore del progetto) in continuo aggiornamento per cercare nuove parole o per verificare come nel corso del tempo i significati delle parole possano cambiare103.

Il termine “corpus” implica, oggigiorno, la caratteristica di essere “machine-readable”: i corpora che possono essere analizzati attraverso il computer hanno notevoli vantaggi nei confronti di corpora stampati, in quanto possono essere manipolati e analizzati con rapidità e facilità104. Infine, un corpus deve costituire un riferimento standard per la varietà di linguaggio

che vuole rappresentare.

Lo studio dei corpora ha fatto sì che si sviluppasse un particolare approccio alla linguistica, al quale ci si riferisce denominandolo “linguistica dei corpora”: quest'ultima può essere definita come una metodologia che può essere utilizzata in quasi tutte le aree della linguistica105, anche se bisogna prestare attenzione in quanto non delimita un'area della

linguistica106.

Infatti i corpora testuali (e soprattutto i corpora testuali informatici, tanto che negli ultimi anni quando si parla di “corpus” si fa riferimento soprattutto ai corpora informatici) hanno fatto segnare grandi progressi negli studi linguistici, sia a livello descrittivo che a livello teorico.

Gli studi del linguaggio possono essere divisi in due aree principali: gli studi della struttura e gli studi dell'uso di una lingua107. Per tradizione, la linguistica si è focalizzata più sullo

studio della struttura (forme, frasi, categorie grammaticali ecc.) che dell'uso (e cioè analizzare come i parlanti e gli scriventi di una certa lingua utilizzano le strutture che la lingua mette a loro disposizione)108. Ambedue i tipi di studi sono particolarmente importanti, e un approccio

103 Ibid., 30 104 Ibid., 31 105 Ibid., 2 106 Ibid.

107 Douglas Biber, Susan Conrad e Randi Reppen, Corpus linguistics: investigating language structure and use (Cambridge: Cambridge University Press, 1998).

3. I corpora testuali

“corpus-based” alla linguistica può offrire un notevole aiuto. Questo per una serie di fattori109:

– attraverso i corpora è possibile condurre analisi su collezioni di testi che possono essere largamente rappresentative di una lingua, di un genere, di una varietà;

– i corpora informatici permettono di fare calcoli, ricerche e modelli utilizzando diversi programmi, il tutto con grande facilità e rapidità;

– la codifica può aiutare a identificare le diverse parti dei testi;

– la possibilità di creare modelli statistici e probabilistici attraverso l'utilizzo del calcolatore permette di studiare meglio gli sviluppi di una lingua, di un genere o di una varietà;

– l'affidabilità garantita dall'uso del calcolatore non può essere assicurata in altri modi110;

– attraverso l'approccio “corpus-based” sono state introdotte tecniche di ricerca in precedenza non considerate in quanto ritenute difficilmente realizzabili111.

Ancora, un corpus può costituire una risorsa essenziale in lessicografia, in quanto attraverso ricerche “corpus-based” è possibile documentare i diversi significati di una parola e come essi si sono sviluppati nel corso del tempo. Infine, non bisogna dimenticare che i corpora possono anche essere messi in rete e condivisi quindi con un sempre maggior numero di studiosi (ma anche di appassionati).