• Non ci sono risultati.

3. I corpora testuali

3.3 Tipi di corpora

Esistono diversi tipi di corpora: la loro classificazione dipende dal materiale che contengono, dai principî applicati alla collezione di dati, dalla loro organizzazione interna, dalla lingua e così via.

In questa sede si proporrà una classificazione, ideata da Lenci, Montemagni e Pirrelli128,

basata sui seguenti parametri: – generalità;

– modalità; – cronologia; – lingua;

– integrità dei testi;

– codifica digitale dei testi.

Per quanto riguarda il primo parametro, la generalità, è possibile distinguere in corpora

124 Cfr. Barry Morley, “WebCorp: a tool for online linguistic information retrieval and analysis” in The changing face of corpus linguistics, a cura di Antoinette Renouf e Andrew Kehoe (Amsterdam: Rodopi, 2006).

125 Tadeusz Piotrowski, “The Translator and Polish-English Corpora” in Incorporating corpora: the linguist and the translator, a cura di Gunilla Anderman e Margaret Rogers (Clevedon: Multilingual Matters, 2007), 129.

126 Ibid. 127 Ibid.

3. I corpora testuali

generali (o “trasversali”129) e corpora specialistici (o “verticali”130): i primi sono corpora che

raccolgono testi provenienti da diversi ambiti, mentre i secondi sono corpora i cui testi appartengono a settori ben precisi (per esempio, corpora con testi giuridici, medici, giornalistici, sportivi ecc.) o che vogliono descrivere un particolare linguaggio (come il linguaggio infantile o il linguaggio dei parlanti non madrelingua). Appartengono ai corpora generali, per esempio, il Brown Corpus e il British National Corpus (http://www.natcorp.ox.ac.uk). Un esempio di corpus specialistico invece è CHILDES (Child

Language Data Exchange System, http://childes.psy.cmu.edu), che contiene trascrizioni di

dialoghi di bambini.

Se si tiene conto della modalità, è possibile distinguere tra corpora di lingua scritta, corpora di lingua parlata e corpora misti: è facilmente intuibile il fatto che i primi contengano soltanto testi provenienti da fonti scritte, i secondi soltanto testi prodotti oralmente e i terzi ambedue le tipologie di testo. Possono esistere anche corpora con registrazioni audio, che si differenziano dai corpora di lingua parlata per il fatto che questi ultimi contengono trascrizioni di fonti orali. Tra i corpora di lingua scritta si possono annoverare il già citato Brown Corpus mentre, tra i corpora di lingua parlata, esempi sono lo stesso CHILD e l'italiano LIP (Lessico di frequenza

dell'Italiano Parlato, http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php), e

infine, tra i corpora misti, si può citare il British National Corpus.

Passando al terzo parametro, la cronologia, si è fatto accenno nel paragrafo precedente al fatto che a partire dagli anni Novanta ai corpora sincronici (ovvero quelli in cui sono presenti testi che appartengono a una precisa epoca di una lingua) si sono affiancati i corpora

diacronici, cioè quelli in cui i testi provengono da diverse varietà temporali di una lingua. Un

ipotetico corpus diacronico dell'italiano potrebbe contenere contemporaneamente testi del Trecento, del Cinquecento e del Novecento, mentre un corpus sincronico dell'italiano conterrebbe soltanto testi o del Trecento, o del Cinquecento o del Novecento (e forse anche di archi temporali più ridotti). È sincronico Brown Corpus in quanto contiene testi pubblicati esclusivamente nel 1961, mentre è diacronico il corpus di riferimento del TLIO (Tesoro della

Lingua Italiana delle Origini, il vocabolario dell'italiano antico sviluppato dall'OVI:

www.ovi.cnr.it), in quanto contiene testi dell'italiano antico dalle origini fino a Boccaccio. Se si classificano i corpora in base alla lingua, si avranno invece corpora monolingue oppure corpora multilingue. All'interno di questi ultimi è possibile fare un'ulteriore 129 Ibid., 27.

3. I corpora testuali

distinzione, tra corpora comparabili e corpora paralleli: i primi contengono testi originali in lingue diverse, mentre i secondi contengono gli stessi testi tradotti in più lingue. Corpora monolingue sono tutti quelli citati in precedenza, mentre tra i corpora multilingue è possibile il BoLC (Bononia Legal Corpus, http://corpora.dslo.unibo.it/bolc_ita.html), che contiene testi giuridici in italiano e in inglese.

Per quanto riguarda l'integrità dei testi è invece possibile distinguere tra corpora che contengono testi interi o corpora che contengono frammenti di testi. Appartiene al primo tipo, per esempio, il corpus di riferimento del TLIO, mentre sono corpora costituiti di soli frammenti il Brown Corpus e il suo omologo britannico Lancaster-Oslo-Bergen, ambedue contenenti cinquecento testi di duemila occorrenze ciascuno, per un totale di un milione di occorrenze.

Infine, è possibile classificare i corpora in base alla codifica digitale dei testi in essi raccolti: ci saranno quindi corpora ad alto livello131, arricchiti con etichette che servono per

marcare il testo dando informazioni di tipo strutturale o grammaticale (corpora annotati), ed esisteranno invece corpora a basso livello in cui tali informazioni non saranno presenti.

A questa classificazione è possibile aggiungere un ulteriore parametro, e cioè la finitezza della dimensione del corpus: come si accennava sopra132, ci saranno corpora a dimensione

finita e corpora in continua espansione (detti anche “monitor corpora”).

Infine, è necessario evidenziare che i corpora possono variare molto in base alle loro dimensioni. Esistono quindi corpora con milioni di occorrenze, come il British National

Corpus o il CORIS (Corpus di Riferimento per l'Italiano Scritto,

http://corpora.dslo.unibo.it/coris_ita.html), che contengono oltre cento milioni di occorrenze, ma esistono anche corpus di dimensioni più ridotte, come lo stesso Carlo Finelli Corpus (che è composto da 5.364 occorrenze) oppure il corpus Penelope (disponibile all'indirizzo http://www.parlaritaliano.it/parlare/visualizza_d_s.php?id=5), una raccolta di circa 30.000 occorrenze composta “da campionature molto strette – piccoli prelievi di pochi periodi per testo o per autore – che cercano di coprire il numero più alto possibile di varietà d'uso della lingua”133. Spesso ci si riferisce ai corpus di dimensioni più ridotte utilizzando il termine mini-

131 Ibid., 32.

132 Cfr. supra PAR. 3.1.

133 Maggi Rombi e Gianna Policarpi, Il corpus Penelope, 2002,

http://www.parlaritaliano.it/parlare/dati_e_strumenti/5/Presentazione_Penelope.pdf. Secondo gli autori del corpus “l'italiano sembra più realisticamente descritto analizzando un ridotto numero di occorrenze prelevate però da un elevato numero di contesti d'uso piuttosto che un maggior numero di occorrenze concentrate su

3. I corpora testuali

corpus, ma si tratta di un concetto molto relativo. In generale, si può comunque dire che le

dimensioni di un corpus sono strettamente legate alle finalità del corpus stesso: nel caso di

Carlo Finelli Corpus si è voluto creare un corpus che raccogliesse l'intera produzione

epistolare dello scultore, e il risultato è stato quindi un mini-corpus di 5.364 occorrenze.