Parametri di classificazione e tipi di corpora

3. Corpora e annotazione di corpora

3.2 I corpora

3.2.4 Parametri di classificazione e tipi di corpora

Dopo aver illustrato i principali parametri di valutazione di un corpus, saranno ora esposti sinteticamente alcuni parametri che permettono di classificare i corpora in una tipologia articolata. Tali parametri sono ripresi da Lenci e al. (2005).

1. Generalità: il grado di generalità dipende da quanto i testi che lo compongono sono stati selezionati per rappresentare la lingua nella sua globalità. In base a questo criterio è possibile distinguere tra corpora generali (che rappresentano la lingua in maniera completa e trasversale alle diverse varietà) e corpora specialistici (che rappresentano una certa varietà di lingua, oppure una singola tipologia testuale, che contengono solo testi di un dominio specifico o testi con caratteristiche particolari, come nel caso dei Learner Corpora, contenenti testi prodotti da individui che stanno apprendendo la lingua). I corpora generali sono spesso utilizzati come risorse di riferimento per lo studio di una lingua e per questo motivo vengono detti anche corpora di riferimento.

2. Modalità: il parametro di modalità (scritta o orale) permette di distinguere tra corpora di lingua scritta, corpora di lingua orale (contenenti trascrizioni di testi prodotti originariamente in forma orale), corpora misti (che contengono testi scritti e trascrizioni di parlato in proporzioni variabili), corpora audio (o speech databases, ossia raccolte di registrazioni audio di parlato) e corpora multimodali (contenenti registrazioni audiovisive di parlato, utili a descrivere anche aspetti non linguistici della comunicazione, come la gestualità). I corpora intermodali (Shlesinger, 2009) meritano un cenno a parte, poiché l’aggettivo intermodale non si riferisce alla modalità di produzione dei testi tout court, bensì alla modalità di traduzione che li ha generati (traduzione scritta, interpretazione simultanea, interpretazione consecutiva, ecc). I corpora intermodali sono dunque “corpora containing parallel or comparable outputs of translation and interpreting” (Bernardini e al., 2016), costituiti da testi originali e da testi che sono il risultato di diverse modalità di traduzione.

3. Cronologia: questo parametro rispecchia il criterio temporale con cui sono stati selezionati i testi, e permette di distinguere tra corpora sincronici (i cui testi sono riferiti ad uno specifico periodo, utili ad esempio per studiare una fase di sviluppo di una

lingua) e corpora diacronici (i cui testi appartengono a periodi diversi e consentono ad esempio di osservare l’evoluzione di una lingua).

4. Lingua: in base alla presenza di testi in una o più lingue i corpora possono essere distinti in corpora monolingui, bilingui o multilingui. Questi ultimi sono ulteriormente distinguibili in corpora (bi- o multilingui) paralleli e corpora (bi- o multilingui) comparabili. Un corpus parallelo contiene testi in una lingua L1 e testi in altre lingue che costituiscono traduzioni dei testi in L1. I corpora paralleli di solito presentano un allineamento tra testi originali e traduzioni, ossia un esplicito collegamento che unisce segmenti di testi in L1 alla loro traduzione nelle altre lingue. Un corpus comparabile “non contiene invece testi in traduzione, ma testi originali in lingue diverse” (Lenci e al., 2005:31), selezionati sulla base dei medesimi criteri, ad esempio la loro appartenenza a uno stesso genere testuale o a uno stesso dominio: è in questo senso che si intende l’aggettivo comparabile, perché i corpora di questo tipo permettono di mettere a confronto testi in due (o più) lingue diverse ma appartenenti a un medesimo ambito, ad esempio dei verbali di arresto, osservando come da una lingua all’altra cambiano le convenzioni testuali, la densità terminologica, ecc.; inoltre, dato che i testi sono tutti originali e non traduzioni gli uni degli altri, il confronto può essere svolto senza i condizionamenti che tipicamente derivano dall’opera di traduzione.

5. Integrità dei testi: alcuni corpora contengono testi integrali, altri corpora contengono invece porzioni di testi; la scelta è determinata da vari fattori, tra cui lo scopo per cui il corpus è costruito (che potrebbe essere ad esempio l’analisi dell’incipit di vari discorsi politici) o necessità legate al bilanciamento del corpus: selezionare non testi interi ma solo porzioni di lunghezza predefinita e uniforme permette di evitare che testi molto lunghi “sbilancino” il corpus (Lenci e al., 2005). D’altra parte la selezione di una porzione di testo potrebbe incidere negativamente sulla rappresentatività del corpus, poiché come sottolineato da Sinclair (2005), la porzione scelta potrebbe non essere rappresentativa delle caratteristiche del testo nel complesso. Per tutti questi motivi, la scelta di includere testi integrali o porzioni di testi deve essere adeguatamente ragionata ed esplicitata.

6. Codifica e annotazione: la codifica è la rappresentazione di dati (nel caso dei corpora, i dati sono i testi) in formato digitale. Sappiamo che un testo non è semplicemente una

sequenza di caratteri, ma è una struttura complessa e articolata su più livelli, in cui ogni livello è portatore di informazioni: in maniera analoga esistono diversi livelli di codifica di un testo, a seconda di quante e quali informazioni del testo vogliamo rappresentare in formato digitale. Il livello di codifica più elementare, detto codifica di

livello zero, è la rappresentazione digitale (binaria) della sequenza ordinata dei

caratteri del testo, senza aggiunta di informazioni di nessun tipo. Ciò che si ottiene mediante la codifica di livello zero di un testo è un file in formato solo testo (.txt). Un corpus può consistere dunque in un semplice file (o una serie di file) in formato .txt. Esistono poi codifiche di alto livello che arricchiscono i testi del corpus con informazioni riguardanti ad esempio la struttura dei testi, la loro suddivisione in capitoli e paragrafi, oppure informazioni meta-testuali come titolo, autore, data, ecc. In caso l’informazione codificata riguardi aspetti linguistici, come la categoria grammaticale delle parole o l’organizzazione sintattica dei testi, si parla più propriamente di annotazione di

corpora, argomento che verrà approfondito nella seconda parte del presente capitolo

(sezione 3.3). Le codifiche di alto livello possono essere realizzate mediante linguaggi di marcatura (in inglese: mark-up languages) come XML.

Tutti i corpora possiedono una codifica di livello zero, essendo per definizione raccolte di testi in formato digitale; non tutti però possiedono annotazioni: è possibile distinguere dunque tra corpora “grezzi” (ossia di solo testo) e corpora annotati. I corpora annotati si distinguono tra loro per il tipo di annotazioni di cui sono dotati, e di conseguenza per i tipi di manipolazione e analisi che è possibile realizzare su di essi tramite appositi strumenti informatici.

Ovviamente uno stesso corpus può presentare più di una caratteristica tra quelle sopra definite: i parametri di classificazione riguardano aspetti diversi che non si escludono a vicenda. Ad esempio il corpus EPTIC, sul quale è basato lo studio di caso del presente lavoro (le cui caratteristiche saranno approfondite nel capitolo 4) è un corpus specialistico, intermodale, sincronico e multilingue che funziona sia come corpus parallelo che come corpus comparabile (poiché contiene sia testi tradotti che testi originali in lingue diverse, comparabili perché appartenenti a una medesima tipologia testuale).

Nel documento Teoria Senso-Testo e Funzioni Lessicali. Una proposta per il trattamento delle collocazioni linguistiche (pagine 93-96)