• Non ci sono risultati.

La linguistica dei corpora rappresenta una disciplina scientifica matura che aiuta a chiarire la proprietà del lessico e della fraseologia della lingua attraverso l’analisi di un corpus d’uso linguistico. Attraverso l’uso di strumenti di analisi quantitativa e statistica, essa esplora le regolarità linguistiche che emergono dai testi e formano la base per la rappresentazione della struttura del linguaggio.

Genericamente un corpus indica una qualsiasi raccolta, completa e ordinata, di scritti, di uno o più autori, riguardanti una specifica materia, oppure un campione di lingua preso in esame nella descrizione della lingua.

La linguistica dei corpora, con il passare del tempo ha acquisito numerose definizioni con evidenti caratteristiche che ne testimoniano la sua rapida evoluzione.

- 169 -

Testo che raccoglie occorrenze di lingua in uso, scelte per caratterizzare uno stato o una varietà di una lingua207

b- Come seconda, la definizione di Elena Tognini Bonelli si vicina di più alle esigenze linguistiche che sono state formulate col passare del tempo fino ad oggi:

[…] una raccolta di testi che si assume essere rappresentativa di una data lingua, messa insieme così da poter essere usata per l’analisi linguistica208

Nella sua descrizione delle caratteristiche dei corpora, la Tognini Bonelli delinea con maggiore precisione cosa distingue un corpus da una semplice raccolta di testi. Un testo, in sintesi, si presenta come un singolo evento linguistico a cui prendono parte due o più partecipanti in un’unica situazione comunicativa. Al contrario, la grande quantità di testi in esso raccolti non permette di considerare un corpus come un evento comunicativo unico e coerente; esso presenta dunque una natura essenzialmente frammentaria e la sua coerenza può essere valutata solo in riferimento allo scopo linguistico per cui è stato progettato.

Ne consegue che i dati ottenuti dallo studio dei corpora vengono valutati come significativi solo se possono essere generalizzati nell’ottica di un’altra importante differenza che distingue un “comune testo” da un “corpus”: il primo deve essere letto orizzontalmente, da sinistra a destra e per intero, il secondo invece, deve essere esaminato nel formato KWIC, in cui la node word è allineata al centro; la lettura deve perciò avvenire verticalmente, allo scopo di individuare le unità ricorrenti nel cotesto a destra o a sinistra della node word stessa.

L’indice KWIC, riferendosi alla definizione di wikipedia, è un elenco ridonante di locuzioni che si utilizzano per costituire l’indice di un corpo di

207 J. Sinclair, Corpus, Concordance, Collocation, Oxford University Press, Oxford, 1991, p. 171. 208 E. Tognini Bonelli, Corpus linguistics at work, Benjamins, Amsterdam, 2001, p. 2.

conoscenze, cioè un elenco che ne agevoli l’accesso ai contenuti; tali indici sono stati usati abbastanza ampiamente per redigere cataloghi di biblioteche. Il termine è stato poi introdotto quando si sono prodotti gli indici in modo meccanico tramite il computer.

Nonostante le differenze fin qui esposte, Tognini Bonelli ricorda che un corpus è pur sempre composto da campioni linguistici provenienti da un testo ed è perciò in grado di fornire informazioni anche su di esso; in questo senso l’uso dei corpora offre quindi allo studioso un punto di vista privilegiato.

Ciò avviene soprattutto grazie alla possibilità di accesso simultaneo alle singole occorrenze di un’espressione che possono essere lette ed espanse sull’asse orizzontale della concordanza per individuarne i patterns di co-selezione ripetuti costantemente sull’asse verticale.

Per facilitare l’operazione, e più in generale le attività d’analisi, una concordanza elettronica può essere alfabetizzata a partire da una, due, tre o più parole a destra o a sinistra dalla node word. Attraverso l’esame del contesto in cui una parola ricorre più frequentemente è perciò possibile riconoscere la specifica pratica sociale che, nella maggior parte dei casi, la contraddistingue.

Si può quindi affermare che, nel caso dell’analisi dei dati ricavati da un corpus, la frequenza d’occorrenza che un termine presenta è indicativa della sua frequenza d’uso. Ciò fornisce una buona base per avanzare ipotesi sul profilo che, non solo una parola ma anche una struttura grammaticale o un’espressione, hanno in relazione a una determinata norma.

Quanto finora detto non deve tuttavia far credere che l’uso dei corpora applicato all’analisi del linguaggio sia un fenomeno recente, e questo punto sarà affrontato più avanti.

c- In terza analisi vediamo Hunston, che si avvicina invece ancora di più alla definizione del corpus per usi linguistici affermando che:

- 171 -

I linguisti da sempre hanno utilizzato la parola corpus per descrivere una raccolta di esempi di occorrenze di lingua in uso, che consistono di qualsiasi cosa che vada da poche frasi sino a un insieme di testi scritti o registrazioni, che sono stati raccolti per condurre studi linguistici.

Aggiunge però un riferimento ancora concettualmente più recente, definendo il corpus come una:

[…] raccolta di testi che sono memorizzati e a cui si accede elettronicamente.209

Sempre secondo la definizione di Hunston, ogni collezione di esempi linguistici naturalmente occorrenti, dal piccolo gruppo di frasi alla grande raccolta di testi scritti o audio-registrati, può essere considerata come un corpus, a patto che sia stata assemblata appositamente per condurre un’analisi linguistica.

d- La quarta definizione è quella di C. F. Meyer, Professore di applicazione linguistica all’Università di Massachusetts a Boston, che non si allontana molto da quella di Hunston in quanto anche per lui il corpus è sempre stato:

[…] una raccolta di testi o parti di testi su cui si può condurre una qualche analisi linguistica generale210.

A questo proposito aggiunge una definizione ancora più vicina all’uso attuale:

In tempi recenti, si è arrivati a considerare un corpus come un insieme di testi reso disponibile in forma computerizzata per scopi di analisi linguistica.211

209 S. Hunston, Corpora in Applied Linguistics, Cambridge University Press, Cambridge, 2002, p. 2.

210 C. F. Meyer, English Corpus Linguistics: An Introduction, Cambridge University Press, Cambridge, 2002, p. XI

– XII.

211 C. F. Meyer, English Corpus Linguistics: An Introduction, Cambridge University Press, Cambridge, 2002, p. XI

In definitiva e sulla base di quanto è stato detto, si può dunque affermare che un corpus costituisce un insieme di testi, oppure di parti di testi scritti oppure orali o addirittura in entrambe le forme, che si assume l’onere di essere rappresentativo dello stato di una lingua o di una varietà di essa al fine di ottenere una sua descrizione complessiva, per uno scopo preciso; essenziale è poi la sua archiviazione su computer o comunque altra periferca informatica al fine di poter condurre studi linguistici con metodo scientifico.

I corpus possono essere anche oggetto di ricerche specialistiche e adoperati in ambiente scolastico per un uso didattico pedagogico. Essi hanno di certo introdotto una nuova concezione di studio e descrizione di lingua, offrendo all’analista l’opportunità di capire il significato profondo delle parole utilizzate da determinati autore in determinati testi, la loro collocazione e il loro utilizzo.

In un suo recente saggio, M. Freddi definisce il corpus come:

un campione estratto da una popolazione più ampia ed è stato selezionato per condurvi un qualche tipo di analisi linguistica i cui esiti dovrebbero consentirci di inferire qualcosa anche della popolazione da cui il campione è stato tratto, dovrebbero cioè essere generalizzabili212.