• Non ci sono risultati.

GLI APPROCCI CORPUS BASED E CORPUS DRIVEN

Le più recenti ricerche di linguistica dei corpora si sono concentrate su come studiare il linguaggio formulaico.

Si evidenziano due approcci allo studio sul linguaggio formulaico: l'approccio

corpus-based, ovvero lo studio basato su corpora; e quello corpus-driven ovvero lo

studio indotto da corpora.

Tognini-Bonelli (2001: 65) definisce così l'approccio corpus-based o approccio basato sui corpora:

"The approach corpus based is used to refer to a methodology that avails itself of the corpus mainly to expound, test or exemplify theories and descriptions that were formulated before large corpora became available to inform language study. Traditionally, linguistic theories are the result of reflection by a scholar after absorbing a great deal of experience of language and languages, and testing the implications and consequences with reference to the intuition of competent or native speaker35

35 Traduzione: "L'approccio basato sul corpus viene usato per riferisi a una metodologia che si avvale del

corpus principalmente per esporre, mettere alla prova o esemplificare delle teorie e delle descrizioni che erano state formulate prima che i grandi corpora divenissero disponibili per dare informazioni allo studio della lingua. Per tradizione, le teorie linguistiche sono il risultato di una riflessione da parte di uno studioso che ha assorbito una lunga esperienza in materia di linguaggio e di lingue, e che ha messo alla prova le implicaizoni e le conseguenze con riferimento all'intuito del parlante competente o nativo".

Secondo la linguista, la ricerca corpus-based presuppone la validità delle strutture linguistiche derivate dalla teoria linguistica; lo scopo principale della ricerca è analizzare i modelli di utilizzo sistematici per quelle caratteristiche linguistiche predefinite in cui la relazione fra un elemento e il suo contesto non è intesa come sistematica e determinante per la definizione delle categorie linguistiche.

Questa metodologia rappresenta la norma negli studi della variazione grammaticale; questi di solito adottano le categorie grammaticali definite da precedenti ricerche linguistiche e poi utilizzano la ricerca sui corpus per descrivere i modelli di variazione e di utilizzo associati a queste caratteristiche grammaticali. Per questo, negli studi corpus-based del linguaggio formulaico, il ricercatore preseleziona le espressioni formulaiche e poi analizza il corpus per scoprire in che modo quelle espressioni vengano utilizzate (Tognini-Bonelli, 2001).

L'approccio corpus-based è quindi un approccio metodologico che tende a integrare l'approccio quantitativo con quello qualitativo, includendo sia le metodologie

top-down, che approfondiscono le teorie preesistenti senza mettere in discussione le

unità di analisi fondamentali e utilizzano tassonomie già date; sia metodologie bottom-

up, basate su modelli casuali, che procedono dalla verifica puntuale dei presupposti

formulati.

Questo approccio fa affidamento su un gruppo di espressioni selezionate prima dello studio e funziona sempre all'interno di cornici già stabilite. Le espressioni analizzate vengono riconosciute come familiari dai parlanti nativi della lingua oppure sono state considerate come espressioni frequenti nella letteratura correlata e possono essere considerate significative da quel punto di vista (Nattinger e DeCarrico, 1992).

Per l’italiano, un progetto analogo a quello di Sinclair è il CODIS (Corpus

dinamico dell’italiano scritto), elaborato e coordinato dal 1998 da R. Rossini Favretti al

Centro di linguistica applicata e teorica dell’Università di Bologna. Il corpus viene aggiornato ogni due anni con nuovo materiale e contiene 100.000 milioni di parole.

L'altro possibile approccio alla linguistica dei corpora è l’approccio corpus-

driven, ovvero indotto da corpora, che è di più recente elaborazione. Si tratta di un

"the commitment of the linguist is to the integrity of the data as a whole, and descriptions aim to be comprehensive with respect to corpus evidence. The corpus, therefore, is seen as more than a repository of examples to back pre-existing theories or a probabilistic extension to an already well defined system. [...] recurrent patterns and frequency distributions are expected to form the basic evidence for linguistic categories; the absence of a pattern is considered potentially meaningful36

Tognini-Bonelli (2001) ha sottolineato che è importante comprendere che l'approccio corpus-driven non è un approccio meccanico, ma una metodologia costantemente mediata dal linguista, che si comporta ancora come un linguista, trasferendo le sue conoscenze e le sue esperienze ad ogni stadio di questo processo. La linguista identifica come primo studio di lessicografia corpus-driven il progetto Cobuild

Project, che riflette le posizioni di Sinclair sulla teoria del linguaggio e sulla

metodologia descrittiva (Tognini-Bonelli, 2001). Questo progetto ha influenzato altre " (Tognini-Bonelli, 2001: 84).

Questo tipo di approccio è più induttivo, poiché i costrutti linguistici emergono dall'analisi di un corpus e i dati vengono considerati nella loro interezza per trarre conclusioni teoriche. Di fatto, le argomentazioni teoriche derivano direttamente dai dati ricavati dal corpus, dai quali vengono elaborate teorie e ipotesi linguistiche (Biber, 2009).

L'approccio corpus-driven si differenzia dalle pratiche linguistiche standardizzate poiché minimizza gli assunti aprioristici circa i costrutti linguistici che devono essere impiegati nell'analisi. Nella sua forma più elementare, l'analisi corpus-

driven ha come assunto solo l'esistenza delle parole; i modelli di co-occorrenza fra le

parole, scoperti dall'analisi del corpus, forniscono la base per le successive descrizioni linguistiche (Biber, 2009).

Secondo Chiari (2007: 42), questo tipo di approccio rappresenta "in modo più fedele le dinamiche, le variazioni e le tendenze di una lingua parlata e scritta".

36 Traduzione: "L'impegno del linguista è verso l'integrità dei dati nel loro complesso e le descrizioni

mirano ad essere esaurienti rispetto alle prove fornite dal corpus. Il corpus, perciò, è visto più come un deposito di esempi che suffragano le teorie preesistenti o come una estensione probabilistica di un sistema già ben definito. [...] ci si aspetta che i modelli ricorrenti e le distribuzioni di frequenza costituiscano la prova fondamentale per la formazione delle categorie linguistiche; l'assenza di un modello è considerata potenzialmente significativa".

aree di studio, come la grammatica, la collocazione, l'insegnamento della lingua e ha modificato il modo in cui il significato viene identificato e definito. L'inaspettatezza dei risultati derivati dai dati del corpus porta a concludere che l'intuizione non è una fonte di informazioni sul linguaggio completamente affidabile (Tognini-Bonelli, 2001).

Come evidenzia Tognini-Bonelli, la metodologia essenziale della linguistica

corpus-driven consiste nell'esercizio dell'intuito del ricercatore circa la presenza di dati

nuovi e di fare affidamento sul punto di vista esposto.

Lo studio di grammatica inglese Longman Grammar of Spoken and Written

English (Biber ed altri, 1999), basato su un corpus di inglese britannico e americano di

circa 40 milioni di parole, nasce da questo approccio che introduce nella teoria linguistica un nuovo filone di ricerca: lo studio dei lexical bundles.

L'approccio corpus-driven ha avuto il merito di individuare il linguaggio come strutturato e composto da pattern lessicali.

Gli studi sulle collocazioni lessicali sono di solito considerati corpus-driven perché i pattern lessicali di una lingua vengono identificati attraverso l'analisi della loro frequenza d'uso in un dato corpus.

Per quanto riguarda la lingua inglese, i pionieri di questi studi sulle sequenze di più parole sono stati Altenberg e Eeg-Olofsson, nel loro studio del London-Lund

Corpus, comprendente 500.000 parole di inglese parlato (Altenberg, 1998; Altenberg,

Eeg-Olofsson, 1990; in Biber, 2006).

Per quanto riguarda le altre lingue, i primi studi sulla lingua francese sono stati condotti da Salem (1987), che ha analizzato un corpus dei documenti governativi in lingua francese. Per la lingua spagnola, è stata fondamentale la ricerca di Butler (1998), di cui approfondiremo lo studio nelle sezioni successive.

Tuttavia alcuni studi spesso hanno teso a combinare gli approcci corpus-driven con quelli corpus-based, ovvero l'approccio ibrido (Biber, 2009). Come esempio, l'autore indica lo studio di Renouf e Sinclair (1991), che è allo stesso tempo corpus-

driven – poiché le sequenze di riempitori lessicali erano state scoperte tramite l'analisi

del corpus – e corpus-based, perché le cornici collocazionali erano state preselezionate da Renouf e Sinclair (1991).

Secondo Biber (2009: 281) un approccio radicalmente corpus-driven allo studio del linguaggio formulaico deve avere tre caratteristiche generali: deve essere basato

sull'analisi delle vere forme lessicali che si presentano nel corpus; deve analizzare le sequenze delle forme lessicali, senza considerazione alcuna dello status sintattico- grammaticale delle parole; e deve concentrarsi sulle combinazioni di forme lessicali frequenti e ricorrenti.

Il presente studio adotta la metodologia corpus-driven così come proposta da Biber (2009) che presuppone solo l'esistenza delle forme lessicali senza referenza alcuna alle categorie grammaticali e che incorpora tutte e tre le caratteristiche che definiscono la ricerca corpus-driven, al fine di identificare i lexical bundles più comuni, in due registri – la conversazione e la prosa accademica – e in tre discipline scientifiche diverse, al fine di investigare i diversi modi in cui quei modelli sono variabili nei due registri e nelle tre discipline scientifiche, usando le distribuzioni a frequenza semplice per identificare le sequenze di parole ricorrenti.

Si è optato per l’approccio corpus-driven seguendo gli studi precedenti svolti per la lingua inglese e spagnola circa le combinazioni di più parole (Altenberg, Eeg- Olofsson, 1990; Altenberg, 1998; Butler, 1997; Biber ed altri, 1999; Biber, Conrad, 1999; Biber, Conrad, Cortes, 2003, 2004; Conrad, Biber, 2004; Cortes, 2004, 2006; Hyland, 2008a, 2008b).

Seguendo le orme di Tognini-Bonelli (2000: 97) possiamo concludere che:

"Il punto di vista che il corpus offre all'analista è anzi privilegiato, in quanto garantisce l'accesso sia al singolo elemento, che può essere letto ed espanso sull'asse orizzontale della concordanza, sia all'uso generalizzato riscontrabile dall'osservazione di ripetuti fenomeni di co-selezione sull'asse verticale della concordanza. Essendo la frequenza con cui una parola è presente nel corpus indicativa della frequenza d'uso, questo tipo di analisi offre un utile punto di partenza nell'analisi del profilo di una parola, struttura o espressione in relazione ad una norma socialmente stabilita".