• Non ci sono risultati.

Gli studi svolti in lingua inglese e spagnola, e anche quelli condotti su una lingua tipologicamente completamente diversa come il coreano, hanno mostrato che i lexical

bundles non sono solo indicatori di registro diverso, bensì anche di disciplina scientifica

diversa (Biber ed altri, 1999, 2004; Cortes, 2004, 2008; Hyland, 2008a, 2008b; Jalali ed altri, 2008; Tracy-Ventura ed altri, 2007). Questo significa che ogni registro e ogni disciplina attinge a una serie distinta di bundles al fine di organizzare il discorso, esprimere atteggiamenti e punti di vista e riferirsi a diverse parti del testo nel suo evolvere o a diversi elementi fuori dal testo. Inoltre, gli studi di Biber e altri (1999, 2003, 2004), di Cortes (2004, 2008), di Hyland (2008a, 2008b) e di Jalali ed altri (2008) hanno mostrato che, contrariamente alla lingua parlata, il registro accademico predilige i

lexical bundles nominali, una caratteristica propria del discorso scientifico e della lingua

scritta.

Sulla base di studi precedenti, condotti su altre lingue, si ipotizza che nella lingua italiana si riscontrerà da un lato la stessa frequenza dei lexical bundles e dall'altro la

stessa variazione attraverso i registri, nonché un’ulteriore variazione strutturale e funzionale attraverso gli ambiti scientifici diversi.

II Strumenti di analisi del linguaggio formulaico – la linguistica dei

corpora

Il contributo apportato dai computer è enorme. Grazie agli strumenti informatici, i ricercatori possono estrarre dati che sarebbero altrimenti difficilmente prevedibili. Inoltre le informazioni possono essere ricavate in tempo reale, senza dover ricorrere alle analisi manuali.

Sono state messe in evidenza tre fasi nel processo di penetrazione dei corpora informatici nel lavoro linguistico. Dopo una prima fase in cui il computer è visto come un semplice strumento, sopravviene la fase in cui il computer ridefinisce il quadro metodologico dell'inchiesta poiché velocizza le operazioni, le sistematizza e le rende applicabili a grandi quantitativi di dati in tempo reale (Tognini-Bonelli, 2001: 47-48).

Gli strumenti informatici, grazie alla loro velocità e potenza, consentono di analizzare in tempo reale grandi quantità di dati. Questo non era nemmeno immaginabile fino agli anni Novanta, che hanno visto l’inizio della terza fase di penetrazione dell’informatica negli studi linguistici. Questa terza fase ha preso via come miglioramento metodologico ma ha implicato anche una manifestazione quantitativa dei dati emersi dall’analisi dei corpora. La grande quantità dei dati ha offerto delle intuizioni circa il linguaggio che hanno scosso gli assunti fondamentali alla base di molte posizioni teoriche dominanti nel settore (Tognini-Bonelli, 2001: 47-48). A tale riguardo, il computer ha influito sull'intero apparato metodologico, rendendo possibile l'osservazione su ampia scala dell'uso linguistico e modificando la natura stessa dell'osservazione (Tognini-Bonelli, 2000: 99).

Uno dei punti maggiormente dibattuti riguarda la definizione stessa di linguistica dei corpora, poiché alcuni linguisti la considerano una metodologia fra le tante, mentre altri la vedono come una vera e propria teoria.

Secondo alcuni linguisti la linguistica dei corpora non è una branca della linguistica come possono essere, ad esempio, la lessicologia, la semantica o la psicolinguistica – tutte branche che si concentrano sulla spiegazione o sulla descrizione di un aspetto dell'uso linguistico. Al contrario, la linguistica dei corpora consiste in una metodologia (Leech, 1992; in Tognini-Bonelli, 2000). Leech vede la linguistica dei

corpora come una piattaforma metodologica per lo studio della lingua, come per

esempio per lo studio di fonetica, sintassi, sociolinguistica; una base metodologica e non un dominio di studio. Anche i linguisti McEnery e Wilson (2001) sostengono che essa non delimiti un'area della linguistica ma piuttosto definisca il metodo di studio in una data ricerca, come per esempio lo studio della semantica attraverso l'approccio corpus-

based o non corpus-based.

Dall'atro lato, secondo i linguisti che operano con i corpora, come per esempio Halliday e Sinclair, la linguistica dei corpora è una vera e propria disciplina che va ben oltre la pura metodologia di ricerca ed offre enormi possibilità alla ricerca quantitativa ed all'integrazione teorica (Tognini-Bonelli, 2000).

Poiché modifica la concezione tradizionale della lingua, la linguistica dei

corpora offre una nuova visione della lingua e determina un cambiamento qualitativo,

sia nell'ambito teorico che lessicografico, che viene largamente discusso nel lavoro di Sinclair (Tognini-Bonelli, 2000). Sinclair (1991: 4; in Tognini-Bonelli, 2000: 93) sottolinea che "the ability to examine large text corpora in a systematic manner allows access to a quality of evidence that has not been available before29

29Traduzione: "l’abilità di esaminare corpora di grandi dimensioni in una maniera sistematica consente

l’accesso ad una qualità di prove finora non disponibili".

".

La linguistica dei corpora, possedendo i mezzi per stabilire le proprie regole e affermazioni teoriche, è stata definita come un nuovo sistema di misura per la descrizione della lingua atto a spiegare e descrivere i fatti linguistici successivamente utilizzati (Tognini-Bonelli, 2000: 94).

A tale proposito, molte aree di ricerca hanno beneficiato della linguistica dei

corpora (Tognini-Bonelli, 2000; McEnery, Wilson, 2001) come per esempio la

lessicografia (Sinclair, 1987), la traduzione (Baker, 1993; Tognini-Bonelli, 1996), la grammatica (Francis, 1993; Francis, Hunston, 2000), la semantica, la psicolinguistica, la pedagogia e la didattica delle lingue.

Ciononostante, il lessico e l'interazione con la grammatica sono stati un campo di studio privilegiato, fin dai primi tempi della diffusione della linguistica dei corpora (Spina, 2001). Fra i principi fondamentali che formano la base teorica della linguistica dei corpora figura il metodo dello studio del linguaggio, il quale viene esaminato nel suo uso reale, autentico, e non come un insieme di frasi isolate e basate sull'intuito (Spina, 2001: 57). Il testo nella sua unità è invece l'oggetto di studio della disciplina.

La linguistica dei corpora, sviluppatasi soprattutto a partire dagli anni '60 in riferimento alle lingue più studiate, come l'inglese, appare come un'impresa nuova e "foriera di una nuova visione filosofica del suo oggetto di studio" (Tognini-Bonelli, 2000: 94).

La linguistica dei corpora sembra essere una vera rivoluzione destinata a modificare le basi della linguistica stessa. A tale proposito Tognini-Bonelli (2000) fa menzione della lexico-grammar di Halliday, che conferma l'interdipendenza tra il fenomeno grammaticale e quello lessicale; dell’idiom principle di Sinclair, che rappresenta un cambiamento qualitativo della nostra concezione della lingua; e della testimonianza delle differenze qualitative e quantitative tra registri parlati e scritti, evidenziate da Biber ed altri.

La combinazione di quantitativo e di qualitativo, di dati empirici e sistematici che riflettono l'uso autentico della lingua e di generalizzazioni teoriche, ovvero l'interpretazione qualitativa dei dati emersi, sono elementi fondamentali per la consapevolezza della struttura e del funzionamento del linguaggio (Prat Zagrebelsky, 2002).

Il metodo di raccolta di testimonianze linguistiche è stato largamente usato in diverse forme fino agli anni Cinquanta. Anche se i corpora usati erano solamente grandi raccolte di testi e alcune nozioni fondamentali, come la rappresentatività, non erano state usate per costruire questi corpora, i linguisti hanno impiegato i corpora in studi sull'acquisizione del linguaggio (Preyer, 1889; Stern, 1924); in studi sulle convenzioni di sillabazione, ad esempio Kading ha usato un vasto corpus per il tedesco, composto da circa 11 milioni di parole, per collocare le distribuzioni di frequenza delle lettere in tedesco (Kading, 1987) ; in studi di pedagogia delle lingue straniere (Fries, Traver, 1940; Bongers, 1947); in studi di linguistica comparativa, come ad esempio quello di Eaton (1940) che paragona la frequenza dei significati delle parole in olandese,

francese, tedesco e italiano; e in studi che si concentrano sull'analisi della sintassi e della semantica – come il lavoro di Fries (1952), che precede le grammatiche dei corpora per l'inglese, scritte negli anni '80, mentre Gougenheim ed altri (1956) hanno usato un

corpus trascritto per il francese parlato, allo scopo di descrivere le scelte lessicali ad alta

frequenza e le scelte grammaticali (in McEnery, Wilson, 2007: 2-5).

È importante notare che, fino agli anni Cinquanta, l’approccio metodologico dominante si basava sull’osservazione del linguaggio e sulla metodologia dell’analisi del corpus, in uso dai primi del Novecento.

Negli anni Cinquanta, l'approccio empirico basato sulla raccolta di testi autentici è stato messo in discussione e screditato dal linguista americano Noam Chomsky (McEnery, Wilson, 2007). Chomsky ha criticato la finitezza e l'incompletezza dei

corpora sulla base del fatto che essi rappresentano solo una piccola parte di una

popolazione più grande, sminuendo quindi la natura aperta e creativa del linguaggio. Data l'influenza di queste critiche, lo studio dei corpora ha attraversato un periodo di crisi.

Con l'avvento dell'era informatica, le nuove tecniche di trattamento dei dati hanno aumentato sia la quantità che la qualità dell'elaborazione dei dati testuali. Negli anni Sessanta e Settanta, in risposta alla critica chomskyana, si è verificato un proliferare di progetti della linguistica dei corpora.

La linguistica dei corpora si oppone all'intuizione e al giudizio di approvazione di una forma linguistica da parte di un parlante nativo ideale, rivolgendo il suo interesse verso indagini linguistiche basate su larghe raccolte di dati linguistici reali (Chiari, 2007).

Nelle sezioni seguenti si darà una definizione di corpus, per poi prendere in considerazione i due principali approcci all'analisi linguistica basata sui corpora: il

corpus-based, ovvero la linguistica basata sui corpora; e l'approccio corpus-driven, vale

a dire la linguistica diretta dai corpora. In seguito si giustificherà l'approccio adottato in questo studio. Nella conclusione si illustrerà il metodo computazionale di estrazione dei