La linguistica dei corpora: origini e sviluppi

3. Corpus linguistics

3.1 La linguistica dei corpora: origini e sviluppi

La raccolta e la compilazione di vasti corpora linguistici ha conosciuto recentemente una progressiva espansione tanto nelle capacità di archiviazione dei testi e nella sofisticatezza delle tecniche, quanto negli impieghi concreti ad opera di linguisti, scienziati sociali e psicologi.

I primordi della disciplina risalgono agli anni Cinquanta, quando padre Roberto Busa diede inizio all‘Index Thomisticus22, consistente nella lemmatizzazione delle opere di Tommaso d‘Acquino. Il corpus consta di circa 10 milioni di parole, un‘inezia se paragonato ai moderni database di lingue come l‘inglese, lo spagnolo o l‘italiano, ma un passo significativo considerate le capacità di calcolo e archiviazione dei supporti informatici dell‘epoca. Un lavoro trentennale completato nel 1980 con la pubblicazione definitiva dell‘intera opera in 56 volumi e oltre 60.000 pagine totali.

Successivamente, il corpus sviluppato alla Brown University (il cosiddetto Brown Corpus) negli Stati Uniti è stato fondamentale nel porre le basi metodologiche di costruzione dei corpora generali di una lingua. Studiato per essere rappresentativo dell‘inglese contemporaneo del 1961, il Brown Corpus raccoglie cinquecento testi di differente natura per

Razzismo quotidiano

un totale di un milione di parole: al suo interno si trovano, infatti, articoli di giornale, editoriali, recensioni, testi religiosi e legislativi, accademici e letterari23.

Il British National Corpus24 (Bnc) ha significato, invece, un altro passo importante nella storia della linguistica dei corpora, sia per lo sforzo economico e scientifico (furono coinvolti tre editori, due Università – Oxford e Lancaster – e la British Library) che lo ha reso possibile, sia per l‘estensione mai raggiunta prima di cento milioni di parole. Il Bnc fu costruito per essere rappresentativo dell‘inglese britannico sia scritto che parlato, esso presenta infatti anche un campione (pari al 10% del totale) di testi orali, suddivisi in due tipologie: la prima contiene trascrizioni di interazioni verbali naturali, prodotte da parlanti di diverse aree geografiche, età e classi sociali in una moltitudine di occasioni (programmi radiofonici, incontri formali ecc.); la seconda raccoglie interazioni prodotte in contesti controllati. L‘accessibilità dei dati raccolti nel Bnc è stato un altro dei suoi tratti distintivi; per la prima volta un corpus veniva dotato di strumenti che consentissero l‘accesso non solo al personale accademico, ma anche a usi commerciali.

In Italia sono ormai diverse le esperienze di costruzione di corpora consolidate o in fase di continuo sviluppo. Per motivi di spazio e opportunità daremo conto solo di alcuni tra i casi più rilevanti. Il progetto CORIS/CODIS, messo in piedi da R. Rossini Favretti e Fabio Tamburini all‘Università di Bologna e consultabile in rete, è stato costruito per essere rappresentativo dell‘italiano scritto e contiene 130 milioni di parole, aggiornate attraverso un corpus di monitoraggio25 ogni tre anni. Esattamente come il Brown Corpus, esso include

Per i criteri di campionatura del corpus e le metodologie di compilazione, si veda Francis, Kučera (1964).

24_{Per la descrizione del corpus e l‘accesso ai dati, si veda Bnc (2007).}

25_{I corpus di monitoraggio «provide for constant updating by means of the periodic introduction of data}

realised by a collection of filters, on the basis of a selection carried out both on fresh data and on those already introduced. The configuration of themonitorcorpusmeans that the aspects of determinacy and permanence which were defining characteristics of the size of a corpusover the past decades are no longer valid. The corpus takes on a dynamic configuration, which seems more relevant and advantageous if we consider that today, with the new possibilities provided by the development of new technology and memory, it is no longer necessary to go to the trouble of selecting texts. It seems to be possible to manage a corpus whose principal components are delimited and, at the same time, a monitor corpus which is open and able to record innovations and modifications in current usage. This combination makes it possible to access a corpus which is available in a finite form - either on-line or on CD-Rom - and which can be updated by means of the monitor as well as by the introduction of supplementary subcorpora representing further varieties», http://corpora.dslo.unibo.it/coris_engDesign.html.

Approcci metodologici all‘analisi del discorso

campioni di testi di vario genere26: stampa, narrativa, prosa accademica, testi giuridico- amministrativi ecc.

Il Lessico italiano di frequenza (LIF), curato da Bortolini, Tagliavini e Zampolli (1971), è il primo vero tentativo di realizzare un corpus di riferimento dell‘italiano generale. Esso è composto da circa 500 mila parole estratte da testi letterari, teatrali, cinematografici, periodici e sussidiari. Ha avuto un‘enorme importanza nel panorama degli studi linguistici italiani; da esso, inoltre, è derivato il Vocabolario di base della lingua italiana di De Mauro (1980, con successive riedizioni), un elenco di oltre 7.000 parole considerate indicative del repertorio comune dei parlanti.

Mentre il Lessico di frequenza dell‟italiano parlato (Lip), curato da De Mauro, Mancini, Vedovelli e Voghera (1993), è composto da circa 500 mila parole ricavate da cinque tipologie di testi parlati, in contesti sia formali sia informali: conversazioni faccia a faccia; conversazioni telefoniche; alternanza di turno predefinita, come interviste, esami orali, dibattiti, ecc.; monologhi; programmi radiofonici e televisivi. Le registrazioni sono state compiute in quattro città italiane (Firenze, Roma, Napoli e Milano), che sono state scelte per la collocazione geografica, la preminenza demografica e per l‘importanza dal punto di vista linguistico. Il numero di parole è bilanciato per ogni città e per ogni tipologia di testi e corrisponde a circa 57 ore di parlato.

Per quanto riguarda il linguaggio giornalistico, invece, è doveroso menzionare il corpus

la Repubblica, un‘imponente raccolta di articoli estratti dal quotidiano romano tra il 1985 e il

2000 per un totale di 380 milioni di parole27.

I corpora attualmente più vasti dal punto di vista quantitativo sono senza dubbio il corpus ItWaC e il corpus ItTenTen. Entrambi fanno parte di progetti più ampi che comprendono anche corpora di altre lingue e sfruttano il web come fonte di approvvigionamento per i testi; questi vengono, infatti, attinti da Internet per mezzo di software di raccolta automatica28. La sterminata produzione, sia in termini quantitativi che di varietà tipologiche, di testi presenti in rete e l‘evoluzione dei sistemi informatici e dei programmi a disposizione dei ricercatori rende oggi possibile raccogliere un numero di testi assolutamente inimmaginabile rispetto ai corpora classici. Il corpus ItWac è formato, infatti,

26_{Per una più ampia e precisa descrizione della composizione e della definizione del corpus si può}

consultare Rossini Favretti (2000) e Rossini Favretti et al. (2002).

27_{Si veda Baroni et al. (2004).}

28_{Rimandiamo a Baroni et al. (2009) e Jakubíček et al. (2013) per un‘esaustiva descrizione dei}

Razzismo quotidiano

da quasi due miliardi di parole, mentre ItTenTen da circa tre miliardi. Vista la maggiore accessibilità degli strumenti messi a disposizione della comunità da parte dai compilatori, abbiamo scelto di usare ItWac come punto di riferimento per le analisi quantitative del nostro corpus.

L‘ampia diffusione dei corpora e dei loro strumenti di indagine ha recentemente spinto sempre più gli analisti del discorso a ricorrervi implementandoli nelle proprie ricerche29. A causa delle dimensioni del nostro corpus e delle ovvie limitazioni fisiche e temporali, un‘analisi puramente qualitativa, testo per testo, sarebbe impossibile da realizzare.

L‘uso delle metodologie della Corpus linguistics ha certamente dei benefici nel ridurre il grado di soggettività delle proprie indagini, ma non le annulla e bisogna guardarsi bene dall‘affidarsi ciecamente solo a numeri e statistiche. Se è pur vero che i computer non risentono degli stessi difetti ideologici degli umani e perciò non fanno che restituirci cifre e parole trovate nel materiale che gli forniamo, la scelta dei testi, degli esempi, di ciò che consideriamo significativo e cosa no, ma soprattutto l‘interpretazione finale è esclusivo frutto dell‘elaborazione e dell‘introspezione del ricercatore. Tra i limiti di un‘analisi del discorso eccessivamente sbilanciata sui metodi quantitativi può esservi, poi, una scarsa rilevanza assegnata al quadro contestuale in cui i testi si inseriscono (Mautner 2007); motivo per cui la combinazione di più apparati teorici e metodologici si rivela non solo fruttuosa, ma anche essenziale per venire a capo delle peculiarità linguistiche e discorsive del proprio corpus.

Nel descrivere gli approcci all‘analisi del corpus, Tognini-Bonelli (2001) traccia la nota distinzione tra corpus-based o corpus-driven approach: i primi, in sostanza, si basano sullo sfruttamento del corpus per esplorare, convalidare o rigettare le ipotesi che lo studioso costruisce in anticipo; i secondi, viceversa, costruiscono le teorie e le ipotesi scandagliando passo dopo passo il corpus, partendo quindi dai dati da esso forniti e procedendo per ipotesi successive. Nel nostro studio tenteremo di applicare, quindi, il primo metodo, considerando le nostre ipotesi di partenza centrali per lo sviluppo della ricerca, ma soprattutto avendo dovuto selezionare solo alcune precise tematiche e non confrontandoci con altre, di sicuro interesse e rilievo, per motivi di spazio e tempo.

Uno dei problemi maggiori dal punto di vista metodologico risulta senza dubbio essere la selezione degli esempi da sottoporre al vaglio dell‘analisi linguistica. Va da sé che la scelta non può essere né totalmente casuale né totalmente arbitraria; per ovviare a tale problema è possibile esaminare la distribuzione delle occorrenze di determinate forme linguistiche allo

Approcci metodologici all‘analisi del discorso

scopo di isolare dei periodi in cui si presentano dei picchi probabilmente corrispondenti a episodi di particolare interesse mediatico. A quel punto è possibile ―campionare‖ nuovamente il periodo specifico e osservarlo con maggior dettaglio e arricchirlo con ulteriori elementi contestuali per poterlo decodificare.

Gli strumenti e le esperienze messe a frutto in questo campo di indagine sono state molto utili per gestire, sistematizzare e sondare il nostro corpus. L‘obiettivo che ci siamo posti a monte della ricerca, ovvero di superare le canoniche indagini qualitative svolte su piccoli campioni, sarebbe stato impossibile senza gli strumenti forniti dalla linguistica dei corpora. Vedremo nel prossimo paragrafo esattamente quale inventario di nozioni e tecniche verrà applicato in questo lavoro.

Nel documento Razzismo quotidiano: la rappresentazione dello straniero nella stampa italiana (2000-2010) (pagine 36-40)