Breve storia della linguistica dei corpora

3. I corpora testuali

3.2 Breve storia della linguistica dei corpora

L'uso di studiare la lingua analizzando collezioni di dati derivanti da fonti dirette esisteva già prima della moderna linguistica dei corpora: un esempio è costituito dall'operato di Franz Boas, che nel 1940 inizia a studiare la lingua dei nativi americani analizzando collezioni di dati, benché l'autore non si riferisca ai suoi studi utilizzando il termine “linguistica dei corpora”112_{. Anche gli studiosi della grammatica degli inizi del XX secolo, come il danese}

Otto Jespersen, facevano largo uso di testi autentici.113_{Quindi i corpora esistevano già prima}

109 Douglas Biber, Ulla Connor e Thomas A. Upton, Discourse on the move: using corpus analysis to describe discourse structure (Amsterdam: John Benjamins Publishing Co, 2007).

110 Douglas Biber e Susan Conrad, Lexical Bundles in Conversation and Academic Prose in Out of corpora: studies in honour of Stig Johansson, a cura di Hilde Hasselgård e Signe Oksefjell (Amsterdam: Rodopi, 1999), 181.

111 Ibid.

112 Tony McEnery e Andrew Wilson, Corpus linguistics, 2-3.

113 Jan Svartvik, “Corpus linguistics 25+ years on” in Corpus linguistics 25 years on, a cura di Roberta Facchinetti (Amsterdam: Rodopi, 2007), 13.

3. I corpora testuali

dell'avvento dei computer, e la stessa cosa si può dire per gli studi condotti attraverso l'analisi di collezioni di testi.

Negli anni Cinquanta lo studio dei corpora conosce una battuta d'arresto a seguito delle critiche mosse da Noam Chomsky nei confronti di questo tipo di approccio alla linguistica: lo studioso contestava il fatto che i corpora non fossero sufficientemente rappresentativi di una lingua. Questo perché secondo il noto approccio generativo di Chomsky, esisterebbe nel linguaggio una creatività che permetterebbe di generare continuamente nuove frasi. Ciò implicherebbe il fatto che l'analisi del linguaggio non debba essere condotta soltanto su insiemi di parole, ma sulle strutture e sulle regole possedute dai parlanti. Secondo Chomsky, la grammatica di un linguaggio sarebbe quindi il meccanismo per il quale tutte le componenti grammaticali di una lingua possono essere generate114_{. Il linguaggio pertanto sarebbe}

infinitamente produttivo per il fatto che i parlanti sono abili di produrre un infinito numero di frasi115_{. Per fare un classico esempio, si possono considerare le stesse frasi che compaiono nel}

presente paragrafo: chi le legge riconosce in esse strutture grammaticalmente valide, benché è assolutamente probabile che sia la prima volta che le legge.

Un approccio siffatto si pone chiaramente in contrasto con lo studio dei corpora, perché quest'ultimo si fonda su dati empirici, oggettivi e finiti. In più, critiche vengono mosse da altri studiosi, perché prima dell'avvento dei calcolatori le ricerche sui corpora erano lunghe e dispendiose: si trattava di cercare tra milioni di occorrenze senza l'aiuto di macchine! Quindi, a causa del successo delle teorie di Chomsky e delle critiche mosse da altri linguisti, lo studio dei corpora va incontro a un periodo di impopolarità.

Le critiche tuttavia non fermano lo studio dei corpora: quest'ultimo in particolare prende nuovo vigore grazie alla nascita del computer, che ha permesso di eseguire con facilità ricerche prima di allora impensabili.

Il primo uomo a realizzare un corpus elettronico è un italiano, Roberto Busa116_{: questi, un}

sacerdote gesuita nato a Vicenza, dopo essersi laureato presso la Pontificia Università Gregoriana, nel 1949 contatta l'allora amministratore delegato della IBM, Thomas J. Watson Sr, e si reca a New York per convincerlo a supportare una sua ricerca117_{. Tale ricerca}

consisteva nella realizzazione di un corpus elettronico delle opere di San Tommaso d'Aquino. 114 Matt Carter, Minds and computers: an Introductions to the Philosophy of Artificial Intelligence (Edinburgo:

Edinburgh Press University, 2007), 149. 115 Ibid.

3. I corpora testuali

Busa, all'epoca insegnante presso l'Aloisianum di Gallarate, inizia a trasferire le opere del filosofo medievale su schede perforate a partire dal 1949, e nel 1967 il progetto finisce con la creazione dell'Index Thomisticus, un corpus di 10.600.000 di occorrenze118_{, in seguito}

pubblicato anche a stampa e su CD-Rom.

Contemporaneamente viene realizzato il Brown Corpus, il primo corpus elettronico di riferimento per la lingua inglese (nonché il primo corpus elettronico progettato per lo studio di una lingua), completato nel 1964 da Henry Kučera e W. Nelson Francis della Brown University di Providence (Stati Uniti)119_{: la pubblicazione del loro lavoro Computational}

Analysis of Present-Day American English di fatto dà il via alla linguistica dei corpora così

come la intendiamo oggi.

Un'altra tappa importante nella storia della linguistica dei corpora è stata la realizzazione, a opera di Sir Randolph Quirk e di Jan Svartvik, del London-Lund Corpus (LLC) negli anni Settanta: quest'ultimo è nient'altro che la digitalizzazione del Survey of English Usage, un corpus realizzato da Quirk, indicato come il primo corpus di testi moderno120_.

I lavori di questi primi pionieri ispirano la realizzazione di diversi altri corpora, che vengono sviluppati negli anni Settanta e Ottanta in centri creati appositamente per lo studio sui corpora121_{: tra i corpora prodotti in questo periodo bisogna citare il Lancaster-Oslo-Bergen}

Corpus (LOB), un corpus di riferimento per il “British English”, che costituisce la controparte

inglese del Brown Corpus, in quanto elaborato secondo gli stessi criteri.

Gli anni Novanta vedono lo sviluppo di un altro tipo di corpus, in cui i dati raccolti si sviluppano su una scala diacronica (ovvero i testi raccolti provengono da epoche diverse)122_{: il}

primo di questi corpora è l'Helsinki Corpus of English Texts, importante soprattutto perché poteva permettere ricerche di tipo storico e consentiva di esaminare i cambiamenti storici dell'inglese123_.

Gli ultimi anni hanno visto lo sviluppo di corpora di riferimento per la lingua parlata, contenenti registrazioni audio, nonché di corpora costruiti sulla base di testi prelevati dal web, tanto che secondo alcuni studiosi il web può essere considerato come un grande corpus di testi 118 Ibid.

119 Ibid., 22.

120 Victorina González-Díaz, English adjective comparison: a historical perspective (Amsterdam: John Benjamins Publishing Co, 2008), 3.

121 Tony McEnery e Andrew Wilson, Corpus linguistics, 22-23.

122 Raimond Hickey, Corpus presenter: software for language analysis (Amsterdam: John Benjamins Publishing Co, 2003), 2-3.

3. I corpora testuali

adatti a studi linguistici124_{. Sulla base di quest'ultima osservazione, nel 2001 è iniziato lo}

sviluppo del progetto WebCorp, un motore di ricerca costruito per permettere ricerche di tipo linguistico su internet. Gli ultimi sviluppi della linguistica dei corpora infatti riguardano proprio la rete: il dibattito si sviluppa intorno alla possibilità di considerare il web come un corpus. La questione presenta vantaggi ma anche svantaggi: tra i vantaggi, il fatto che il web possa essere enormemente più grande di qualunque corpus progettato “a mano”125_{nonché il}

fatto che possa essere una sterminata fonte di qualsiasi tipo di testo, mentre tra gli svantaggi si può considerare il fatto che non si conosce l'esatta grandezza del web (e ciò rende relative tutte le stime statistiche condotte su di esso)126_{, nonché la mancanza di controllo sui testi, che}

possono sparire dalla rete da un momento all'altro127_.

Nel documento La fruizione telematica dei carteggi d'artista. Una proposta metodologica e Carlo Finelli Corpus, un corpus epistolare esemplificativo. (pagine 44-47)