Storia e sviluppo del Corpus. - La terza è la concordanza ovvero lo strumento per estrarre da u

3) La terza è la concordanza ovvero lo strumento per estrarre da un corpus le

4.4. Storia e sviluppo del Corpus.

A seguito di un’approfondita indagine, risulta che all’interno della tradizione filologica gli studi basati sui corpora possano essere fatti risalire a centinaia d’anni fa. Le grandi raccolte di testi, infatti, si sono sempre dimostrate indispensabili per la conoscenza delle lingue antiche e dei dialetti.

Le prime concordanze furono preparate per testi di rilievo culturale, come accadde nel 1737 con la Bibbia.

Nel 1790 Ayscough indicizzò le opere di Shakespeare per studiare quali sono i differenti significati che le parole possono assumere, presagendo così il principio moderno che equipara il significato di un termine all’uso che ne viene fatto.

Un campo in cui l’utilizzo dei corpora si è rivelato particolarmente utile già nei secoli addietro è quello della lessicografia. A partire dal diciottesimo secolo la

- 189 -

necessità di produrre dizionari di sempre maggiore completezza fece sì che si instaurasse la consuetudine di attingere esempi linguistici da grandi archivi di testi.

Il primo a utilizzare dei corpora per la compilazione di un dizionario fu Samuel Johnson, critico letterario, poeta, saggista, biografo e lessicografo britannico, che nel 1755 raccolse oltre 150.000 citazioni per esemplificare 40.000 lemmi. Seguirono altri lessicografi che, al fine di illustrare gli usi e i significati del sempre più alto numero di termini registrati nelle loro opere, attinsero citazioni dai manoscritti più diversi. Basti pensare che alcuni decenni dopo la pubblicazione di Johnson, L’Oxford English Dictionary arrivò a comprendere cinque milioni di citazioni.

Nel periodo che va dalla fine dell’Ottocento alla prima metà del Novecento, gli studi basati sui corpora iniziarono ad avere precise applicazioni anche nel campo educativo e in quello istituzionale.

I risultati più rilevanti si ebbero nella produzione delle grammatiche, anche a costo però di un notevole dispendio di risorse umane ed economiche. Fra questi lavori si possono ricordare:

- la grammatica di Jespersen, basata su esempi di inglese prodotti nel corso di vari secoli;

- quella di Fries del 1952, realizzata a partire da un corpus di conversazioni telefoniche composto da 250.000 parole;

- la grammatica di Quirk del 1972, basata sull’ultimo dei grandi corpora non computerizzati ma in seguito convertito in formato elettronico e utilizzato per le edizioni successive dello stesso testo.

Vasti studi campione coprirono il periodo che va all’incirca dal 1927 al 1957, quando l’analisi veniva eseguita su un gran numero di bambini con il preciso scopo di stabilire norme di sviluppo. Dal 1957 a oggi si è avuto il predominio di studi

longitudinali, basati sempre sulla raccolta di espressioni linguistiche ma con un campione più ridotto, ovvero tre soli bambini esaminati per lunghi periodi di tempo.

L’interesse per le convenzioni ortografiche della propria lingua, spinse invece Kading, intorno al 1897, a realizzare un grande corpus che non sfigura, in termini di ampiezza, dinanzi ai corpora moderni: ben undici milioni di parole per analizzare la distribuzione della frequenza delle lettere in tedesco.

Più tardi linguisti, come Fries e Traver (1940) o Bongers (1947), usarono i

corpora nella ricerca sulla dimensione educativa dell’insegnamento di una lingua

straniera.

In effetti i corpora e l’insegnamento della seconda lingua hanno avuto un legame forte nella prima metà del ventesimo secolo, in quanto le liste di vocaboli per gli studenti venivano spesso tratte dai corpora.

Molto forte fu poi l’influenza di Chomsky, il quale, in brevissimo tempo, mutò direzione alla linguistica, orientandola dall’empirismo al razionalismo. Così facendo invalidò il corpus come mezzo affidabile nella ricerca linguistica: era sua opinione infatti, che il corpus non potesse essere uno strumento utile per il linguista in quanto raccolta di manifestazioni linguistiche, “dati di esecuzione”, insufficienti per modellare la “competenza linguistica”. Quest’ultima fu definita come la conoscenza tacita e interiorizzata di una lingua, mentre per “esecuzione” Chomsky indicò il segno esterno dato dall’uso della lingua in determinate occasioni.

Fu così che, negli anni cinquanta, in seguito a queste e ad altre critiche, la Linguistica dei corpora fu in gran parte abbandonata. Tuttavia non si estinse del tutto: infatti, ad esempio nel campo della fonetica, i dati osservati in natura rimasero la fonte dominante di prove, così come avvenne nello studio dell’acquisizione del linguaggio nei bambini.

Fra gli anni ‘50 e ’80, alcuni linguisti continuarono a essere pionieri nella ricerca basata sui corpora: nel 1960 Quirk progettò la costruzione del Survey of

- 191 -

English Usage (SEU), che iniziò poi nel 1961; nello stesso anno Francis e Kucera intrapresero l’elaborazione del Brown Corpus, completato poi in due decenni; in seguito, nel 1975 Jan Svartvik cominciò a lavorare su entrambi i corpora arrivando a realizzare il London-Lund Corpus. In questo periodo il computer, già in evoluzione soprattutto in termini di programmi, lentamente si affermò come supporto fondamentale per la Linguistica dei corpora. Esso si rivelò in grado di svolgere in breve tempo, e con un notevole margine di affidabilità, ciò che, senza il suo utilizzo, avrebbe richiesto al linguista lunghe attese e grande sforzo.

La disponibilità più ampia di servizi offerti dal computer, sia istituzionali che privati, e la disponibilità di corpora in formato digitale, rilanciarono la Linguistica dei Corpora, consentendone quella rivalutazione che si manifesta nel vasto numero di essi realizzati fino ad oggi o tuttora in fase di elaborazione.

A partire dagli anni sessanta, grazie all’esplorazione della tecnologia, la linguistica dei corpora inizia a progredire. Nascono e si sviluppano programmi per il calcolo della frequenza delle parole, per la compilazione di indici e concordanze di una parola presente nel contesto linguistico, e per la creazione di dizionari elettronici.

La linguistica dei corpora, avvalendosi di strumenti di analisi quantitativa e statistica, permette di esplorare e descrivere la struttura di una lingua in modo sistematico e scientifico.

Proprio in questi anni accadde un fatto che diede una svolta fondamentale alla formazione dei corpora. Venne creato infatti il primo corpus elettronico di inglese, scritto nel 1961, il conosciuto Brown Corpus di Henry Kucera e W. Nelson Francis, presso la Brown University negli Stati Uniti, reso pubblico soltanto nel 1964. Esso è composto di un milione di parole di lingua inglese americana scritta. Parallelamente John Sinclair, pioniere dei corpora in Gran Bretagna, iniziava a raccogliere a Edimburgo un corpus di inglese parlato, trovando poi per i suoi dati una sede tecnologicamente più favorevole nell’università di Birmingham. Una

nuova svolta, questa, sia per la ricerca linguistica che per l’insegnamento della lingua, destinata a cambiare la metodologia d’indagine attraverso un sistema elettronico ben strutturato.

Verso la fine degli anni settanta la linguistica dei corpora si sviluppa soprattutto in Gran Bretagna e nell’Europa del Nord, passando dalla costruzione di corpora definiti piccoli (1 milione di parole) a corpora molto più grandi (i 100 milioni di parole del British National Corpus, BNC e il corpus aperto della Bank of

English di Birmingham, che ha superato ora il mezzo miliardo di parole).

Nonostante l’entusiasmo per le potenzialità del computer, specialmente per quanto riguardava risultati di natura quantitativa, la linguistica dei corpora non era ancora parte riconosciuta della cosiddetta mainstream linguistics, ma ne restava ai margini, coltivata da piccoli per quanto attivissimi gruppi.

Con l’utilizzo sempre più intenso dei computer per immagazzinare, elaborare e trasmettere testi, aumentò la richiesta di programmi informatici in grado di filtrare e analizzare il linguaggio. Ciò costituì uno stimolo per molte ricerche linguistiche e promosse la nascita di discipline come la succitata Linguistica Computazionale. Quest’ultima, fondandosi su un tipo di conoscenza a carattere interdisciplinare, che combina le teorie di analisi e produzione del linguaggio con concetti e tecniche informatici, ha richiesto fin da subito la collaborazione tra tecnologia moderna e studi umanisti, coinvolgendo linguisti, informatici e psicologi.

Verso l’inizio degli anni ottanta cominciarono a essere pubblicati dizionari e grammatiche esplicitamente corpus-based. Essi arrivavano in Italia come prodotti già confezionati e un po’ misteriosi, pubblicizzati dal ben avviato mercato editoriale britannico.

Il Professor John McHardy Sinclair, dell’università Birmingham in Inghilterra, appartenente alla prima generazione di studiosi e promotori della

- 193 -

moderna linguistica dei corpora, insiste sulla necessità di lavorare alla descrizione dell’inglese contemporaneo con metodologie informatiche innovative, costruendo cioè corpora di grandi dimensioni per conciliare l’esigenza di osservare i fenomeni linguistici con l’apprendimento linguistico.

Il progresso della cosiddetta “società dell’informazione”, è stato definito quasi all’inizio del nuovo millennio, caratterizzata dall’introduzione delle nuove Tecnologie dell’Informazione e della Comunicazione in molti ambiti della nostra vita. Questo processo interessa molto da vicino il linguaggio. Non a caso le maggiori conquiste di questa nuova società riguardano le agevolazioni nella comunicazione fra gli uomini grazie al superamento di barriere spazio-temporali fino a qualche tempo prima estremamente limitanti.

LeTecnologie del Linguaggio Umano, che consistono nello sviluppo di nuovi sistemi informatici capaci di riconoscere, analizzare, interpretare e generare linguaggio, consentono una migliore interazione fra l’uomo e il calcolatore, agevolano una più rapida acquisizione di informazioni, e forniscono innumerevoli metodi e strumenti per il potenziamento della ricerca nell’ambito delle Scienze Umane, in generale, e della linguistica in particolare. Sistemi, questi, che agevolano l’utente nella comunicazione con il computer in forma di interfaccia uomo e macchina, ma anche di applicazioni per la consultazione di banche dati o per il recupero e la selezione dell’informazione.

Sono inoltre nati sistemi che aiutano in studi linguistici e nell’analisi di testo e di corpus che consentono di automatizzare alcune puntigliose e faticose attività, come il determinare la frequenza di certe parole, stabilire concordane e analizzare statisticamente i dati testuali. Infine, molto importante è stata la nascita di sistemi che permettono agli uomini di comunicare tra di loro pur utilizzando lingue diverse attraverso l’applicazione di Traduzione Automatica.

Grazie alla progettazione di macchine in grado di imitare sempre meglio le capacità linguistiche umane, abbiamo assistito a progressi significativi in questo settore, tanto che, negli ultimi decenni, hanno visto la luce alcune nuove discipline, tra cui la Linguistica Computazionale.

Negli anni novanta, la linguistica dei corpora, grazie alle dimensioni di essi, è andata crescendo fino a raccogliere decine di milioni parole e divenendo una metodologia di analisi sempre più importante per lo studio della linguistica.

I corpora hanno quindi facilitato l’analisi dei testi, fornendo una grande quantità di dati linguistici selezionati su base statistica. Essi hanno iniziato a essere utilizzati anche nella didattica, sia come fonti di materiali ed esercizio sia per l’accesso diretto degli studenti all’osservazione di liste di parole e di concordanze, e, da ultimo, anche sotto forma di produzioni di apprendenti per studiare più sistematicamente le caratteristiche della loro interlingua.

Non esistono a tutt’oggi raccolte che coprano tutta la lingua, ma campioni rappresentativi delle sue differenti varietà; abbiamo invece corpora completi che contengono tutte le opere di un determinato autore oppure di un certo genere letterario, nonché la produzione completa di un determinato giornale.

Il computer oggi permette d’immagazzinare quantità di dati testuali prima inimmaginabili e di interrogarne in maniera avanzata il contenuto, rendendo possibile l’annotazione linguistica del testo su ampia scala e la relativa organizzazione linguistica.

- 195 -

Nel documento Linguistic analysis of an arabic corpus drawn from social media. Neologisms utilized in Young people's Language in arab sites and blogs (pagine 191-198)