• Non ci sono risultati.

4) la prova dell’efficacia della tecnologia linguistica a livello pratico.

4.3. Il Corpus Linguistics in Europa.

Il corpus linguistics non è più, almeno in Europa, ai margini degli studi linguistici, ma piuttosto è gradualmente diventato un approccio importante in opposizione agli approcci generativo-trasformazionali e che si integra molto bene con approcci funzionali e anche con l’analisi discorsiva e testuale.

228 Ibidem M. Freddi, Linguistica dei corpora. P. 21. 229 Ibidem M. Freddi, Linguistica dei corpora. P. 21.

- 185 -

La linguistica dei corpora richiede tuttavia competenze informatiche e statistiche da parte tanto di chi la insegna che di chi la utilizza; competenze tradizionalmente poco praticate e incentivate in un contesto umanistico. Richiede inoltre risorse informatiche, quali laboratori e software, in genere piuttosto carenti malgrado le università italiane si stanno attrezzando già da qualche anno in tal senso.

La linguistica dei corpora anglosassoni si è di solito voluta presentare come una radicale novità, accentuando gli aspetti quantitativi sui qualitativi, e contrapponendosi, a volte in modo esasperato, al generativismo come roccaforte empiristica, perlopiù in modo assai generico.

In ambienti anglofoni si è quindi assistito a una vera costruzione della linguistica dei corpora come una sorta di anti-generativismo radicale. A tal riguardo ha espresso drastiche opinioni Avram Naom Chomsky, professore emerito all’università MIT degli Stati Uniti, linguista, filosofo e teorico della comunicazione nonché fondatore di una grammatica trasformazionale indicata come il più rilevante contributo alla linguistica teorica del ventesimo secolo. Egli, nel 1958 a un autorevole convegno in Texas, ha effettivamente determinato il blocco pressoché completo dei finanziamenti ai progetti computazionali di tutta una generazione. La sua critica è legata al fatto che il corpus è di per sé uno strumento finito e incompleto, incapace cioè di contenere tutte le esecuzioni prodotte dai parlanti o quelle potenziali, e pertanto in grado di fornire informazioni solo sulle frequenze.

La dimensione dei corpora, come è stato già accennato, è andata sempre più crescendo e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL230.

La crescita del web, con la grande quantità di materiale testuale multiforme e in continua evoluzione che offre, ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali e non più da laboratorio. Oggi

230 TAL: è il Test di Abilità Linguistica del CLA con il quale si valutano le competenze linguistiche secondo le

specifiche dettate dal CEFR (Common European Framework of Reference). Il test prevede la valutazione delle abilità ricettive (lettura e ascolto).

infatti il computer permette di immagazzinare enormi quantitativi di dati testuali e di interrogarne in maniera avanzata il contenuto rendendo possibile l’annotazione linguistica del testo. L’annotazione, come detto, è una forma di codifica di un corpus e consiste nell’associazione di un’etichetta a una porzione specifica e ben delimitata di testo. Il linguaggio usato per la specifica delle etichette è detto linguaggio di

markup. Il metalinguaggio di markup è un ulteriore livello di astrazione, e stabilisce

la forma sintattica delle etichette; costruisce la base per il processo di validazione delle etichette, e può essere semi-automatico, manuale o automatico.

I corpora vengono utilizzati in diversi ambiti, tra cui la ricerca lessicologica. In questo caso possono impiegare ampie banche dati testuali eterogenee, generali, per individuare le norme d’uso del lessico. Il loro impiego serve poi in altri ambiti, quali la ricerca scientifica letteraria che, attraverso la lettura quantitativa di un testo letterario, è il fondamento per un’analisi dello stile dell’autore.

Altri ambiti sono quello stilistico, per la sociologia, per la linguistica forense e clinica, che si basano sull’analisi di uno o più corpora per definire le norme d’uso di particolari testi.

Il confronto tra due raccolte testuali in altrettante lingue attraverso corpora paralleli, permette di vedere come alcune espressioni di una data lingua siano state rese nell’altra.

Da tempo si ricorre ai corpora per la didattica linguistica, in quanto aiuta a conoscere una lingua cogliendone i tratti d’uso più vicini alla realtà.

Ai fini della ricerca scientifica, lo studioso avrà bisogno di un corpus di grandi dimensioni e che sia bilanciato e rappresentativo di una determinata lingua o di un determinato genere testuale.

Un corpus bilanciato consiste di una quantità di parole confrontabili tra le diverse varietà di testi considerati, le quali nel loro complesso siano considerate rappresentative dell’intero genere testuale e di discorso in esame.

- 187 -

Gran parte delle analisi utilizzano metodi quantitativi che permettono di determinare statisticamente l’occorrenza delle forme lessicali in un corpus e le combinazioni fraseologiche di particolari elementi lessicali in uso.

Occorre avere programmi con i quali si ricavino liste di frequenza e creino concordanze. Questi, in effetti, consentono di esplorare molti importanti fenomeni lessicali, particolarmente interessanti anche per la presente ricerca, che abbracciano la pluralità dei significati che molte parole di uso frequente possono assumere in vari contesti, ovvero la polisemia.

- Relativamente alla “polisemia”, l’operazione più semplice è quella di estrarre delle concordanze, ovvero un elenco alfabetizzato di tutte le parole presenti in un testo; per fare ciò non è neppure necessario disporre di un vero corpus, mentre è essenziale un computer.

- Il secondo fenomeno da valutare è la “collocazione”, ovvero la tendenza delle parole a combinarsi in modo preferenziale o addirittura esclusivo in forme che non dipendono da regole generali di natura grammaticale o neppure semantica.

- Segue la “colligazione”, ovvero la tendenza di una parola ad occorrere in una particolare “compagnia grammaticale”. La tendenza di una parola ad associarsi con regolarità a gruppi semantici positivi o negativi, ovvero quella che si intende per “la prosodia semantica”.

- Vi è poi un fenomeno detto “registro”, ovvero la tendenza di una parola, forma di parola o sequenza di unità lessicali, a comparire con maggior frequenza in testi appartenenti a particolari varietà linguistiche utilizzate indeterminate situazioni comunicative.

- Per ultimo abbiamo il “valore pragmatico” di una parola, ovvero la funzione di una parola nell’uso. Questo valore è un elemento di distinzione tra diversi registri.

Tali fenomeni sottolineano i legami grammaticali e semantico-pragmatici tra le parole di un testo. L’analisi di un corpus si compone essenzialmente di tre task distinti.