• Non ci sono risultati.

T RADURRE CON I CORPORA LINGUISTICI :

N/A
N/A
Protected

Academic year: 2021

Condividi "T RADURRE CON I CORPORA LINGUISTICI : "

Copied!
117
0
0

Testo completo

(1)

Università degli Studi di Modena e Reggio Emilia

D

IPARTIMENTO DI STUDI LINGUISTICI E CULTURALI

C ORSO DI L AUREA M AGISTRALE IN

L INGUE, C ULTURE, C OMUNICAZIONE

T RADURRE CON I CORPORA LINGUISTICI :

P ROSPETTIVE DEGLI APPRENDENTI SU ATTIVITÀ DI TRADUZIONE CORPUS-DRIVEN

Prova finale di:

Giorgia Contini Relatore:

Prof.ssa Laura Gavioli

Correlatore

Prof. Claudio Baraldi

Anno Accademico 2017/2018

(2)
(3)

ABSTRACT

Scopo di questo elaborato di tesi è quello esaminare l’utilizzo di corpora linguistici come strumenti per l’apprendimento della disciplina traduttiva dalla prospettiva di apprendenti di lingua inglese. L’elaborato si compone di tre capitoli. Il primo fornisce un quadro teorico della linguistica dei corpora e delle sue applicazioni nella didattica delle lingue e negli studi sulla traduzione. Il secondo prende in esame una serie di proposte metodologiche avanzate da docenti e ricercatori per l’utilizzo di diverse tipologie di corpora come strumenti per l’acquisizione di competenze necessarie per tradurre. Prendendo le mosse da un punto di vista complementare rispetto a quello adottato nel capitolo precedente, il terzo capitolo si propone di esaminare le considerazioni di alcuni studenti in merito alla propria esperienza di traduzione tramite l’utilizzo di corpora. Dalle considerazioni degli apprendenti, raccolte tramite interviste semi-strutturate, emerge che gli intervistati hanno preso consapevolezza del valore delle informazioni ricavabili dai corpora linguistici. La loro applicazione resta tuttavia limitata dalla complessità e dal quantitativo di tempo richiesto dal processo di elaborazione ed interpretazione dei dati, cui vengono in molti casi preferite strategie traduttive più immediate e applicabili in situazioni di scambio comunicativo, in cui l’obiettivo è una soddisfacente comprensione reciproca, piuttosto che la precisione nell’espressione formale.

In recent years, there has been a growing interest in using corpora in language pedagogy and in translators’ training. Several studies have been carried out by teachers and researchers, with a view to demonstrating the relevance of corpus-driven approaches to translation teaching and learning. Taking a complementary point of view, this paper aims to investigate the benefits and weaknesses of corpus use in translation from the perspective of English L2 learners. Firstly, Chapter 1 provides a theoretical framework of corpus linguistics and the main types of language corpora before discussing their applications in language pedagogy and Translation Studies. A number of methodological approaches to the use of various types of corpora in the translation classroom are examined in Chapter 2. These translation experiments have been put forward by teachers and researchers in order to show their students the value of corpora as tools for learning how to translate. Chapter 3 investigates some learners’ attitudes and opinions about experiences of corpus-driven translation, on the basis of data collected through semi-structured interviews. From the analysis of data, it seems possible to argue that learners acknowledged the value of corpora;

their use is nonetheless still limited by the time-consuming and complicated methods of processing and interpreting corpus data.

(4)
(5)

INDICE ABSTRACT

INTRODUZIONE ………... 1

CAPITOLO 1 I corpora linguistici nell’insegnamento e apprendimento delle lingue: background teorico ………... 5

1.1 La linguistica dei corpora: una breve introduzione ………. 5

1.2 I corpora linguistici ………. 7

1.2.1 Cosa sono i corpora? Un tentativo di definizione ………... 7

1.2.2 Tipologie di corpora ……….. 10

1.2.2.1 I corpora generali o di riferimento ………. 10

1.2.2.2 I corpora specialistici ………. 11

1.2.2.3 I corpora comparabili e paralleli ……… 12

1.3 I corpora linguistici nella didattica delle lingue ……… 13

1.3.1 Applicazioni dei corpora linguistici in ambito didattico – pedagogico ………. 14

1.3.1.1 Applicazioni indirette dei corpora in ambito didattico ……….. 18

1.3.1.1.1 I corpora e la pubblicazione di opere di riferimento e materiale per l’insegnamento ………. 18

1.3.1.1.2 I corpora e la progettazione di programmi didattici ……….. 20

1.3.1.2 Applicazioni dirette dei corpora in ambito didattico ………. 21

1.3.2 Controversie sull’applicazione di corpora linguistici in ambito didattico–pedagogico ……….... 23

1.4 I corpora linguistici e la traduzione ………... 27

CAPITOLO 2 L’uso di corpora linguistici nell’apprendimento della traduzione: proposte metodologiche ……… 31

2.0 Introduzione ……….. 31

2.1 Elaborazione e analisi dei corpora: i metodi principali ………. 31

2.1.1 Liste di frequenza ……….. 32

2.1.2 Concordanze ……….. 33

2.2 Sinclair e la teoria delle unità di significato ……….. 33

2.2.1 Idiomaticità vs creatività: usi non convenzionali della lingua ……….. 37

2.2.2 Tradurre le unità di significato: una proposta metodologica ………. 38

2.3 I corpora linguistici nell’apprendimento della traduzione ……… 40

(6)

2.3.1 Corpora generali o di riferimento ……….. 43

2.3.2 Corpora specialistici ……….. 49

2.3.3 Corpora comparabili ……….. 54

2.3.4 Corpora paralleli ……… 58

2.3.5 Corpora ad hoc ……….. 61

2.3.5.1 Corpora ad hoc e World Wide Web ……….. 63

2.4 Conclusione ………... 68

CAPITOLO 3 I corpora come strumenti per l’apprendimento della traduzione nell’esperienza di apprendenti di lingua inglese ………... 71

3.0 Introduzione ……….. 71

3.1 Partecipanti ……… 71

3.2 Raccolta dei dati ……… 73

3.3 Analisi dei dati ……….. 74

3.3.1 Usi correnti dell’inglese, conoscenze pregresse sui corpora linguistici e consuetudini traduttive ………... 74

3.3.2 Preparazione all’utilizzo dei corpora ……… 76

3.3.3 Gli strumenti per la traduzione: tipologie di corpora impiegate ed altre risorse informatiche ……….. 76

3.3.4 Vantaggi e difficoltà nell’utilizzo di corpora come strumenti per la traduzione …... 78

3.3.5 Traduzione ed uso dell’inglese: difficoltà, esperienze e potenziali prospettive future ……….. 81

3.3.6 Prospettive sull’utilizzo di strumenti informatici nello studio e nel lavoro con le lingue straniere ……….. 86

3.3.7 Considerazioni generali sui corsi di traduzione frequentati ……….. 87

3.4 Discussione ………... 88

3.5 Conclusioni ………... 94

CONCLUSIONE ………... 95

BIBLIOGRAFIA ………. 101

SITOGRAFIA ………. 106

APPENDICE 1 ……… 107

APPENDICE 2 ……… 110

(7)

1 INTRODUZIONE

A partire dagli anni ’60 del secolo scorso, lo sviluppo tecnologico ed informatico ha segnato una svolta nella pre-esistente e longeva ricerca linguistica basata sull’analisi di raccolte di materiale testuale, contribuendo a dare forma ai concetti di “linguistica dei corpora” e di “corpus” per come oggi sono comunemente conosciuti. Fra i campi in cui la ricerca ha rivolto la propria attenzione agli strumenti ed alle metodologie della linguistica dei corpora, la didattica delle lingue è uno dei più antichi. A seguito della rivoluzione tecnologica degli anni ‘60 e della creazione dei primi corpora elettronici, dalla fine degli anni ’80 il rapporto fra linguistica dei corpora e didattica delle lingue ha attraversato due momenti di svolta: la realizzazione del progetto COBUILD da parte di John Sinclair, dal quale sono scaturite diverse tipologie di materiali di riferimento per la didattica corpus-based, e l’elaborazione della teoria del Data-Driven Learning (DDL) da parte di Tim Johns, punto di partenza per le successive esperienze di insegnamento e (soprattutto) apprendimento corpus- driven. Sul finire degli anni ’90, inoltre, la linguistica dei corpora ha iniziato a suscitare interesse anche negli studi descrittivi ed applicati dedicati alla traduzione. In particolare, le possibilità offerte dalle metodologie di ricerca linguistica basate sull’analisi di corpora hanno incontrato consensi per quanto riguarda l’insegnamento ed apprendimento della disciplina traduttiva, nel cui ambito sono stati condotti numerosi studi per testare la validità dell’utilizzo dei corpora come strumenti per la traduzione. Tali esperienze sono state, nella gran parte dei casi, messe a punto, attuate e discusse da ricercatori e docenti, con l’obiettivo di verificare le proprie ipotesi sull’effettivo valore dei corpora come strumenti nelle mani di “aspiranti”

traduttori. Anche se presumibilmente, in qualche modo, tenute in considerazione, le impressioni degli apprendenti coinvolti in merito ai medesimi quesiti sono raramente, per quanto si è potuto osservare, oggetto di disamine approfondite, poiché ricercatori e docenti tendono a focalizzare maggiormente la propria attenzione sulla qualità delle effettive traduzioni prodotte dagli studenti o sui processi sottesi all’uso delle strumentazioni. Lo scopo di questo lavoro di tesi è dunque quello di mutare il punto di vista consueto, e di prendere in esame le riflessioni e considerazioni di apprendenti di lingua inglese riguardo le proprie esperienze di traduzione corpus-driven nell’ambito di alcuni corsi universitari dedicati alla traduzione da e verso la lingua inglese, così da avere qualche spunto di riflessione su quella che è la loro percezione di questi strumenti.

Questo elaborato è suddiviso in tre capitoli. Il primo capitolo ha come scopo quello di fornire un background teorico sulla linguistica dei corpora e le sue principali applicazioni nell’insegnamento e apprendimento delle lingue straniere. Innanzitutto, saranno

(8)

2

sinteticamente introdotte le più accreditate ipotesi di definizione sulla natura della linguistica dei corpora, sulle origini e sugli sviluppi che hanno delineato questa metodologia di ricerca e analisi linguistica per come è generalmente nota al giorno d’oggi. Successivamente, sulla base dei tratti costitutivi di questo strumento, si è cercato di formulare una definizione esaustiva di

“corpus” linguistico, per poi presentare concisamente le principali tipologie di corpora – ad esempio, i corpora generali o di riferimento, specialistici, comparabili e paralleli. A seguire questo quadro di introduzione ai concetti cardine della linguistica dei corpora, il capitolo si concentrerà sulle applicazioni, indirette e dirette, che la linguistica dei corpora ha trovato nella didattica delle lingue, le cui interazioni con questa metodologia di analisi linguistica sono rintracciabili già dai tardi anni ‘80. La presentazione delle varie forme che il rapporto tra didattica delle lingue e linguistica dei corpora ha assunto nel corso degli anni sarà corredato da una breve discussione di alcune controversie sollevate in merito, specialmente per quanto riguarda la reale autenticità del materiale contenuto nei corpora e il loro effettivo valore in ambito pedagogico. In ultimo, il capitolo propone un sintetico quadro dei principali campi di applicazione della linguistica dei corpora nell’ambito degli studi dedicati alla traduzione, descrittivi e applicati.

A differenza del precedente, il secondo capitolo è caratterizzato da un taglio più metodologico. Il capitolo è suddiviso, a sua volta, in tre parti. La prima parte illustra brevemente i principali metodi di elaborazione ed analisi del materiale contenuto nei corpora – ovvero, liste di frequenza e concordanze. Una volta fornite queste nozioni chiave della linguistica dei corpora, la seconda parte sarà dedicata all’esposizione della teoria delle “unità di significato” formulata da John Sinclair e del metodo, elaborato e proposto da Elena Tognini-Bonelli, per la traduzione delle medesime unità di significato. In questo contesto saranno anche introdotti i principi di composizionalità, idiomaticità e creatività nell’espressione dei significati attraverso l’uso della lingua. Ricollegandosi al capitolo precedente in merito alle applicazioni di corpora linguistici negli studi sulla traduzione applicati, la terza parte del capitolo si concentrerà più specificamente su una serie di proposte metodologiche elaborate nell’ambito della didattica e nell’apprendimento della disciplina traduttiva. Queste propose metodologiche prevedono l’applicazione delle tipologie di corpora presentate nel primo capitolo – corpora generali o di riferimento, specialistici, comparabili e paralleli – come strumenti di cui gli apprendenti “aspiranti” traduttore possono disporre per sviluppare le proprie competenze nell’ambito dell’apprendimento della traduzione. L’impiego di un’ulteriore tipologia di corpora, i corpora ad hoc, sarà altresì preso in considerazione come particolarmente rilevante nella didattica della traduzione, specialmente per quanto

(9)

3

riguarda la correlazione fra la compilazione di questo tipo di corpora e l’utilizzo del World Wide Web come fonte di risorse a disposizione del traduttore. Le numerose proposte metodologiche esposte sono state elaborate e messe in atto da ricercatori e docenti nell’ambito di corsi universitari, ciascuna allo scopo di dimostrare come gli apprendenti “aspiranti”

traduttori possano trarre beneficio dall’utilizzo di varie tipologie di corpora per sviluppare molteplici e differenti competenze e abilità necessarie alla disciplina traduttiva.

Poiché, dunque, gran parte degli studi attestati nella letteratura sono stati condotti da docenti e ricercatori in merito all’utilità dei corpora come strumenti per imparare a tradurre, assumendo un punto di vista complementare rispetto al precedente, il terzo capitolo si propone di prendere in considerazione le prospettive di apprendenti di lingua inglese in merito alle proprie esperienze di traduzione corpus-driven in ambito universitario. Le riflessioni degli apprendenti sono state raccolte tramite una serie di interviste semi-strutturate. Dopo una breve presentazione dei corsi cui gli apprendenti hanno preso parte, e per i quali sono stati selezionati, e della tipologia di interviste impiegata, il capitolo si concentrerà sull’analisi e l’esposizione dei dati raccolti, alle quali seguirà una breve discussione degli aspetti considerati più rilevanti.

(10)

4

(11)

5 CAPITOLO 1

I corpora linguistici nell’insegnamento e apprendimento delle lingue: background teorico

1.1 La linguistica dei corpora: una breve introduzione

Ad un primo approccio, sembrerebbe sorgere spontaneo ascrivere la linguistica dei corpora fra le branche della linguistica applicata. Tuttavia, è opinione ampiamente condivisa (si vedano Hunston 2002, Kennedy 1998: 7, Leech 1992: 105, McEnery e Wilson 2001: 2) che essa costituisca piuttosto una metodologia di ricerca e descrizione linguistica, applicabile a numerosi ambiti facenti parte del campo di ricerca della linguistica, tanto generale quanto applicata. McEnery e Hardie hanno riassunto efficacemente quest’idea, affermando che

“it is certainly quite distinct from most other topics you might study in linguistics, as it is not directly about the study of any particular aspect of language. Rather, it is an area which focuses upon a set of procedures, or methods, for studying language (…).

(…) Given these procedures, we can take a corpus - based approach to many areas of linguistics. (…) We could reasonably define corpus linguistics as dealing with some set of machine-readable texts which is deemed an appropriate basis on which to study a specific set of research questions.”

(2012: 1)

Discostandosi parzialmente dalla definizione sopra enunciata, Tognini – Bonelli considera la linguistica dei corpora come una “pre-application methodology” (2001: 1): a differenza di una metodologia tradizionalmente intesa, ovvero come l’applicazione di regole predefinite in determinati contesti, la linguistica dei corpora si distingue per la possibilità ad essa intrinseca di stabilire l’insieme di regole da applicarsi di volta in volta a seconda degli ambiti di riferimento. Tale potenzialità conferisce alla linguistica dei corpora “a theoretical status”

(ibid.) che le permette di essere applicata a numerosi campi di ricerca e descrizione linguistica.

Come Kennedy (1998: 13-19) e McEnery e Wilson (2001: 2-4) descrivono nel dettaglio, la ricerca linguistica basata sull’analisi di dati tratti da collezioni, più o meno ampie, di testi risalirebbe a molti secoli prima della svolta tecnologica che ne ha rivoluzionato la natura – l’invenzione dei computer degli anni ’60 e la conseguente creazione di corpora

(12)

6

elettronici. Kennedy (1998: 13) individua cinque macro-aree nelle quali, in alcuni casi sin dal XIII secolo, sono attestate forme di ricerca, analisi e descrizione linguistica paragonabili a quelle adottate dalla linguistica dei corpora dagli anni ’60 fino ad oggi; le macro-aree elencate da Kennedy sono studi letterari e biblici, lessicografia, studi sulla variazione dialettale, sulla didattica della lingua – che verrà approfondita più avanti in questo lavoro – e sulla grammatica. Fra i casi più famosi portati ad esempio (ibid: 14-15), si notino il Dictionary of English Language di Samuel Johnson, l’Oxford English Dictionary (1928) di James Murray e collaboratori, e An American Dictionary of the English Language (1828) di Noah Webster:

Johnson raccolse un corpus di citazioni di autori di rilievo, per un totale che potrebbe aggirararsi intorno al milione di parole; il corpus utilizzato per stilare le entrate dell’Oxford English Dictionary sembrerebbe aver contenuto fino a 50 milioni di parole, ottenute raccogliendo circa 5 milioni di citazioni dal canone letterario inglese, a partire dall’anno 1000.

Webster condusse un’analoga raccolta di citazioni letterarie per la prima edizione della sua opera lessicografica.

L’analisi di collezioni di testi come approccio metodologico allo studio della lingua ha dunque origini piuttosto antiche. Tuttavia, come si può notare osservando la definizione sopra citata, il concetto di linguistica dei corpora è oggi indissolubilmente associato all’idea che i corpora siano raccolte di testi in formato elettronico, analizzate tramite software e altri programmi accessibili con l’ausilio di un computer. Sebbene la ricerca linguistica basata su supporti elettronici si sia sviluppata solamente a partire dagli anni ’60 – contemporaneamente alla progressiva diffusione del computer –, l’impatto dell’evoluzione tecnologica sulla linguistica dei corpora ha dato origine ad esiti tanto radicali da oscurare la preesistente tradizione di analisi (manuale) di corpora linguistici. Già all’inizio degli anni ’90, Leech (1992: 106) confermava la generale tendenza a considerare i corpora raccolte di testi in formato elettronico, da studiarsi tramite computer, fino ad affermare che

“computer corpus linguistics (henceforth CCL) defines not just a newly emerging methodology for studying language, but a new research enterprise, and in fact a new philosophical approach to the subject.”

(ibid.)

Parafrasando Leech, dunque, si può dire che l’evoluzione tecnologica dei corpora avrebbe radicalmente trasformato la metodologia di ricerca stessa, dando origine ad un approccio

(13)

7

nuovo, dalle potenzialità analitiche difficilmente immaginabili agli inizi della rivoluzione tecnologica.

Data questa breve introduzione dedicata alla linguistica dei corpora – certamente non esaustiva, ma doverosa –, è opportuno spostare l’attenzione sullo strumento alla base di questa metodologia – il corpus. Una discussione sulla definizione di corpus e una breve descrizione delle tipologie più rilevanti saranno oggetto del prossimo paragrafo.

1.2 I corpora linguistici

1.2.1 Cosa sono i corpora? Un tentativo di definizione

Prima di esaminare l’applicazione della linguistica dei corpora – intesa come metodologia di ricerca e analisi – ad un ambito specifico quale l’insegnamento e apprendimento della lingua, è utile fare chiarezza circa la natura dello strumento sui cui si basa – il corpus –, tentando di abbozzarne una definizione.

Il termine ‘corpus’ – ‘corpora’ al plurale – deriva dal latino e significa letteralmente

‘corpo’, inteso in questo caso come ‘raccolta’. In senso generale, questo termine è utilizzato per indicare un insieme di testi od opere di un determinato autore o su un certo argomento1. In ambito linguistico, tale termine ha assunto un significato più specifico. Nel corso degli anni, sono state elaborate numerose definizioni del concetto di “corpus”2. Con il progredire della ricerca nell’ambito della linguistica dei corpora, tali definizioni si sono fatte più dettagliatamente articolate, ascrivendo al concetto di “corpus” una serie di caratteristiche peculiari, che saranno discusse qui di seguito.

Innanzitutto, il concetto di “corpus” quale “raccolta di testi” assume un preciso orientamento rivolto alla ricerca linguistica. È opinione condivisa che non si tratti, dunque, di insiemi di testi “casuali”, quanto piuttosto di raccolte strutturate in maniera tale da soddisfare una determinata funzione. Tale funzione è stata variamente elaborata: si passa infatti da visioni più generali secondo cui, semplicemente, un corpus sarebbe compilato “for linguistic studies” (Hunston 2002: 2) o “can serve as a basis for linguistic analysis and description”

(Kennedy 1998: 1), a posizioni più nette, per cui i testi di un corpus sarebbero raccolti seguendo criteri precisi allo scopo di “characterize a state or variety of a language” (Sinclair

1http://www.treccani.it/vocabolario/corpus/

http://www.oed.com/view/Entry/41873?redirectedFrom=CORPUS&

2 Per una panoramica delle definizioni elaborate dalle voci più autorevoli nel campo della linguistica dei corpora nel corso degli anni ’90, si veda Tognini-Bonelli (2001: 53-55).

(14)

8

1991 in Tognini Bonelli 2001: 53) o, altrimenti detto, “ be representative of a particular language variety or genre” (Baker, Hardie, McEnery 2006: 48).

A un’osservazione più approfondita delle definizioni elaborate da questa seconda prospettiva, si evince inoltre che i testi che entrano a far parte di un corpus vengono “selezionati” (Baker, Hardie, McEnery 2006: 48) e “scelti” (Sinclair 1991 in Tognini Bonelli 2001: 53) “according to explicit design criteria” (Atkins, Clear, Ostler 1992: 1), ovvero sulla base dell’intenzione che anima la ricerca linguistica da effettuarsi: a seconda dell’oggetto e dello scopo della ricerca, la selezione dei testi seguirà criteri specifici differenti.

In linguistica, dunque, il concetto di corpus sembra configurarsi come insieme di testi raccolti in qualità di campione rappresentativo di una lingua, o di una varietà, un genere o un settore specifico della stessa, seguendo precisi criteri di progettazione, allo scopo di fungere da base per un lavoro di analisi e/o descrizione linguistica.

Fino a questo punto, si è considerato il concetto di corpus come insieme di “testi”, intesi come entità linguistiche unitarie, la cui forma e il cui significato sono dati dall’insieme di parole e frasi che le compongono, prese nell’ordine in cui si presentano3. Sebbene sia possibile costruire un corpus di testi “completi”, di fatto si può notare come, in realtà, le diverse definizioni di “corpus” parrebbero fare riferimento ad un’idea di “testo” più generale, secondo la quale si tratterebbe piuttosto di “anything from a few sentences to a set of written texts or type recordings” (Hunston 2002: 2). Per questo motivo, Hunston fa riferimento al corpus quale raccolta di “examples of language” (ibid.), mentre Jan Aarts parla di una

“collection of samples of running text (…) and the samples may be of any length” (1991 in Tognini Bonelli 2001: 53).

Come evidenziato da Sinclair e Hunston, i testi selezionati – o campioni di lingua, che dir si voglia – presenterebbero la caratteristica di essere “naturally occurring”, ovvero si tratterebbe di autentici esempi di produzione scritta o orale di una determinata lingua. Tale peculiarità potrebbe essere considerata uno dei maggiori vantaggi offerti dai corpora in qualità di strumenti di analisi linguistica: disporre di campioni linguistici autentici rende possibile analizzare e descrivere l’uso concreto che i parlanti fanno di una lingua, mettendo in evidenza patterns lessicali, grammaticali e sintattici ricorrenti, a volte non apprezzabili basandosi sul solo intuito (Partington 2001). I corpora possono dunque essere considerati “records of language behaviour” (Cook 1998: 58). Per questa ragione, a partire dagli anni ’60 e ’70 la

3 Si vedano le definizioni di “testo” e “text”, rispettivamente fornite da http://www.treccani.it/enciclopedia/testo e

http://www.oed.com/view/Entry/200002?rskey=ancpHD&result=1&isAdvanced=false#eid

(15)

9

diffusione dei primi corpora elettronici e l’interesse da essi suscitato attirò aspre critiche da parte di Noam Chomsky, fondatore della linguistica generativa. Nella sua teoria, Chomsky distingue il concetto di “competenza”, intesa come rappresentazione interiorizzata della lingua che risiede nella mente di ogni individuo, da quello di performance, ovvero l’esteriorizzazione della competenza linguistica, che si manifesta atraverso l’uso che i parlanti fanno di una lingua. Secondo Chomsky, la linguistica dovrebbe rivolgere la sua attenzione alla sola competenza linguistica, caratteristica innata e che da forma alla conoscenza della lingua di ciascun individuo; la performance, soggetta all’influenza di fattori esterni alla conoscenza insita nell’individuo, non sarebbe che una brutta copia della competenza.

L’obiettivo della linguistica, secondo Chomsky, è dunque quello di formulare un modello di competenza linguistica secondo un approccio razionalista, ovvero ricercando i fondamenti della propria teoria nell’interiorità dell’individuo. (McEnery, Wilson 2001: 4-8; Cook 2003:

9) In questa prospettiva, lo studio della lingua basato su un corpus, che è “by its very nature a collection of externalised utterances” (McEnery, Wilson 2001: 6), non produrrebbe alcun dato rilevante. Nonostante la perentoria presa di posizione di Chomsky, in seguito alla quale la linguistica dei corpora è stata parzialmente messa in ombra, i corpora non hanno smesso di suscitare interesse, provando, sul lungo periodo, che lo studio della performance è in grado di fornire dati più direttamente osservabili, e di poter essere applicato in molteplici ambiti della linguistica applicata (Leech 1992: 108).

Sebbene non si tratti di un dettaglio non sempre evidenziato in maniera esplicita nell’elaborazione di definizioni del concetto di “corpus”, vale la pena ricordare quanto già discusso nel paragrafo precedente: a seguito della compilazione dei primi corpora elettronici negli anni ‘60, tale pratica ha subito sviluppi tanto importanti che è divenuto sempre più naturale considerare “machine readable” – o, per utilizzare l’efficace formulazione di Atkins, Clear e Ostler (1992: 1) “a subset of an ETL (Electronic Text Library)” – le raccolte di testi che costituiscono i corpora. Come precedentemente osservato, l’influenza dei sempre più sofisticati strumenti informatici, quali computer e software per l’analisi linguistica, è stata determinante nell’associare al concetto di corpus comunemente inteso una natura prettamente elettronica – sebbene si sia già notato come raccolte di testi cartacei fossero state alla base di ricerche linguistiche ben prima dell’avvento dell’era dell’informatica.

Alla luce di quanto detto finora, si potrebbero dunque definire i corpora come raccolte di campioni di usi attestati di una lingua, selezionati come rappresentativi della stessa o di una sua sottocategoria, oggi prevalentemente in formato elettronico e compilate seguendo criteri progettuali subordinati allo scopo della ricerca linguistica che si intende effettuare. Diversi

(16)

10

campi di analisi e ricerca, determinano dunque la necessità di avvalersi di una specifica tipologia di corpus piuttosto che un’altra; nel paragrafo seguente saranno prese in esame alcune delle tipologie di corpus più comuni.

1.2.2 Tipologie di corpora

La compilazione di corpora linguistici si fonda su criteri di progettazione ben precisi, poiché, come puntualmente osservato da Hunston, “a corpus is always designed for a particular purpose, and the type of corpus will depend on its purpose” (2002: 14). È possibile, innanzitutto, operare una prima macro-categorizzazione, distinguendo i corpora sulla base di tre criteri di selezione dei testi campione. In primo luogo, se un corpus è formato da testi rappresentativi di una sola lingua, si potrà parlare di corpus monolingue, mentre, se all’interno della raccolta sono rappresentate due o più lingue, si tratterà invece di un corpus bilingue o multilingue (McEnery, Hardie 2012: 18-21). In secondo luogo, tenendo in considerazione il canale di comunicazione identificato dai testi che formano una raccolta, un corpus di lingua scritta conterrà solo testi scritti, al contrario di un corpus di parlato, che sarà composto di trascrizioni di lingua parlata (ibid. 3-5). Infine, i corpora si distinguono a seconda dell’arco temporale coperto dai testi campione: un corpus di testi prodotti circa nello stesso periodo (stesso anno, decade, secolo ecc.) di definisce sincronico, mentre si parla di corpus diacronico quando i testi che lo compongono appartengono a diversi momenti storici. Baker, Hardie, e McEnery (2006: 64-65) riconducono alla categoria dei corpora diacronici anche i cosiddetti monitor corpora: si tratta di raccolte, potenzialmente contenenti campioni sia di lingua scritta sia di lingua parlata, che vengono aggiornate nel corso degli anni allo scopo di rilevare i cambiamenti della lingua nel corso del tempo.

Date queste sei macro-categorie, la combinazione fra due o più di esse è alla base della compilazione di alcune specifiche tipologie di corpora. Fra le più diffuse si annoverano i corpora generali (o di riferimento), specialistici, comparabili e paralleli.

1.2.2.1 I corpora generali o di riferimento

I corpora generali non sono campioni di alcuna specifica varietà linguistica:

costituiscono altresì il tentativo di rappresentare nel loro complesso le caratteristiche generali di una determinata lingua (Baker, Hardie, McEnery 2006: 138), ovvero di fornire una descrizione il più possibile ampia e trasversale della lingua d’interesse. I corpora generali

(17)

11

includono numerose tipologie testuali e possono contenere tanto campioni lingua scritta quanto trascrizioni di lingua parlata. Normalmente, i corpora generali sono raccolte di testi molto più ampie rispetto ad altre tipologie. A questa categoria sono da ascriversi i primi corpora elettronici, il Brown Corpus of Standard American English e il Lancaster- Oslo/Bergen (LOB) Corpus – corrispettivo del precedente, ma composto da testi rappresentativi di British English –, due raccolte di 500 testi, per un totale di circa 1 milione di parole ciascuno, pubblicati rispettivamente nel 1964 e 1976 da W. Nelson Francis e Henry Kučera e Stig Johansson e collaboratori4. Secondo Kennedy (1998: 45-57), la compilazione di corpora elettronici si è avvalsa del modello del Brown e del LOB Corpus fino agli anni ’80, a partire dai quali, grazie al decisivo sviluppo degli strumenti informatici, è stato possibile elaborare raccolte molto più ampie. Da raccolte di circa 1 milione di parole in media, si è passati a quelli che Kennedy (ibid.) definisce “mega-corpora”, ovvero raccolte che raggiungono, e in taluni casi superano, i 100 milioni di parole. Fra gli esempi più noti di questa categoria di corpora generali, si possono citare il British National Corpus (circa 100 milioni di parole), il Corpus of Contemporary American English (oltre 560 milioni di parole), e il Collins Corpus (un’imponente raccolta, che consta oltre 4 miliardi di parole, e da cui è stato estrapolato un ulteriore corpus, il Bank of English, di circa 650 milioni di parole)5. I corpora generali possono essere presi come termine di paragone nell’analisi di corpora specialistici – ad esempio, per verificare ipotesi circa usi particolari di parole, collocazioni o strutture sintattiche in contesti specifici; dato questo particolare utilizzo, i corpora generali sono anche denominati corpora “di riferimento”.

1.2.2.2 I corpora specialistici

Come contrappunto ai corpora generali, i corpora specialistici sono elaborati nell’ambito di progetti di ricerca linguistica specifici (Baker, Hardie, McEnery 2006: 147). I testi campione di cui i corpora specialistici sono composti possono essere rappresentativi di una particolare varietà della lingua – tipologie testuali, generi letterari, registri stilistici, ma anche variazioni diastatiche, diacroniche (Evans 2006) e diatopiche – o del suo uso in settori specialistici (linguaggio medico, giuridico, economico, sportivo, accademico ecc. ecc.): i linguaggi specialistici sono genericamente definiti “languages for special purposes” (LSP).

4http://www.helsinki.fi/varieng/CoRD/corpora/BROWN/

http://www.helsinki.fi/varieng/CoRD/corpora/LOB/index.html

5 Si vedano, come riferimento, https://corpus.byu.edu/bnc/, https://corpus.byu.edu/coca/ e https://www.collinsdictionary.com/cobuild/

(18)

12

Hunston (2002: 14) evidenzia che i ricercatori frequentemente compilano corpora specialistici

“personalizzati”, elaborati al fine di rispondere alle necessità dei loro progetti di analisi e descrizione linguistica. Per tale ragione, Hunston sottolinea come non vi sia potenzialmente limite al grado di specializzazione di questa tipologia di corpora, giacchè i criteri di progettazione e scelta dei testi campione possono essere definiti di caso in caso, a seconda del livello di specializzazione richiesto.

Alcune sottocategorie di corpora specialistici sono talvolta considerate come tipologie a sé.

Hunston (2002: 15-16) dedica ai learner corpora e ai corpora pedagogici due categorie distinte, nonostante entrambe, data la tipologia di campioni di linugua che compongono le raccolte, siano riconducibili ai corpora specialistici. I learner corpora sono collezioni di testi – di varie tipologie – prodotti da apprendenti di una determinata lingua; questa tipologia di corpora permetterebbe di porre in evidenza le peculiarità d’uso di una lingua da parte degli apprendenti rispetto ai parlanti nativi. Per quanto riguarda invece i corpora pedagogici, Hunston (2002) e Baker, Hardie, McEnery (2006) convengono nel definirli raccolte di tutto il materiale con cui gli apprendenti di una lingua entrano in contatto durante il loro percorso scolastico. Un uso piuttosto interessante di questi corpora (Hunston 2002) è di compararli ad altre tipologie di corpora – ad esempio i corpora generali, ma si potrebbe ipotizzare di utilizzare anche dei corpora specialistici, se se gli apprendenti frequentano corsi di inglese specialistico (English for special purposes o ESP) –, in maniera tale da verificare se la lingua utilizzata sia “natural sounding and useful” (Hunston 2002: 16).

1.2.2.3 I corpora comparabili e paralleli

I corpora generali e specialistici fanno parte della sopracitata categoria dei corpora monolingue. Al contrario, data la loro struttura, che potrebbe essere definita “composita”, i corpora comparabili e paralleli sono tipicamente bilingue, o addirittura multilingue.

Da un lato, i corpora comparabili sono di norma costituiti da due o più corpora, progettati secondo criteri analoghi e costituiti da testi rappresentativi di una medesima – o, quanto meno, molto simile – varietà linguistica in due o più lingue differenti. Aston (1999) nota che, nella maggior parte dei casi, i corpora comparabili sono raccolte di testi specialistici.

Dall’altro lato, i corpora paralleli sono raccolte composte da testi in una lingua e dalle traduzioni degli stessi in una o più lingue diverse da quella dei testi di partenza. Aston (1999) propone una ulteriore sottocategorizzazione di questa tipologia di corpora, distinguendo fra corpora paralleli unidirezionali e bidirezionali o reciproci.

(19)

13

I corpora paralleli unidirezionali presentano sostanzialmente le medesime caratteristiche citate come peculiari di questa tipologia. I corpora bidirezionali o reciproci, invece, condividono, secondo Aston, alcune delle peculiarità strutturali dei corpora comparabili. Si tratterebbe infatti di corpora composti da quattro parti: due raccolte di testi, rappresentativi di una determinata varietà linguistica in due lingue diverse, elaborati seguendo i medesimi criteri di progettazione – come per i corpora comparabili, accompagnate da altrettante raccolte composte dalle traduzioni dei testi di partenza verso le stesse due lingue – secondo il modello dei corpora paralleli.

1.3 I corpora linguistici nella didattica delle lingue

Sebbene oggi il concetto di corpus linguistico sia strettamente associato all’utilizzo di strumenti elettronici ed informatici, la ricerca linguistica basata sulla compilazione ed analisi di corpora ha origini molto più antiche. Come osservato da Kennedy (1992, 1998), la didattica della lingua rientra fra gli ambiti che hanno beneficiato dei risultati prodotti dall’analisi di corpora pre-elettronici, in particolar modo per quanto riguarda lo studio del lessico. Due dei progetti più significativi in quest’ambito sono quelli realizzati da Thorndike nel 1921 e West nel 1953 (Kennedy 1992, 1998).

Nel 1921, Thorndike, servendosi di un corpus di 4.5 milioni di parole, elaborò una lista di parole basandosi su un criterio di frequenza “designed to lead to better pedagogical materials”

(Kennedy 1992: 336-337), per insegnare a leggere a studenti americani parlanti inglese come prima lingua. In una versione ampliata e aggiornata del suo lavoro (Thorndike – Lorge 1944 in Kennedy 1992), Thorndike rese manifesto il suo intento di avvalersi delle informazioni sulla frequenza delle parole contenute nella sua lista per guidare i docenti nella scelta del lessico da inserire nei programmi didattici.

Seguendo l’esempio del lavoro di Thorndike, Michael West pubblicò nel 1953 la sua General service list of English words, una lista delle parole più comunemente utilizzate in inglese, elaborata per essere d’ispirazione alla preparazione di programmi didattici per apprendenti di inglese non nativi6.

Lo sviluppo tecnologico ed informatico dei successivi anni ’60 e ’70 ha aperto ai ricercatori la strada per la compilazione dei primi corpora elettronici – fra cui, in particolare i già citati Brown Corpus of Standard American English e Lancaster-Oslo/Bergen Corpus. Il

6 http://www.newgeneralservicelist.org/

(20)

14

primo, decisivo punto di svolta nel rapporto fra la linguistica dei corpora e l’ambito dell’insegnamento/apprendimento della lingua si è avuto con il rivoluzionario progetto COBUILD (Collins Birmingham University International language Database), ideato e diretto da John Sinclair in collaborazione con la casa editrice Collins, a partire dagli anni ’80.

Il progetto prevedeva la creazione di materiali di riferimento per l’insegnamento e apprendimento della lingua inglese basati, per utilizzare una felice espressione di Johns, “on firm evidence of current usage” (2002:107), ovvero su dati circa la frequenza e gli usi più comuni delle parole ricavati dall’analisi di un corpus elettronico, il Collins Corpus. La prima opera pubblicata nell’ambito del progetto è stato, nel 1987, il Collins COBUILD English Language Dictionary, ed è stata seguita, nel decennio successivo fino ad oggi da una serie di dizionari, grammatiche e materiali di riferimento per l’insegnamento e apprendimento della lingua inglese (Johns 2002; Römer 2010).

Negli stessi anni in cui Sinclair e i suoi collaboratori si dedicavano al progetto COBUILD, un’ulteriore, pioneristica teoria apriva nuove vie per sondare il rapporto fra corpora e didattica della lingua inglese. Si tratta del cosiddetto “Data-Driven Learning approach” – o più semplicemente DDL -, elaborato da Tim Johns (si vedano Johns 1986, 1991, 2002). L’idea alla base di questa teoria è che i corpora costituiscano uno strumento per l’apprendimento della lingua che gli apprendenti possono maneggiare, analizzare, studiare in prima persona. Questo rapporto diretto fra apprendenti e corpora non esclude la mediazione da parte dell’insegnante, ma ne ridimensiona il ruolo.

1.3.1 Applicazioni dei corpora linguistici in ambito didattico – pedagogico

La relazione, sempre più dinamica, fra linguistica dei corpora e l’insegnamento e apprendimento delle lingue ha visto svilupparsi diverse tipologie di applicazioni dei corpora in ambito didattico. Come premessa a questa breve discussione, si presti attenzione alle parole di Römer:

“while LT [language teaching ndr] profits from the resources, methods and insights provided by CL [corpus linguistics ndr], it also provides important impulses that are taken up in corpus linguistic research” (2008: 112)

(21)

15

“When we talk about the application of corpora in language teaching, this includes both the use of corpus tools, i.e. the actual texts collections and software packages for corpus acces, and of corpus methods, i.e. the analytic techniques that are used when we work with corpus data”

(ibid. 113)

Le tassonomie qui proposte individuano una serie di applicazioni dei corpora nell’ambito dell’insegnamento e apprendimento delle lingue. Tuttavia, parafrasando Römer, non bisogna considerare questo rapporto come una relazione a senso unico: dagli esiti, positivi o negativi che siano, di queste applicazioni in ambito didattico, possono sorgere spunti di riflessione in grado di orientare nuovi filoni di ricerca nell’ambito della linguistica dei corpora, in uno scambio reciproco e potenzialmente illimitato.

Inoltre, Römer puntualizza che per applicazioni di corpora sono da intendersi tanto i corpora come strumenti quanto le diverse metodologie di analisi ad essi connesse.

Già a partire dai primi anni ’90, Fligelstone (1993: 97-109) e Leech (1997: 1-24) avevano avanzato due proposte di classificazione di tali applicazioni.

Fligelstone – mosso dalla convinzione che l’insegnamento possa essere “a key determinant of the overall long-term impact of the ideas which underlie and constitute the field of corpus linguistics” (1993: 107) – suggerisce di distinguere le attività che possono conciliare l’insegnamento con la linguistica dei corpora in tre categorie:

1. “Teaching about”: in primo luogo, Fligelstone considera la linguistica dei corpora, e i corpora stessi, quali oggetti di insegnamento tradizionalmente intesi. Se da un lato egli riconosce l’ importanza della linguistica dei corpora come disciplina a sé stante, meritevole d’essere oggetto di studi dedicati, dall’altro caldeggia il dialogo fra quest’ultima e le altre branche della linguistica generale e applicata, considerando proprio l’insegnamento della linguistica dei corpora come un’opportunità per negoziare questo rapporto.

2. “Teaching to exploit”: in questa seconda categoria, Fligelstone raggruppa tutte le attività, teoriche e pratiche, volte a introdurre e istruire lo studente all’uso dei corpora e all’applicazione delle metodologie di analisi ad essi connesse. Fligelstone sottolinea la delicatezza di questa fase introduttiva, ricordandone “the greatest psychological impact on the student” (1993: 100), ed invoca la necessità di una pianificazione

(22)

16

accurata delle attività, le quali dovrebbero essere motivanti e quanto più adattabili possibile alle capacità e/o difficoltà di ciascun apprendente.

3. “Exploiting to teach”: infine, Fligelstone prende in considerazione l’insieme di potenziali utilizzi dei corpora quali strumenti atti a determinare cosa insegnare, in contesti didattici di apprendimento di una lingua, ma anche ad essere utilizzati attivamente da studenti e insegnanti nelle attività in aula, “to assist the teaching process” (1993: 98). L’approccio “Data – Driven Learning”, elaborato da Tim Johns, va a collocarsi in questa categoria.

Ricalcando le orme di Fligelstone, Leech (1997: 1-24) propone una classificazione più articolata, che suddivide le applicazioni dei corpora in ambito didattico fra dirette e indirette, Leech parla di applicazioni “dirette” facendo riferimento all’insieme di attività in cui l’utente (ricercatori, lessicografi, ma anche insegnanti e apprendenti) è posto in condizione di rapportarsi in prima persona al corpus e di utilizzarlo come vero e proprio strumento di ricerca, analisi, insegnamento e apprendimento. Poiché tutte le categorie individuate da Fligelstone implicano un approccio immediato fra il corpus e l’utente7, Leech le colloca fra le applicazioni dirette.

La categorizzazione di Leech prende le distanze dalla precedente proposta di Fligelstone nell’individuare una serie di applicazioni che Leech definisce “use of corpora indirectly applied to teaching” (1997: 13). Si parla di impieghi “indiretti” poiché l’utente non è posto nella condizione di rapportarsi con un corpus in prima persona, quanto piuttosto di avvalersi di materiali che sono stati elaborati sulla base di dati ricavatiati da uno o più corpora. Fra le applicazioni indirette considerate da Leech, particolarmente rilavanti risultano essere la produzione di opere di riferimento – dizionari, grammatiche, manuali ecc. – e di materiale didattico.

Le categorizzazioni elaborate da Fligelstone e Leech sono state prese come punto di riferimento in diversi studi (si vedano, ad esempio, Aston 2000 e McEnery, Wilson 1997) In particolare, due ulteriori proposte di classificazione (Bernardini 2000a: 132-143 e Römer

7Leech ne fornisce una denominazione rielaborata che rende evidente l’interazione diretta fra l’utente e lo strumento: “teaching about (corpora)”, “teaching to exploit (corpora)” e “exploiting (corpora) to teach”(1997: 6).

(23)

17

2008: 112-131) si rifanno alla distinzione fra applicazioni dirette e indirette dei corpora in ambito didattico teorizzata da Leech, rielaborandola da prospettive parzialmente differenti.

Bernardini condivide l’idea che “both weak and strong claims can be made regarding the implications of corpus use for language pedagogy” (2000a: 132), dove la distinzione fra

“weak claims” e “strong claims” ricalca sostanzialmente quella, già proposta, fra applicazioni indirette e dirette (in quest’ordine). Ciò che nell’intervento di Bernardini sembra essere più interessante, tuttavia, è che definisce chiaramente l’orientamento dei sostenitori di entrambe le posizioni, puntualizzando che

“whilst supporters of the weak claim take a product-oriented view, relying on corpora as sources of language learning contents, advocates of the strong claim adopt a more process-oriented perspective, viewing corpora as relevant to learning methodology as well as to contents.”

(ibid.)

La distinzione fra approcci “product-oriented” e “process-oriented” richiama l’idea – discussa in §1.1 – che la linguistica dei corpora costituisca una poliedrica metodologia di ricerca, piuttosto che una semplice branca della linguistica applicata, ma anche le osservazioni di Römer (2008) sulla duplicità del concetto di corpus menzionate in apertura di questo paragrafo.

Infine, seguendo il modello di Leech (1997), Ute Römer (2008, ma si vedano anche 2010 e 2011), presenta un’ulteriore classificazione, che mantiene la distinzione fra applicazioni indirette e dirette dei corpora in ambito didattico, ma che procede ad un’ulteriore e più specifica ripartizione fra applicazioni – indirette e dirette – di corpora generali, o di riferimento, e di corpora specialistici.

(24)

18

Fig. 1: Applicazioni dei corpora linguistici nell’insegnamento e apprendimento di una lingua (Römer, 2008)

1.3.1.1 Applicazioni indirette dei corpora in ambito didattico

1.3.1.1.1 I corpora e la pubblicazione di opere di riferimento e materiale per l’insegnamento

Relativamente alla pubblicazione di materiale di riferimento corpus-based8, Hunston (2002: 96) afferma che “this is probably the application of corpora that is most far-reaching and influential, in that even people who have never heard of a corpus are using the product of corpus investigation”. Leech (1997) osserva come dalle opere lessicografiche di stampo più

8L’espressione “corpus-based” è qui utilizzata nell’accezione di Tognini-Bonelli, per identificare una metodologia “that avails itself of the corpus mainly to expound, test or exemplify theories and descriptions that were formulated before large corpora became available to inform language study”

(2001:65) – ma anche per ottenere informazioni relative alla frequenza e alla modalità di impiego della varietà linguistica esemplificata da un corpus (Baker, Hardie, McEnery 2006: 49). A questo tipo di metodologia, Tognini-Bonelli contrappone un approccio definito “corpus-driven”, nel quale “the committment of the linguist is to the integrity of the data as a whole, and descriptions aim to be comprehensive with respect to corpus evidence (…) The theoretical statements are fully consistent with, and reflect directly, the evidence provided by the corpus” (2001: 84). Non si tratta più, dunque, di usare un corpus come strumento per verificare ipotesi elaborate su dati pre-esistenti, ma il corpus stesso diventa la fonte di dati da cui trarre informazioni sulla lingua.

The use of corpora in language learning

and teaching

Indirect applications:

hands on for researchers and material writers

Effects on the teaching syllabus

Effects on reference works

and teaching materials

Direct applications:

hands on for teachers and learners (data - driven learning)

Teacher - corpus interaction

Learner - corpus interaction

(25)

19

tradizionale – dizionari cartacei, pubblicati sulla scia del pionieristico Collins Cobuild English Language Dictionary di John Sinclair (1987) – l’applicazione dei corpora si sia ampliata alla pubblicazione dei primi esperimenti di grammatiche e manuali corpus-based – di cui come esempio più significativo cita la Collins Cobuild English Grammar (Sinclair 1990) –, ma anche di dizionari in versione on-line.

Hunston (2002: 96-108) circoscrive cinque ambiti in cui i corpora hanno esercitato particolare influenza nella redazione di opere lessicografiche e manuali di grammatica: a) informazioni sulla frequenza, b) collocazioni e fraseologia c) variazione linguistica d) importanza del lessico nel funzionamento della grammatica e) autenticità dei dati forniti; il primo e l’ultimo sono forse gli ambiti in cui l’impatto dei corpora ha avuto gli esiti più interessanti.

In merito all’introduzione di informazioni sulla frequenza d’uso del lessico e di particolari patterns grammaticali, anche Leech (1997) nota come proprio alle prime opere lessicografiche corpus-based sia da attribuire il merito di aver contribuito ad ampliare la diffusione di questa tipologia di dato.

La questione legata all’autenticità dei dati forniti da un corpus è più controversa. Hunston (2002: 107-108) precisa infatti che, se da un lato la provenienza dei dati tratti da un corpus ne garantisce l’autenticità in termini di utilizzo in una qualche forma di comunicazione, orale o scritta, dall’altro non è detto che gli esempi forniti attestino gli usi più frequenti di una parola o di una costruzione lessicale o grammaticale. Per questa ragione, in alcuni casi si è operata una selezione dei dati volta ad eliminare forme troppo complesse dal punto di vista lessicale, grammaticale, e culturale (nel caso di particolari espressioni idiomatiche), dando la precedenza ad esempi d’uso più “naturali” ed adatti ad un dizionario.

In merito alle grammatiche corpus-based, pur riconoscendo il valore innovativo di queste pubblicazioni, Flowerdew (2012: 193-194) ne individua il punto debole in una potenziale incompletezza. Tale incompletezza potrebbe derivare tanto dalle dimensioni ridotte dei corpora utilizzati, quanto dalla composizione degli stessi: entrambe le evenienze potrebbero condurre a descrizioni di una lingua parziali, che ne ignorano alcuni usi, o che non sono rappresentative di taluni generi testuali. Inoltre, in ambedue i casi “corpus-based grammars may ignore linguistic facts derived from native speakers introspection, which can capture subtle interpretations in meaning” (Flowerdew 2012: 194).

Per quanto riguarda invece l’elaborazione di materiali per l’insegnamento, Leech (1997, ma anche Römer 2008) considera la possibilità di fornire informazioni circa la frequenza del lessico attraverso esempi d’uso autentici come due dei contributi essenziali dell’applicazione di corpora in questo campo. Leech pone inoltre l’accento sul valore dei

(26)

20

supporti elettronici dei corpora – computer e software per processare, classificare e analizzare i dati. Oltre a fornire alcune forme di elaborazione preliminare del materiale contenuto nei corpora – come liste di frequenza e concordanze –, le quali offrono una fonte di dati potenzialmente illimitata, l’utilizzo dei computer e di corpora elettronici permette all’insegnante di elaborare attività graduate e adattabili al livello e alle necessità di ciascun apprendente, stimolando un approccio all’apprendimento basato sull’indagine e scoperta di fenomeni linguistici più o meno in autonomia (1997: 10-11, 16).

1.3.1.1.2 I corpora e la progettazione di programmi didattici

Per quanto riguarda i corpora generali, Römer (2008) individua due principali filoni di applicazione all’ideazione di programmi didattici. I corpora generali, in primo luogo, e come già osservato nel paragrafo precedente, possono fornire informazioni sulla frequenza d’uso delle parole che compongono il lessico di una lingua: su tali informazioni è possibile modellare programmi che presentino agli studenti forme linguistiche (comprendenti sia parole che patterns lessico-grammaticali) altamente frequenti e vicine all’uso quotidiano. Römer ricorda i casi esemplari della già citata General Service List of English Words di West (1953) e il Collins COBUILD English Course di Dave Willis e Jane Willis (1989), anche detto “the lexical syllabus” (Willis 1990 in Römer 2008). Attraverso questo focus sul lessico , si suggerisce che

“learners will find it easier to develop both their receptive and productive skills when they are confronted with the most common lexical items of a language and the patterns and meanings with which they typically occur”

(2008:115)

Inoltre, le informazioni sulla frequenza lessicale tratte da un corpus generale possono essere messe a confronto con le spiegazioni fornite in materiali didattici, non corpus-based, sulle medesime forme. Dalla sua indagine su vari esperimenti di questa natura, Römer conclude che un lavoro di confronto di questo tipo ha consentito ai ricercatori di individuare problematiche nella presentazione di alcuni elementi linguistici – taluni di notevole livello di complessità per gli apprendenti – e di adeguare la proposta didattica esistente ad una descrizione della lingua “as it is actually used” (ibid.).

(27)

21

Parallelamete alle applicazioni di corpora generali, Römer considera tre possibili ambiti in cui i corpora specialistici possono avere un impatto sulla progettazione di programmi ( ma anche materiali) didattici.

In primo luogo, avvalerndosi di corpora specialistici, è possibile identificare cosa inserire in curricola di English for special purposes (inglese specialistico), ovvero stabilire quali possano essere i nuclei didattici chiave a livello di contenuto del corso di riferimento (Gavioli 2006 in Römer 2008) Per citare solo uno degli esempi riportatati da Römer, Flowerdew (1993: 231- 244) afferma che, nall’ambito di corsi di English for special purposes, liste di frequenza e concordanze tratte da corpora specialistici possono produrre importanti informazioni in merito all’uso del lessico specifico e ai patterns, lessicali, grammaticali e sintattici, in cui i vocaboli ricorrono più frequentemente. Le liste di frequenza possono guidare l’insegnante nel redigere una serie di vocaboli di maggior rilevanza da inserire nel curriculum di un corso di inglese specialistico; inoltre, sulla base del lessico specifico individuato, le concordanze possono giustificare la scelta di includere nel curriculum soltanto alcuni – i più pertinenti all’ambito specifico di riferimento – degli usi potenziali di un vocabolo o di un pattern lessicale, grammaticale o sintattico.

L’analisi di learner corpora – che Römer annovera fra i corpora specialistici – può rivelarsi un ulteriore strumento utile ad individuare i bisogni specifici degli apprendenti e a comprendere come presentare nella maniera più efficace alcune caratteristiche dell’uso della lingua con cui gli apprendenti hanno meno familiarità (i.e. le collocazioni).

In ultima istanza, nell’ambito dell’insegnamento e apprendimento della traduzione, l’uso di corpora paralleli è considerato da Römer di centrale importanza per rafforzare le conoscenze ed abilità degli apprendenti nell’imparare ad individuare gli equivalenti traduttivi di elementi linguistici altrimenti ignorati, perché troppo difficili o troppo diversi dalla lingua nativa.

1.3.1.2 Applicazioni dirette dei corpora in ambito didattico

In tutte le tipologie di applicazioni indirette prese in considerazione in precedenza, i dati estrapolati dai corpora restano “nascosti” (Johns 2002: 108) ad apprendenti ed insegnanti, poiché l’approccio fra i corpora e gli utenti risulta, in diversa misura, mediato dal lavoro di lessicografi, ricercatori ecc.

Nelle applicazioni dirette di corpora in ambito didatico-pedagogico, insegnanti e apprendenti rivestono un ruolo attivo nel rapporto con questi strumenti, che vede entrambi calati in un contesto di apprendimento della lingua “autonomous” e “of a serendipitous kind” (Bernardini

(28)

22

2002: 165). Proprio in virtù della natura diretta del rapporto fra corpora e utenti, le applicazioni appartenenti a questa categoria sono da considerarsi corpus-driven, nell’accezione di Tognini-Bonelli (2001: 84; si veda anche Nota n°8).

Per la medesima ragione, le applicazioni di corpora linguistici qui definite “dirette” sono tutte riconducibili alla già citata teoria di apprendimento elaborata da Tim Johns e denominata

“Data-Driven Learning”(o DDL). La peculiarità di questo approccio all’apprendimento della lingua è che

“it is the rationale and/or methodology/ies of corpus linguistics that are put to didactic use, whilst the role of descriptively-adequate corpus-derived knowledge remains in the background”

(Bernardini 2002: 165).

Alla luce di quest’ultima affermazione, parrebbe che con “Data-Driven Learning” si faccia dunque riferimento a una vera e propria metodologia di apprendimento (ma in parte anche insegnamento) della lingua. Per questa ragione, al fine di completare la discussione intrapresa in merito alle applicazioni dei corpora in un contesto didattico-pedagogico, ci si limiterà ad osservare due macro-categorie di attività didattiche che possono essere intraprese da apprendenti di una determinata lingua in un contesto di “Data-Driven Learning”. Nell’ambito della prima macro-categoria di attività, che Johns denomina “deductive learning” (1991 in Aston 2000: 12-13), agli apprendenti viene richiesto di ricavare dai corpora – o dai dati ottenuti da uno o più di essi – esempi che provino generalizzazioni circa aspetti od usi della lingua precedentemente fornite dal docente. Al contrario, la seconda macro-categoria isolata da Johns rappresenta una tipologia di “inductive learning”, altresì definito “learning by discovery”(ibid). Nel corso di attività afferenti a questa categoria, sono gli apprendenti a dover formulare generalizzazioni a proposito della lingua, sulla base di dati ottenuti da “raw”

(Hunston 2002: 172) corpora, ovvero non modificati o semplificati dall’insegnante.

Römer (2008) suggerisce che possa esistere considerato “a modified type of DDL” (ibid: 120) anche il rapporto fra i corpora e i docenti impegnati nell’elaborare attività di “Data-Driven Learning” da sottoporre ai propri studenti. Nel produrre esercizi che presentino determinate strutture linguistiche – e relativo lessico – secondo una prospettiva data-driven e adeguandoli al livello degli apprendenti, anche i docenti possono avere l’occasione di arricchire la propria conoscenza della lingua (Barlow 1996 in Römer 2008: 120).

(29)

23

1.3.2 Controversie sull’applicazione di corpora linguistici in ambito didattico–

pedagogico

La varietà di applicazioni che i corpora hanno trovato nell’ambito dell’insegnamento e apprendimento delle lingua sembrano essere indicative del fatto che, anche in questo campo della linguistica applicata

“the major reorientation that corpus linguistics has brought for language description is generally welcomed as an important development from discovery procedures which rely on elicitation and/or native-speaker intuition”

(Seidlhofer 2003: 79)

Tuttavia, voci autorevoli hanno sollevato obiezioni circa l’uso di materiali corpus-based in ambito didattico, mettendo in dubbio l’effettivo valore delle informazioni derivanti dall’analisi di corpora per gli apprendenti di una lingua (Hunston 2002: 192).

Una prima obiezione è stata sollevata in merito alla reale “autenticità” della lingua contenuta nei corpora e proposta agli apprendenti. Widdowson (2000) sostiene chiaramente che

“corpus linguistics provides us with the description of text, not discourse”

(ibid.: 9)

Pur riconoscendo alla linguistica dei corpora il merito di svelare usi della lingua che talvolta possono non essere intuitivi agli occhi del parlante nativo stesso, Widdowson precisa che il materiale linguistico contenuto nei corpora non è che un prodotto testuale, il quale fornisce informazioni utili ma parziali sull’ “autentica” natura della lingua. Proprio perché molti usi della lingua sfuggono alla consapevolezza dei parlanti nativi, Widdowson osserva infatti che un corpus permette di individuare soltanto

“the textual traces of the process whereby meaning is achieved: it cannot account for the complex interplay of linguistic and contextual factors whereby discourse is enacted”

(ibid.: 7)

(30)

24

Questa osservazione rimanda alla distinzione già proposta da Widdowson (1978 in Braun 2005: 53) fra “genuineness of texts” e “authenticity of discourse”. La differenza che intercorre fra i concetti di “text” e “discourse” è relativa all’afferenza ad un contesto comunicativo di riferimento. Secondo Widdowson – e come è stato discusso in §1.2 – i corpora sono per loro natura collezioni di “texts”, ove i campioni linguistici risultano avulsi dal contesto comunicativo di origine, mentre la lingua “autentica” si configurerebbe piuttosto come “discourse”, poiché utilizzata in contesti comunicativi concreti (ibid.: 52).

Dunque, per quanto i corpora forniscano esempi di usi attestati di una lingua (“genuini”, per riprendere il concetto elaborato da Widdowson), il materiale da cui sono composti risulterà comunque essere una rappresentazione astratta della lingua, poichè decontestualizzata rispetto alla situazione comunicativa originale, e quindi soltanto parzialmente “reale”.

Il problema, come efficacemente sintetizzato da Braun (ibid.), è che l’apprendimento della lingua si interessa principalmente dell’uso della lingua in contesti comunicativi concreti, ponendo al centro dell’attenzione il concetto di “discourse” piuttosto che quello di “text”.

Tornando al ragionamento di Widdowson, egli afferma infatti che (2000: 7)

“corpus linguistics defines language content in terms of the authentic patterns of the attested.

(…) What is not taken into account is the pedagogic perspective, the contextual conditions that have to be met in the classroom for language to be a reality for the learners. Whether you are dealing with the possible or the attested, you still have to make them appropriate for learning.

(…) The textual findings of frequencies and co-occurrences have to be contextually reconstituted for their reality to be realized”.

Widdowson non demonizza dunque la descrizione linguistica corpus-based in quanto tale, riconoscendo anzi la potenziale utilità di informazioni circa possibili usi attestati di una lingua. Tali informazioni non dovrebbero, tuttavia, essere considerate come forme di prescrizione linguistica tout-court. Widdowson (1991 in Seidlhofer 2003) le considera piuttosto uno dei tanti fattori da tenere in considerazione nel formulare prescrizioni linguistiche, la cui validità ed utilità deve essere valutata caso per caso, attraverso un’elaborazione critica basata su principi pedagogici adeguati alla situazione di riferimento.

In questo processo di valutazione dei dati forniti dai corpora, risulterebbe pertanto necessario ricontestualizzare l’informazione linguistica, in maniera tale da renderla “autentica” per gli apprendenti e strumento efficace nel processo di apprendimento (Widdowson 2000: 8).

Riferimenti

Documenti correlati

Stewart Title Europe Ltd è una compagnia assicurativa autorizzata dalla Malta Financial Services Authority. Sede legale Junction Business Centre, 1st Floor, Sqaq Lourdes, St

Se, per l'intera durata della copertura quivi prevista, un nuovo acquirente dell'Immobile ed il relativo Creditore Ipotecario ove presente, titolare del diritto di

Al momento della consegna della vettura e pertanto alla decorrenza del periodo di noleggio verranno messi per iscritto i danni esistenti alla vettura noleggiata e il

INFORMAZIONI SULLO STUDENTE CHE HA COMPILATO

A livello internazionale la meritoria e indispensabile azione di mantenimento della pace, che vede impegnati i nostri militari in tante missioni, ¬   deve essere consolidata con

Coloro che volessero presentare un nuovo progetto, o modificare il progetto a seguito delle modifiche e integrazioni intervenute al presente Avviso, potranno inviare una

Gli effetti del contratto di convivenza restano sospesi in pendenza del procedimento di interdizione giudiziale o nel caso di rinvio a giudizio o di misura cautelare disposti per

Alla fine del 2011, erano 137'800 le persone (ovvero l'1,7% della popolazione residente permanente in Svizzera, 2500 persone in più rispetto al 2010) con almeno un domicilio