Collocazioni e idiomi: un'indagine sperimentale.

(1)

Capitolo 1 – Collocazioni e Idiomi. Un’introduzione.

Le collocazioni e le espressioni idiomatiche fanno parte dei fenomeni combinatori della lingua. Il seguente capitolo illustra inizialmente i principali lavori che hanno stabilito i criteri per classificare i fenomeni combinatori, in seguito tratta separatamente le collocazioni e gli idiomi e, infine, affronta il ruolo che collocazioni e idiomi hanno nell’acquisizione linguistica, soprattutto della lingua seconda, descrivendo le principali ricerche e le diverse metodologie usate per indagare l’elaborazione di queste espressioni linguistiche nell’apprendimento L2.

1.1 Il fenomeno delle combinazioni di parole.

Le collocazioni e gli idiomi sono manifestazioni del fenomeno delle combinazioni di parole. Le parole si combinano fra loro in diversi modi e danno luogo a fenomeni linguistici differenti, ognuno con le proprie particolarità. Gli studi sui fenomeni combinatori hanno evidenziato che non tutte le combinazioni di parole sono possibili, individuandone diversi tipi, tracciando differenze fra queste e stabilendo criteri per distinguerle e analizzarle1.

Un’analisi recente su questi fenomeni che propone una classificazione delle combinazioni è stata realizzata da Elisabetta JeŽek (2005). La studiosa ritiene che il fenomeno della combinazione sia la necessaria conseguenza della linearità del linguaggio. Non tutte le combinazioni sono ammissibili; i principali limiti a questo fenomeno sono posti dall’ordine stabilito dalla sintassi della lingua, dalle regole sintattiche e dalla semantica. Su questo fenomeno operano tre tipi di restrizioni:

1_{Una prima classificazione si deve a Cowie (1981,1994), il quale ha delineato un}

continuum: combinazioni libere>collocazioni>espressioni idiomatiche figurate>espressioni idiomatiche vere e proprie.

(2)

- Restrizioni concettuali o ontologiche: dipendono dalle proprietà intrinseche del referente della parola, che derivano dalla nostra esperienza del mondo. Una combinazione che viola questa restrizione causa un conflitto concettuale, come ad esempio la sedia non smette di parlare;

- Restrizioni lessicali basate su una solidarietà semantica: la loro natura è fondata su un conflitto lessicale che riguarda come una lingua lessicalizza un concetto. Ad esempio Mario calzava una cravatta rossa presenta un conflitto lessicale perché vìola la solidarietà semantica fra calzare e la classe di oggetti composta da scarpe e guanti;

- Restrizioni basate su una solidarietà consolidata dall’uso: dipendono dalla tendenza delle lingue a esprimere concetti con abbinamenti preferenziali di parole. Sono combinazioni caratterizzate da convenzionalità, come avere paura.2

JeŽek, per classificare le combinazioni di parole, si serve di tre criteri: 1) presenza di una restrizione semantica sulla combinazione;

2) calcolabilità del significato della combinazione (se il significato dell’intera combinazione sia ottenibile dai significati dei suoi singoli membri) e disponibilità del referente nel discorso;

3) la sostituibilità paradigmatica e autonomia sintattica dei membri (possibilità di sostituire uno dei membri della combinazione e di modificare la combinazione dal punto di vista sintattico).

Tenendo conto di questi criteri, la studiosa individua tre differenti tipi di combinazioni:

- Combinazioni libere: sono combinazioni di due o più parole non sottoposte a restrizioni, caratterizzate dal fatto che sono create ex

2_{La restrizione di tipo ontologico non può essere sanata, al contrario la}

violazione di una restrizione semantica è reversibile e può essere sanata sostituendo alla parola che crea il conflitto lessicale un suo iperonimo, calzava una cravatta >

indossava una cravatta. Allo stesso modo la violazione di una solidarietà consolidata

dall’uso può essere sanata sostituendo alla parola che crea il conflitto il termine consolidato dall’uso.

(3)

novo da un parlante nell’atto comunicativo, dal fatto che i loro membri possono essere combinati con altre parole mantenendo lo stesso significato e dal fatto che i referenti sono generalmente disponibili nel discorso. I membri sono autonomi dal punto di vista sintattico e il loro significato può essere costruito in via composizionale;

- Combinazioni ristrette: si distinguono a loro volta in combinazioni ristrette per presenza di un’implicazione sintagmatica di contenuto come allattare il figlio, e in combinazioni ristrette per convenzionalità chiamate combinazioni preferenziali o usuali. Le combinazioni ristrette presentano un significato generalmente composizionale, una sostituibilità dei membri ridotta e l’autonomia dei membri dal punto di vista sintattico.

All’interno delle combinazioni ristrette si individuano le

collocazioni. JeŽek definisce questo fenomeno così: una

combinazione di parole soggetta a una restrizione lessicale per cui la scelta di una specifica parola (collocato) per esprimere un significato è condizionata da una seconda parola (base) alla quale questo significato è riferito. Nelle collocazioni la restrizione ha carattere preferenziale ed è imposta dal nome al verbo o all’aggettivo. Sintatticamente i membri di una collocazione non sono liberamente sostituibili, ma sono generalmente sintatticamente autonomi. Un tipo particolare di combinazioni sono le costruzioni a verbo supporto. Queste, come le collocazioni, presentano una restrizione attivata dal nome e condizionata dall’uso; la base determina il significato del collocato; il nome mantiene lo stesso significato che ha in altre combinazioni e i membri sono generalmente autonomi dal punto di vista sintattico. Ma a differenza delle collocazioni, nella costruzioni a verbo supporto il verbo ha sempre un significato generico e il significato è espresso quasi interamente dal nome, quindi particolare è la predicazione di queste costruzioni: il predicato sarebbe costituito

(4)

dal nome e il verbo funge appunto da supporto per costruire la frase.

- Locuzioni o espressioni idiomatiche: si distinguono per il modo in cui viene costruito il significato, il quale nella maggior parte dei casi non è composizionale. Inoltre non è ammessa la sostituibilità dei membri, i quali non sono modificabili dal punto di vista sintattico.

Una proposta di classificazione delle combinazioni più specifica e interessante è stata presentata da Francesca Masini (2009). La studiosa riprende il lavoro di Simone (2006, 2007), il quale propone una distinzione fra combinazioni, in cui le parole si collegano occasionalmente per poi disgregarsi fuori dall’enunciato, e costruzioni, in cui le parole occorrono in forma di combinazione già fatta, stabile e preferenziale. Simone ritiene che le combinazioni si suddividano in combinazioni volatili, ovvero libere, combinazioni preferenziali, che occorrono insieme frequentemente, e collocazioni, che incorporano sempre la propria testa e bloccano la sinonimia. Questi fenomeni si dispongono lungo un continuum: combinazioni volatili > combinazioni preferenziali > collocazioni > costruzioni, caratterizzato da una crescente forza coesiva.

Tenendo conto del lavoro di Simone e prima di esporre la sua classificazione, Masini si concentra sulla nozione di collocazione. Si sofferma sulla proposta di Bally, il quale distingue fra unità fraseologiche (espressioni fisse) e serie fraseologiche (combinazioni usuali), caratterizzate da tre strutture diverse: AVV+AGG (gravemente malato), N+AGG (pioggia torrenziale) e V+AVV (rifiutare categoricamente). Nelle serie fraseologiche sussiste una selezione di un lessema da parte di un altro lessema: la testa seleziona il modificatore più usuale. Le sequenze fraseologiche per questo loro tratto si distinguono da quelle che Masini definisce espressioni multiparola. Queste presentano una forte coesione interna e una semantica non trasparente. Inoltre la scelta di un costituente interno non è preferenziale ma obbligatoria, poiché la sua sostituzione

(5)

produrrebbe un cambiamento di significato (guerra fredda vs guerra gelida). La distinzione fra combinazioni usuali ed espressioni multiparola non è sempre netta: esistono espressioni multiparola che presentano una variabilità paradigmatica come essere/trovarsi d’accordo, e combinazioni usuali che si presentano come frasi fatte, ad esempio tragica scomparsa. Masini tiene conto anche di un altro fenomeno, quello delle serie verbali V+N che non sono sempre combinazioni usuali. Fra queste si trovano le costruzioni a verbo supporto come mettere pressione, le quali si comportano spesso come un lessema presentando un equivalente sintetico (dare avvio – avviare).

Analizzando questi differenti fenomeni, Masini sostiene che siano tre i criteri principali per operare una classificazione all’interno dei fenomeni combinatori: fissità sintagmatica dei membri, fissità paradigmatica (obbligatorietà dei membri) e familiarità (si riferisce alla frequenza d’uso). Il criterio della fissità sintagmatica permette di distinguere le espressioni multiparola dalle combinazioni usuali; nelle combinazioni usuali il collocato è associato alla base in modo preferenziale, è il modo usuale per esprimere un concetto, ma non il solo. Non tutte le combinazioni usuali possiedono questa caratteristica: alcune basi prevedono obbligatoriamente un dato collocato (prendere una decisione vs afferrare una decisione). Esistono quindi due tipi di combinazioni che si differenziano dalle espressioni multiparola per la mancanza di fissità sintagmatica: combinazioni preferenziali e collocazioni. Sono entrambe il risultato di una co-selezione di lessemi, ma nel primo caso l’uso di un determinato elemento X può richiedere preferibilmente l’uso di un elemento Y, nel secondo caso l’elemento X implica obbligatoriamente l’uso di un elemento Y.

Dunque le espressioni multiparola sono caratterizzate da fissità sintagmatica, fissità paradigmatica e familiarità; le collocazioni non sono caratterizzate da fissità sintagmatica, ma da fissità paradigmatica e familiarità; le combinazioni preferenziali non sono caratterizzate né da fissità sintagmatica né paradigmatica, ma da familiarità.

(6)

1.2 Definizioni sulle collocazioni.

Le collocazioni sono un fenomeno linguistico che ha ricevuto molto interesse, soprattutto per il fatto che queste combinazioni lessicali non sono riconducibili a classi linguistiche generali. Infatti questo fenomeno presenta caratteristiche peculiari come un’elevata convenzionalità, una ridotta composizionalità semantica e una forte rigidità strutturale. All’interno delle collocazioni si individuano costruzioni a verbo supporto (fare attenzione), termini tecnici (sistema operativo), costruzioni idiomatiche (tagliare la corda), argomenti tipici di un predicato (mangiare una pizza) e argomenti idiosincratici di un predicato (accarezzare un’idea).

Uno dei primissimi lavori che ha posto l’attenzione sulle collocazioni risale a J.R. Firth (1957). La sua posizione può essere riassunta nel famoso enunciato “you shall know a word by the company it keeps”. Firth ritiene che il significato di una parola dipenda dal contesto in cui essa si trova, sviluppando la nozione di context of situation. E’ nel contesto che emerge il significato della parola stessa e soprattutto nelle sue più comuni collocazioni. Le collocazioni vengono intese da Firth come combinazioni abituali che rappresentano la “compagnia” della parola e fanno parte del suo significato.

In questa prospettiva è importante collocare la nozione di Sinclair (1991): le collocazioni vengono definite come combinazioni di due o più parole contraddistinte dalla tendenza a co-occorrere, ovvero a ricorrere l’una accanto all’altra, presentando un elevato grado di associazione reciproca. Un altro contributo importante allo studio delle collocazioni è stato dato da Evert (2007). Lo studioso distingue due concetti di collocazioni: un concetto empirico, che definisce le collocazioni come combinazioni ricorrenti e predicibili di parole, e un concetto teorico, che identifica le

(7)

combinazioni come espressioni lessicalizzate e idiosincratiche, dette multiword expressions. Inoltre Evert propone tre diversi modi di definire le co-occorrenze empiriche: surface cooccurrence, le parole co-occorrono se si presentano vicine nel testo; textual cooccurrence, combinazioni di parole nella stessa frase, clausola, paragrafo etc.; syntactic cooccurrence, le combinazioni sono analizzate come relazioni sintattiche dirette o indirette. Secondo Evert per individuare una collocazione è importante ricorrere a misure di associazione. Queste misure permettono di quantificare il legame fra due o più parole, di quantificare la loro attrazione. Si possono individuare due approcci: threshold approaches e ranking approaches. I primi mirano a individuare true collocations fissando una soglia minima. I secondi invece classificano le collocazioni in base ai punteggi di associazione dei loro componenti. Queste strategie permettono di valutare se la co-occorrenza fra due o più parole sia casuale o no.

Una delle misure di associazione più usate è la Mutual Information (MI), definita da Church & Harris nel 1989. La formula che permette di derivare la MI è la seguente:

𝑀𝐼 𝑢, 𝑣 = 𝑙𝑜𝑔_! 𝑝(𝑢, 𝑣) 𝑝 𝑢 𝑝(𝑣)

La MI confronta la probabilità di osservare il bigramma <u, v> con la probabilità di osservare u indipendentemente da v. Se le due parole sono statisticamente indipendenti allora p(u, v) = p(u)p(v). I due termini sono posti corrispettivamente a numeratore e a denominatore; maggiore è il valore della frazione, più alto è il grado di dipendenza fra u e v, quindi più forte è la loro associazione lessicale. Per stimare la probabilità delle parole si ricorre alla loro frequenza relativa in un corpus, intesa come il rapporto fra la frequenza assoluta di una data parola e la lunghezza del corpus. Per cui:

(8)

𝑙𝑜𝑔!_{! ! !(!)}!(!,!) = 𝑙𝑜𝑔! !!!,!! ! !(!) ! !(!) ! Semplificando: 𝑙𝑜𝑔_! !!!,!! ! !(!) ! !(!) ! = 𝑙𝑜𝑔_!!!!,!!_! ∙ _{! ! ! !}!! = 𝑙𝑜𝑔_!!!!,!! ∙!_{! ! !(!)}

La MI esprime il rapporto fra frequenza osservata (O) e frequenza attesa (E) di un bigramma. Per frequenza attesa di un bigramma <u, v> si intende la frequenza che ci dovremmo aspettare se u e v fossero statisticamente indipendenti, ovvero se ricorressero insieme per caso. Questo rapporto fra O e E è alla base di un’altra misura di associazione, il t-score, la cui formula è la seguente:

𝑡 − 𝑠𝑐𝑜𝑟𝑒 = !!! _!

Il t-score fa parte delle misure di associazione dette evidence-based e tende ad esaltare coppie di parole ad alta frequenza, a differenza della MI che è sensibile alle coppie di parole a bassa frequenza. Ciò è un limite della MI, infatti, tende a dare valore massimo agli eventi rari. Per questo motivo, nel calcolo della MI si è soliti porre la soglia di frequenza a ≥10.

Tutte queste posizioni si inseriscono in quella che viene definita prospettiva frequentista, che identifica quindi le collocazioni come combinazioni di parole che co-occorrono insieme frequentemente e legate da un forte associazione reciproca.

Le collocazioni, presentando una ridotta composizionalità semantica e sintattica e una natura combinatoria, fanno parte del linguaggio detto formulare. Uno dei principali contributi alla definizione del linguaggio formulare è stato dato da A. Wray con il suo lavoro Formulaic language and lexicon (2002). Wray sottolinea il fatto che una buona parte del

(9)

linguaggio che usiamo quotidianamente sia formulare, predicibile e sembri essere fissato in chunks3. Parole o stringhe di parole che sembrano essere processate in modo non composizionale sono dette formulari. Wray informa che i primissimi riconoscimenti su questo fenomeno risalgono alla metà del XIX secolo: J.H. Jackson, studiando pazienti afasici, aveva notato come essi fossero abili nel ricordare e nel riprodurre rime, preghiere e forme di saluto, senza essere in grado di produrre nuove espressioni. Un’altra definizione di formula risale a Jespersen, il quale identifica le formule come elementi formati da un’intera frase, o da un gruppo di parole o da un’unica parola, e sono unità che non possono essere analizzate o decomposte come le combinazioni libere. Wray invece adotta il termine formulaic sequence, definita come a sequence, continuous or discontinuous, of words or other elements, which is, or appears to be, prefabricated: that is, stored and retrieved whole from memory at the time of use, rather than being subject to generation or analysis by the language grammar. Diversa è la definizione fornita da Ellis (2012), il quale ritiene che le formule possano essere identificate attraverso tre elementi: la frequenza, l’associazione e le norme native. Le formule infatti sono sequenze ricorrenti e vengono concepite come stringhe che ricorrono spesso. La sola frequenza però non è sufficiente a identificarle; esistono formule che non hanno un’alta frequenza (blue moon, raining cats and dogs) e altre stringhe molto frequenti che non sembrano essere formulari (and of the, but it is). Non tutte le stringhe di parole che ricorrono spesso hanno una distinta funzione o significato. Il loro ricorrere spesso dipende dall’alta frequenza dei loro componenti. Di per sé la sola frequenza non implica la salienza di una sequenza. Secondo Ellis, ciò che può evidenziare la salienza di una sequenza è l’associazione che intercorre fra gli elementi della sequenza. Esistono misure statistiche che permettono di quantificarla, come la Mutua Informazione (MI), che parte dal presupposto che due parole siano tanto più fortemente associate quanto più spesso ricorrono insieme rispetto alle volte in cui ricorrono l’una indipendentemente

3_{Definizione che risale a George Miller; il chunk è un’unità di informazione e}

(10)

dall’altra. L’ultimo elemento importante per la definizione di formule sono le norme native. Tenendo conto di queste, si possono identificare formule davvero conformi all’uso nativo.

Queste sequenze formulari mettono in luce la nostra capacità di ricorrere a espressioni prefabbricate, di recuperarle dalla memoria. D’altra parte non forniscono indizi sulla nostra capacità di produrre nuove espressioni linguistiche. Per questo sono state trascurate per lungo tempo. Lo studio sulla capacità di generare nuove espressioni è stato al centro degli studi delle teorie linguistiche moderne, riprendendo la posizione di Chomsky, il quale afferma che questa è una delle essenziali capacità del linguaggio. Chomsky ritiene che il linguaggio di un parlante nativo adulto sia generato al momento della produzione e analizzato al momento della comprensione. Contro questa affermazione si schiera Wray, sottolineando due elementi che mettono in dubbio questa prospettiva: le espressioni idiomatiche, poiché non possono essere processate in questo modo, e il fatto che non tutte le frasi grammaticali occorrono con la stessa frequenza e hanno la stessa familiarità secondo i giudizi dei parlanti nativi. Wray sostiene che occorrano sistemi linguistici che tengano conto di questa duplice capacità: la capacità di generare nuove espressione e la capacità di recuperare espressioni prefabbricate. A questo proposito riprende la teoria dei due sistemi di Sinclair: l’open choice principle e l’idiom principle. Il primo sistema prevede che il soggetto scelga liberamente il materiale linguistico. Il secondo invece prevede la selezione di due o più parole in base alla loro precedente e regolare co-occorrenza. Secondo Sinclair questi due sistemi entrano in gioco perché i soggetti gestirebbero il materiale linguistico in due modi differenti, come conseguenza del fatto che la distribuzione delle parole sia non casuale.4

Anche Wray propone un doppio sistema: uno analitico e uno olistico. Il sistema analitico comporta l’interazione di parole e morfemi con regole grammaticali per creare e decodificare nuove forme linguistiche. Invece il sistema olistico interviene su stringhe prefabbricate e immagazzinate nella

(11)

memoria. Il sistema olistico inoltre non interviene solo su stringhe che non possono essere processate secondo regole, come gli idiomi, ma anche su espressioni linguistiche per le quali i processi grammaticali avrebbero dato lo stesso risultato. Inoltre il sistema analitico presenta vantaggi per la sua flessibilità, che permette di creare nuove espressioni e di interpretarle. Diversamente il sistema olistico riduce lo sforzo di elaborazione linguistica, poiché permette di recuperare dalla memoria strutture prefabbricate in modo efficace.

Come Wray, la maggior parte degli studiosi ritiene che le sequenze formulari siano immagazzinate e recuperate dalla memoria come interi, escludendo qualsiasi ruolo dei membri nell’elaborazione di queste espressione. Recentemente Siyanova-Chanturia (2014, 2015) si è concentrata su questa ipotesi, ritenendo che il fatto che le sequenze formulari presentino un vantaggio nell’elaborazione e nella comprensione non giustifica la loro natura olistica. La studiosa riprende la prima teoria che ha messo in luce il fenomeno delle sequenze formulari, l’Idiom Principle di Sinclair (1991): the principle of idiom is that a language user has available to him or her a large number of semi-preconstructed phrases that constitute single choice. Siyanova-Chanturia si sofferma anche sulle due principali affermazioni di Wray (2002): le sequenze formulari sono immagazzinate e recuperate come interi dalla memoria e sono elaborate come un morfema. Queste affermazioni implicano che le sequenze formulari sarebbero elaborate, quindi comprese e prodotte, come interi, senza che avvenga nessun accesso e nessun’analisi dei loro costituenti; una sequenza formulare è rappresentata e processata indipendentemente dalle proprietà lessicali, semantiche e sintattiche dei suoi costituenti. In realtà mancano evidenze empiriche a sostegno dell’Idiom Principle e della posizione di Wray.

Diverse ricerche si sono concentrate su queste teorie e hanno indagato la comprensione e la produzione delle sequenze formulari attraverso misure comportamentali e altri metodi come l’eye-tracking.

(12)

olistica delle sequenze formulari, fra cui quello di Underwood (2004)5; in questa ricerca, effettuata con l’eye-tracking, è stato dimostrato che le ultime parole di sequenze idiomatiche sono lette più velocemente rispetto a quando si trovano in contesti non idiomatici. Un altro studio che porterebbe conferma a ciò è quello di Jiang & Nekrasova (2007), i quali hanno comparato i giudizi grammaticali dei soggetti su espressioni formulari e sulle corrispondenti espressioni di controllo. I giudizi sulle prime sono stati più accurati ed espressi più velocemente, suggerendo che queste espressioni sono state elaborate olisticamente e non soggette ad analisi sintattica.

Questi studi dimostrano effettivamente che le sequenze formulari presentino un vantaggio nell’elaborazione, ma questo non implica una loro natura olistica. Secondo Siyanova-Chanturia, questo vantaggio confermerebbe altre due questioni: la prima che i parlanti apprendono e usano l’informazione riguardante la frequenza su singole parole e su combinazioni di parole e, la seconda, che il linguaggio non consiste solo nell’applicazione di regole grammaticali ma anche nell’esperienza linguistica.

Per comprendere la natura delle sequenze formulari, è importante considerare il ruolo dei loro membri, osservando se vengono attivati o meno. Questa questione è emersa quando ricerche recenti si sono concentrate sulla natura dei composti, che avrebbero rilevato che queste espressioni vengono elaborate attraverso un’analisi composizionale. Così è stato analizzato anche il ruolo dei membri delle sequenze formulari, in particolare in tre studi. Il primo è stato condotto da Sosa & MacFarlane (2002) e ha analizzato il ruolo della particella of in sequenza formulari composte da due parole che variano nella frequenza, come kind of, because of, sort of. E’ stato dimostrato che i tempi di reazione alla preposizione of erano più lenti in sequenze altamente frequenti e l’accuratezza più bassa rispetto ai sintagmi poco frequenti. Questo ha fatto pensare che determinate sequenze fossero trattate come unità e che

(13)

l’accesso al loro costituente era impedito. Il secondo studio è stato effettuato da Kapatsinski & Radicke (2009): è stata analizzato quanto tempo i partecipanti impiegassero a localizzare la particella up in sequenze verb+up, come give up. E’ stato evidenziato che la localizzazione di questa particella era più lenta in sequenza altamente frequenti o poco frequenti rispetto a sequenze di frequenza media. Questi due studi hanno dimostrato che la frequenza rende queste sequenze più “unite”, ma non hanno analizzato approfonditamente la relazione fra costituenti e interi, a differenza del terzo studio citato, realizzato da Arnon & Cohen Priva (2013). Gli autori hanno investigato gli effetti delle parole della multi-word information sulla durata delle parole nel discorso elicitato naturalmente e hanno esplorato come la relazione fra parola e multi-word information cambi nel continuum della frequenza. E’ stato osservato un cambiamento nella prominenza dei costituenti mano a mano che la frequenza aumentava: nei trigrammi frequenti, gli effetti della frequenza della singola parola sulla durata fonetica diminuivano, ma restavano significativi. In conclusione, gli effetti della word information non venivano eliminati, andando contro l’ipotesi del trattamento olistico.

Un’altra evidenza contraria a questa ipotesi proviene dagli studi effettuati sull’analisi delle espressioni idiomatiche, che hanno mostrato la natura composizionale degli idiomi.

Siyanova-Chanturia sostiene che questo vantaggio delle sequenze formulari che dipende dalla frequenza, dalla familiarità e dalla prevedibilità, non può implicare che queste abbiano natura olistica. Diverse ricerche hanno dimostrato che i componenti mantengono le loro proprietà semantiche e sintattiche, che avvengono analisi composizionali nell’elaborazione delle sequenze formulari e che il ripetuto uso di sequenze altamente frequenti non elimina gli effetti delle frequenze dei singoli membri.

Infine la studiosa ritiene che questo vantaggio non conferma la natura olistica ma comporta due implicazioni teoriche importanti. La prima riguarda la rappresentazione linguistica: l’occorrenza di una parola o di

(14)

una combinazione di parole lascia una traccia nella memoria che facilita l’uso futuro. Attraverso la ricorrenza di questi elementi e l’esperienza che il parlante fa con essi, le sequenze formulari diventano automatiche e sono rappresentate nel lessico mentale. La seconda implicazione riguarda l’apprendimento linguistico; la sensibilità che i parlanti hanno riguardo alle informazioni sulla frequenza conferma i due approcci usage-based ed exemplar-based.

1.3 Collocazioni nell’apprendimento L2.

Le ricerche prestano sempre più interesse al ruolo che le sequenze formulari hanno nell’apprendimento linguistico L1 e L2. Ellis (1996) ritiene che l’apprendimento linguistico si basi sull’acquisire sequenze formulari. L’apprendimento di tali elementi linguistici permetterebbe una migliore acquisizione del vocabolario e del lessico di una lingua, soprattutto delle sue unità lessicali e delle sue collocazioni. Secondo Ellis (2012) vi è una differenza fra apprendimento della prima lingua e apprendimento della seconda. Una delle più grandi questioni riguarda come i bambini apprendano la lingua, se facciano uso di categorie astratte e combinino queste categorie in sequenze per comporre frasi, oppure se possiedano un repertorio di costruzioni concrete o formule basate su unità lessicali (jump, give, put) piuttosto che categorie sintattiche astratte come verbo. Queste due ipotesi derivano da due differenti teorie: la prima ritiene che i bambini non imparino la grammatica poiché i principi di questa sarebbero innati, mentre la seconda afferma che lo sviluppo della sintassi dipenda dall’acquisizione di un grande repertorio di costruzioni e formule. Ellis presenta come prova a sostegno della seconda teoria uno studio condotto da Dabrowska & Lieven (2005)6. Questa ricerca si serve di corpora e del traceback method per analizzare conversazioni fra un adulto

6_{Per approfondire: Dabrowska, E., & Lieven, E. (2005). Towards a lexically}

specific grammar of children’s question constructions. Cognitive Linguistics, 16, 437-474.

(15)

e un bambino. Dimostra che il bambino produce molto spesso quelle che sembrano essere nuove espressioni. In realtà gli ingredienti di queste risultano già essere presenti nei corpora. Queste nuove espressioni non erano create dal nulla ma da sentenze usate precedentemente che venivano manipolate e ricombinate dal bambino. Questo dimostrerebbe che i bambini sono più formulari che creativi nelle prime fasi dell’apprendimento linguistico. Ellis ritiene che l’apprendimento L1 sia più formulare dell’apprendimento L2. I bambini apprendono la struttura del linguaggio da sequenze formulari e da queste acquisiscono categorie astratte come verbo, pronome e nome. Gli apprendenti adulti L2, invece, conoscono già queste categorie sintattiche astratte e si aspettano di trovare nella L2 costruzioni che corrispondano a queste categorie linguistiche. Una volta individuate, sono soliti tentare di creare nuove costruzioni, non andando a produrre collocazioni che sono consolidate nell’uso nativo. Inoltre molte sequenze formulari vengono apprese più facilmente proprio grazie alla loro alta frequenza. Gli apprendimenti L2 fanno un uso abbondante di queste formule, poiché si sentono sicuri. Queste formule sono una sorta di teddy bear lessicale. Anche gli apprendenti di livello avanzato utilizzano maggiormente formule molto frequenti piuttosto che rischiare e selezionare una parola meno frequente ma più appropriata. Esistono poi formule non molto frequenti e idiomatiche che richiedono una maggiore esperienza linguistica da parte degli apprendenti.

Wray (2002) propone un’analisi simile, delineando appunto una differenza fra l’apprendimento L1 e L2. Secondo la studiosa, i bambini si servono di formule e le processano nelle prime fasi dell’apprendimento in modo olistico. Wray sostiene che abbiano anche una sorta di utilità: sono un mezzo importante oltre a gesti e ad altri comportamenti non linguistici per comunicare, riducono lo sforzo del bambino e forniscono materiale che porta a sviluppare la capacità analitica del bambino. Le sequenze formulari sono presenti anche nelle primissime fasi dell’apprendimento L2, ma una volta che l’apprendente ha acquisito un buon controllo della grammatica e del lessico, l’abilità nell’utilizzare formule e collocazioni sembra

(16)

peggiorare. L’apprendente quindi continua a usare solo le formule che ha già incontrato e le formule con un’alta frequenza. Inoltre gli apprendenti processano in modo differente le sequenze formulari: queste vengono analizzate e quindi scomposte. Non vengono immagazzinate interamente, ma sono acquisiti solo i loro componenti lessicali. In questo modo non è recuperata l’informazione sul modo in cui le parole si compongono. Questo vorrebbe dire che l’apprendente quando incontra una formula, la scompone e tenta di ricostruirla tramite la grammatica della propria lingua, spesso producendo errori, soprattutto della produzione scritta.7

Diverse ricerche affermano che la frequenza rivesta un ruolo importante nell’acquisizione di collocazioni e sequenze formulari. Questo concetto è alla base dei modelli usage-based, che ritengono che i parlanti imparino le costruzioni linguistiche mentre sono impegnati nella comunicazione. L’acquisizione delle strutture linguistiche dipende quindi dall’esperienza linguistica del parlante. Maggiore è l’esperienza con una determinata costruzione, più forte è la memoria di questo elemento e più immediata è la sua produzione. Lo stesso Tomasello (2000) afferma che le abilità linguistiche sono il risultato dell’esperienza che il soggetto ha avuto con il linguaggio. Questa esperienza è sottoposta a processi di rafforzamento (usi ripetitivi di particolari espressioni) e a processi di astrazione8.

Dalle più importanti ricerche emerge che il processo linguistico è sensibile alla frequenza e i suoi effetti sull’apprendimento linguistico sono importanti. Arnon & Snider (2010) mette in luce come i parlanti siano sensibili all’informazione distribuzionale delle parole. Il suo studio va a investigare sintagmi composti di quattro parole, organizzati in 28 coppie: ogni coppia è composta da due sintagmi che differiscono per la frequenza

7_{Per un approfondimento: Yorio, C.A. 1989. Idiomaticity as an indicator of second}

language proficiency. In K. Hyltenstam & L.K. Obler (eds.) Bilingualism across the lifespan. Cambridge: Cambridge University Press, 55-72.

8 _{Tomasello si concentra sull’acquisizione della prima lingua, soprattutto sulla}

comprensione del bambino dell’utterance, definita come un atto comunicativo. I bambini comprendono che cosa l’adulto stia comunicando con tale espressione e tentano di riprodurla interamente o solo l’elemento chiave di questa, holophrase. Questi holophrase

compongono un set di espressioni che il bambino usa quando vuole comunicare e questo set si forma dall’esperienza del bambino.

(17)

(alta frequenza vs bassa frequenza) e per l’ultima parola, ad esempio don’t have to worry e don’t have to wait. L’esperimento ha analizzato i tempi di reazione, usando il phrasal-decision task. Dall’esperimento è emerso che i partecipanti rispondono più velocemente a sintagmi più frequenti, mentre la risposta richiede più tempo quando i partecipanti analizzano sintagmi di bassa frequenza. Inoltre i soggetti sono stati sottoposti ad analizzare sintagmi poco frequenti. Anche in questo caso sono stati in grado di discriminare le espressioni in base alla frequenza, rispondendo più velocemente ai sintagmi più frequenti (nonostante la frequenza fosse relativamente bassa).

Uno strumento che si sta affermando e sta divenendo molto importante nell’indagine dell’apprendimento L2 sono i Learner Corpora. Granger (2002) offre una buona descrizione sulla nascita e lo sviluppo della Learner Corpus Research. Questo approccio nasce alla fine degli anni ‘80 dall’unione della Corpus Linguistics con la ricerca sull’acquisizione L2. La linguistica dei corpora è definita come una metodologia linguistica che si focalizza sull’analisi dei corpora. Un corpus è una collezione di testi selezionati e organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali per le analisi linguistiche (Lenci, Montemagni, Pirrelli 2005). I corpora, in particolare i corpora elettronici, permettono di immagazzinare una grande quantità di dati testuali indispensabili per le indagini linguistiche. La linguistica dei corpora ha permesso di realizzare importanti tecniche e software che analizzano e interrogano il contenuto del corpus per analizzare e descrivere i fenomeni del linguaggio. Invece la ricerca sull’acquisizione delle lingue seconde si avvale di distinti tipi di dati, raggruppati da Ellis (1994) in tre categorie:

- language use data: si dividono in dati naturali, ottenuti dalla comunicazione linguistica degli apprendenti in condizioni spontanee, e in dati elicitati;

- metalingual judgements: i dati sono ottenuti tramite la somministrazione di diverse tipologie di test, ad esempio test che

(18)

analizzano i giudizi di grammaticalità;

- self-report data: dati ottenuti tramite l’uso di questionari e interviste.

Questi due distinti ambiti hanno contribuito alla creazione dei corpora di apprendenti, nati negli anni ’90 e concentrati soprattutto sugli apprendenti di inglese L2. Granger (2002) offre questa definizione: computer learner corpora are electronic collections of authentic FL/SL textual data assembled according to explicit design criteria for a particular SLA/FLT purpose. They are encoded in a standardised and homogeneous way and documented as to their origin and provenance. Granger (2004) presenta i tre aspetti peculiari dei corpora di apprendenti:

- dimensione: i corpora di apprendenti contengono una grande quantità di dati poiché in formato elettronico e questo garantisce la rappresentatività dei dati e la generalizzabilità dei risultati;

- variabilità: la lingua degli apprendenti è soggetta a diverse variabili e i corpora di apprendenti permettono di controllarle;

- automazione: sono stati realizzati strumenti automatici o semi-automatici che permettono di maneggiare i dati in maniera più efficace.

Per quanto riguarda la progettazione dei corpora di apprendenti, è importante tenere conto di diverse variabili. Granger (2008) ritiene che due siano le variabili più importanti: quelle relative agli apprendenti, learner variables, e quelle relative ai task a cui sono sottoposti i soggetti, task variables. Entrambe si dividono in generali e in specifiche. Ad esempio nel caso delle variabili riguardanti gli apprendenti, quelle generali riguardano le informazioni sull’età, sul sesso e sulle lingue native, mentre quelle specifiche si riferiscono alla competenza linguistica, all’esposizione alla L2, etc.

I corpora di apprendenti permettono di indagare come gli apprendenti comprendano, elaborino e producano una lingua seconda. Inoltre

(19)

evidenziano l’interlingua, intesa come quella lingua che gli apprendenti sviluppano mentre imparano una seconda lingua senza averla ancora completamente acquisita, che mantiene caratteristiche della lingua nativa. Queste indagini sono realizzate attraverso due principali metodologie: Contrastive Interlanguage Analysis (CIA) e Computer-aided Error Analysis (CEA). La CIA analizza due tipi di confronti: il confronto fra la L1 e la L2 e il confronto fra L2 e L2. Il primo tipo mette in luce gli schemi che gli apprendenti adottano per apprendere una determinata lingua seconda, rivela quali strutture siano maggiormente usate e quali rappresentino una difficoltà e di osservare l’overuse e l’underuse di certi elementi linguistici. Ciò viene studiato attraverso il confronto dei dati ottenuti da corpora di apprendenti e corpora di nativi. Il secondo tipo di confronto permette di osservare le strategie applicate e condivise da apprendenti di varie L1 nell’acquisizione L2. Invece la CEA consiste nell’etichettare gli errori commessi dagli apprendenti, analizzando cosa costituisca per loro una difficoltà. E’ una tecnica poco diffusa perché dispendiosa in termini di tempo.

Esistono diverse tipologie di corpora di apprendenti. Questi vengono classificati in base all’ambiente in cui sono prodotti, infatti esistono corpora accademici e corpora commerciali; si distinguono inoltre per l’ampiezza, che è una caratteristica molto importante perché una maggiore ampiezza garantisce dati più rappresentativi. Un altro criterio nella loro distinzione è la lingua target degli apprendenti; la maggior parte dei corpora ha come lingua target l’inglese. Si differenziano a seconda che siano corpora di lingua scritta o trascrizioni di lingua parlata. Infine vengono classificati in base all’aspetto temporale: possono essere trasversali o sincronici, i dati sono stati prodotti dagli apprendenti nello stesso periodo di tempo, oppure possono essere longitudinali o diacronici, dati ottenuti durante un determinato periodo di tempo utili per monitorare le fasi dell’acquisizione linguistica.

I corpora di apprendenti costituiscono un importante strumento per analizzare l’apprendimento L2.

(20)

1.4 Diverse metodologie nello studio dell’apprendimento L2

delle collocazioni.

Fra gli studi riguardanti l’apprendimento delle collocazioni da parte

di apprendenti non-nativi, emerge la ricerca di Durrant & Schmitt (2009). Questo è uno studio corpus-based e analizza l’uso nativo e non di collocazioni molto frequenti in inglese nella produzione scritta. Sono stati selezionati testi di vasta lunghezza poiché l’intenzione era di investigare quanto esteso sia l’uso di collocazioni e poiché da lunghe porzioni di testo era possibile ricavare informazioni statisticamente significative. E’ stato selezionato anche un set di testi brevi per verificare se questo tipo di analisi possa essere applicata anche a testi meno estesi. Gli scritti scelti sono stati realizzati in inglese da nativi e non per scopi accademici. Il totale ammontava a 96 testi: 24 testi lunghi scritti da nativi, 24 testi lunghi scritti da non-nativi, 24 testi brevi scritti da nativi e 24 testi brevi scritti da non-nativi.

Sono state identificate combinazioni adiacenti formate da aggettivo-nome e da nome-nome; sono state estratte manualmente dai testi esattamente 10 839 combinazioni. Per calcolare la forza collocazionale sono stati usati due metodi frequency-based. Prima di tutto si è contato quanto frequentemente ogni collocazione ricorreva nel British National Corpus World Edition (BNC). Poi si è fatto ricorso a due misure di associazione: t-score e Mutual Information (MI). Un t-score ≥ 2 e una MI ≥ 3 erano valori minimi per l’identificazione di collocazioni. Inoltre le combinazioni sono state disposte lungo una scala di forza collocazionale.

L’analisi si è concentrata prima di tutto sull’uso di collocazioni rare in inglese, ovvero collocazioni che apparivano nei testi meno di 5 volte. E’ emerso che nei testi più estesi, i nativi usano collocazioni rare con una percentuale di circa il 48%, mentre i non-nativi con una percentuale di circa il 38%. Lo stesso risultato è stato ottenuto nell’analisi dei testi più brevi.

(21)

Per quanto riguarda le collocazioni fortemente associate, queste sono state indagate con il t-score e con la MI. L’analisi del t-score ha evidenziato che i non-nativi fanno un uso maggiore di collocazioni appartenenti alle bande più alte (t ≥ 10) rispetto ai nativi. Invece considerando livelli di valori più bassi (t < 10), l’uso è equivalente. Molte ricerche sostengono che i non-nativi ripetano le stesse combinazioni. Per dimostrare che vi sia effettivamente un uso ripetitivo da parte dei non-nativi rispetto ai nativi, Durrant & Schmitt hanno ricalcolato i dati ottenuti utilizzando la type-token ratio, che conferma questo overuse di collocazioni. La type-type-token ratio è un indicatore di ricchezza lessicale di un testo, basato sul rapporto tipo-unità; i valori di questo rapporto oscillano fra 0 e 1. I valori vicino allo 0 indicano che il vocabolario del testo9 è meno vario e il valore massimo 1 si ottiene quando la grandezza del vocabolario è pari alla lunghezza del testo; questo è possibile solo quando il testo è interamente formato da hapax. Dalla tipe-token ratio è emerso che questo uso ripetitivo non è significativo. I dati sono stati ricalcolati solo con il collocation types: è risultato che i non-nativi continuano ad avere un uso di collocazioni appartenenti a bande alte sempre maggiore rispetto ai nativi, ma la differenza è minima e non significativa. I non-nativi usano collocazioni fortemente associate e ogni uso eccessivo può essere interpretato come risultato di una ripetizione di combinazioni favorite. Un’analisi simile è stata ottenuta dalla valutazione dei testi più brevi.

Contrariamente a quanto dimostrato dai dati ottenuti con il t-score, l’analisi della MI evidenzia che i non-nativi fanno un uso minore di collocazioni fortemente associate rispetto ai nativi. Lo stesso risultato è emerso dall’analisi dei testi più brevi. Questo studio ha evidenziato tre principali punti:

- i nativi usano collocazioni meno frequenti rispetto ai non-nativi; - i non-nativi fanno uso maggiore di collocazioni con un alto t-score rispetto ai nativi, considerando anche la ripetizione di queste espressioni;

- i non-nativi fanno uso decisamente inferiore delle collocazioni con

(22)

un’alta MI rispetto all’uso nativo.

L’uso minore di collocazioni poco frequenti e di nuove combinazioni dimostra che gli apprendenti preferiscono usare combinazioni comuni; l’estensivo uso di collocazioni con un alto t-score evidenzia che gli apprendenti hanno una preferenza per le collocazioni molto frequenti. Dall’analisi della MI, invece, emerge che i non-nativi usano collocazioni frequenti ma non fortemente associate. Le combinazioni fortemente associate sembrano richiedere più tempo per essere apprese. Questo studio delinea una differenza fra nativi e non-nativi nella produzione scritta: i nativi prediligono combinazioni meno comuni ma fortemente associate, mentre i non-nativi combinazioni più frequenti ma non particolarmente associate.10

Durrant & Doherty (2010) hanno realizzato un’altra importante ricerca, che si allontana dallo studio dell’acquisizione linguistica, ma che potrebbe essere interessante applicarlo all’apprendimento linguistico sia L1 che L2. Questa ricerca si prefigge lo scopo di dimostrare la realtà psicolinguistica delle collocazioni altamente frequenti e come la frequenza sia correlata con il priming mentale. Sulla nozione di priming è importante la tesi di Hoey11_{, il quale ha fornito un modello sulla relazione fra} collocazioni nel testo e collocazioni nella mente. Le collocazioni vengono definite come associazioni psicologiche e queste associazioni sono identificabili in base alla nozione psicolinguistica del priming. Questo fenomeno spiega che il riconoscimento di una parola è facilitato dal contesto che la precede: una parola viene riconosciuta ed elaborata più velocemente se il parlante ha incontrato in precedenza una parola ad essa correlata. Il contesto “prepara” (to prime) la parola target. Il parlante quindi produce collocazioni in base a questo: nel momento in cui viene in mente una parte di una collocazione (rain), viene causato il richiamo

10_{Ciò dipende dalla differenza di bias delle due misure associative: il t-score}

tende a enfatizzare le alte frequenze, mentre la MI è sensibile alle basse frequenze.

11_{Per un approfondimento: Hoey, Michael. 2005. Lexical priming: A new} theory of words and language. London: Routledge.

(23)

dell’altra parte (heavy). Il parlante tende a produrre l’intera collocazione (heavy rain), preferendola ad altri sinonimi (ad esempio strong). Questo modello indicherebbe quanto la frequenza sia correlata alla rappresentazione mentale e questo è ciò che Durrant & Doherty intendono dimostrare attraverso due esperimenti.

Nel primo esperimento i partecipanti sono stati sottoposti ad un lexical-decision task, per dimostrare se il priming può essere effettivamente trovato nelle collocazioni molto frequenti. Veniva mostrata brevemente una parola prime, seguita da una stringa che poteva essere o no una reale parola inglese. I partecipanti dovevano decidere il più velocemente possibile se la seconda stringa era effettivamente una parola inglese o no. Il priming collocazionale avrebbe rivelato se le risposte erano date in presenza di target collocati più velocemente rispetto a target non-collocati. Inoltre le collocazioni erano comparate con coppie di parole “incongrue”, poiché secondo la letteratura questo sistema favorirebbe un maggiore evidenza del fenomeno del priming. Coppie “incongrue” di controllo sono state comparate sia con collocazioni sia con combinazioni attestate ma poco frequenti. Le coppie sono state divise in tre gruppi: combinazioni poco frequenti, collocazioni moderate e frequenti, collocazioni frequenti e associate12_{. Ogni gruppo comprendeva sedici collocazioni. L’informazione} riguardante la loro frequenza è stata ottenuta dal BNC. I partecipanti erano 32 parlanti nativi di inglese, divisi in due gruppi e testati individualmente. Sullo schermo di un monitor CRT, appariva un punto di fissazione (+) per 1500ms, sostituito da una parola prime in lettere minuscole, che restava sullo schermo per circa 600ms; questa era sostituita immediatamente dalla parola target in lettere maiuscole, che rimaneva sullo schermo fino alla risposta data dal soggetto, il quale doveva premere il bottone destro se riteneva la parola corretta, altrimenti il bottone sinistro. I risultati di questo esperimento hanno dimostrato che il priming era presente solo fra collocazioni frequenti e collocazioni frequenti e associate e che il priming era presente indipendentemente dal fatto che le collocazioni fossero

(24)

associate psicologicamente.

Un limite di questo esperimento era che non escludeva possibili strategie attuate dai soggetti per risolvere il task. Questo problema è stato risolto nel secondo esperimento realizzato con questo metodo: la parola prime era presentata molto brevemente e preceduta o seguita da un pattern mask. In questo modo i partecipanti non acquisivano consapevolezza del prime. Nell’esperimento sullo schermo appariva un punto di fissazione per circa 1500ms, seguito dal pattern mask che restava sullo schermo per 500ms, a sua volta seguito dalla parola prime in lettere minuscole per 60ms, immediatamente sostituita dalla parola target in lettere maiuscole, che restava sullo schermo fino alla risposta data dal soggetto. I risultati confermavano i dati ottenuti dal primo esperimento, aggiungendo un dato importante: le collocazioni altamente frequenti non mostravano un forte priming, presente invece fra le collocazioni associate.

Questi dati suggeriscono che la frequenza di occorrenza sia una realtà psicologica, confermando la validità dei metodi frequency-based. Inoltre la differenza fra collocazioni frequenti e collocazioni associate dimostrata nel secondo esperimento, indica una possibile divergenza delle collocazioni. Il modo in cui le collocazioni sono rappresentate nella mente potrebbe non essere uniforme.

Un’altra ricerca che dà validità psicolinguistica alle formule estratte dai corpora è quella di Ellis et al. (2008). In questo studio le sequenze formulari sono estratte da quattro corpora, fra cui BNC e il MICASE, seguendo le tecniche della corpus linguistic. Le sequenze erano formule accademiche di lingua scritta e parlata. Sono state analizzate con il software program Collocate per il calcolo della frequenza e della MI. In totale sono state usate 108 formule al fine di studiarne gli aspetti psicolinguistici, attraverso tre differenti esperimenti.

Il primo esperimento chiedeva ai soggetti di giudicare se le stringhe di parole erano probabili in inglese: 108 formule erano esistenti, altre 108 no e sono state create scambiando l’ordine dei componenti delle formule. I

(25)

partecipanti erano undici studenti parlanti nativi di inglese e undici studenti di inglese L2. Nell’analisi delle risposte sono stati tenuti conto questi fattori: lunghezza delle parole, frequenza e MI. Sono stati osservati sia l’accuratezza delle risposte sia i tempi di reazione. Dall’esperimento è emersa una differenza nel modo di processare queste espressioni: il processo dei parlanti nativi sembra essere influenzato dalla MI delle formule, mentre il processo dei parlanti non-nativi dalla frequenza. Questo perché per gli apprendenti è la frequenza, quindi quante volte la stringa appare nell’input, che determina la fluidità e la domestichezza con le sequenze formulaiche.

Il secondo esperimento invece ha analizzato il voice onset time (VOT) e l’articulation time. Ai partecipanti (sei parlanti nativi di inglese e sei parlanti di inglese come seconda lingua) sono state presentate le stringhe di parole una alla volta sullo schermo del computer e gli è stato chiesto di leggerle ad alta voce il più velocemente possibile. I parlanti sono stati registrati e le registrazioni analizzate con Praat. Anche in questo caso sono stati tenuti in considerazione la lunghezza delle parole, la frequenza e la MI. I risultati del secondo esperimento si equivalgono a quelli del primo: nei parlanti nativi il VOT è influenzato dalla MI, mentre l’articulation time dalla lunghezza delle stringhe. Nei parlanti non-nativi, invece, entrambi i task sono influenzati dalla frequenza.

Infine il terzo esperimento ha studiato il priming della parola finale della formula. I partecipanti (18 parlanti nativi di inglese e 16 parlanti di inglese come seconda lingua) dovevano leggere a voce alta e il più velocemente possibile l’ultima parola della sequenza formulare. Gli sono state date queste istruzioni: sullo schermo del computer appariva un punto di fissazione (+), una volta fissato lo sguardo su questo e una volta pronti, i partecipanti doveva schiacciare la barra spaziatrice. Appariva dunque una sequenza incompleta e dopo una singola parola, che i soggetti doveva leggere chiaramente a voce alta usando un microfono. In questo caso veniva misurato il VOT, tenendo conto degli stessi fattori analizzati nei precedenti esperimenti. In questo caso sia i parlanti nativi che non-nativi

(26)

sono stati influenzati dalla MI.

Il fatto che in tutti e tre gli esperimenti la frequenza e la MI siano fattori influenzanti, dimostra che le sequenze formulari hanno validità psicolinguistica. I parlanti sono sensibili a diverse determinanti di fluidità: i parlanti nativi alla MI, mentre gli apprendenti alla frequenza. Nel caso degli apprendenti la frequenza gioca un ruolo importante nell’acquisizione linguistica: più volte una formula è stata incontrata, più l’apprendente è in grado di leggerla e processarla fluentemente. Diversamente gli effetti della MI nei parlanti nativi mettono in luce un diverso aspetto. Queste sequenze formulaiche con un’alta MI hanno distinte funzioni e distinti significati, come i termini tecnici e come gli idiomi. Sono strutture che si presentano ben formate grammaticalmente. Il fatto che queste formule siano processate fluentemente dai parlanti nativi, indica che sono state riconosciute le loro funzioni, e questo indica che siano riconosciute come interi dai parlanti nativi.

Lo studio di Siyanova & Schmitt (2008) offre un’analisi delle collocazioni da diverse prospettive. Utilizza infatti tre metodologie differenti: analisi dei corpora, off-line judgement e online reaction-time task. La ricerca si compone di tre studi differenti.

Il primo era corpus-based e ha esplorato la produzione di collocazioni aggettivo-nome da parte di apprendenti. E’ stata analizzata la frequenza e l’associazione e comparati i dati dei parlanti non-nativi con i dati dei parlanti nativi.

Le collocazioni sono state estratte manualmente dal Russian sub-corpus dell’International Corpus of Learner English (ICLE). Il sub-corpus consisteva di saggi scritti da 31 studenti universitari russi che stanno studiando l’inglese come lingua straniera. Questo corpus è stato comparato al corpus LOCNESS, formato da saggi scritti da studenti universitari inglesi, da cui sono stati ricavati i dati riguardanti i parlanti nativi.

Le collocazioni erano in totale 810 estratte dal Russian sub-corpus e 806 estratte dai saggi realizzati dai parlanti nativi. E’ stato consultato il BNC

(27)

per determinare la frequenza e la MI. Le collocazioni sono state divise in 5 bande di frequenza: 0, 1-5, 6-20, 21-100, >100. Nell’analisi della MI è stata istituita ≥ 3 come soglia minima.

Per valutare se le collocazioni prodotte dai parlanti non-nativi erano appropriate, si è contato quante volte queste espressioni ricorrevano nel corpus nativo. Poco più del 50% occorreva frequentemente ( ≥ 6 occorrenze) nel BNC, quindi solo metà è risultata tipica della produzione nativa. Della restante metà un quarto non appariva nel BNC e un quarto ha una bassa frequenza (1-5). L’altra metà è risultata atipica o non frequente nel BNC. E’ stata misurata anche l’associazione ed è emerso che circa il 50% delle collocazioni sono frequenti e fortemente associate. Analizzando i dati nativi, si è notato che la frequenza è simile ai dati non-nativi. Questo risultato dipende anche dal fatto che i due corpora sono comparabili in termini di genere, grandezza e totale delle collocazioni estratte. Per quanto riguarda la MI, anche nel caso dei dati nativi circa il 50% delle collocazioni sono fortemente associate. Infine è stato applicato il chi-square test per vedere se ci fossero differenze significative nella produzione di collocazioni tipiche, ma non è emersa nessuna differenza significativa.

Il secondo studio ha comparato i giudizi dati dai nativi e quelli dati dai non-nativi sulle collocazioni. Ha indagato la conoscenza che i soggetti hanno delle collocazioni. Sono state utilizzate le 810 collocazioni del primo studio. Sono state analizzate in termini di frequenza e di MI e comparate con due dizionari: The BBI Dictionary of English Word Combinations e l’Oxford Collocations Dictionary. Sono state selezionate in tutto 62 collocazioni: 31 frequenti e 31 non frequenti. Il primo gruppo è stato a sua volta diviso in due sottocategorie: collocazioni con una frequenza nel BNC superiore a 100 e collocazioni con una frequenza nel BNC fra 21 e 100. Il secondo gruppo invece non ricorreva nel BNC e nemmeno nei due dizionari, ma i loro costituenti erano semanticamente e grammaticalmente appropriati. Nell’esperimento le collocazioni sono state combinate e ai soggetti è stato chiesto di quantificare quanto fossero

(28)

comuni (dove comuni indicava frequenti) attraverso una scala da 1 (non comuni) a 6 (molto comuni). I partecipanti erano in tutto 120: 60 parlanti nativi e 60 parlanti non-nativi di inglese. E’ stata anche analizzata la naturale esposizione alla L2 e i parlanti non-nativi sono stati divisi in tre gruppi in base a quanto tempo avessero trascorso in un paese con l’inglese come lingua ufficiale: mai stati in un paese L2 (29 soggetti), meno di 12 mesi in un paese L2 (17 soggetti) e più di 12 mesi in un paese L2 (14 soggetti). Il test è stato somministrato per e-mail o direttamente. Dai risultati è emerso che i partecipanti nativi hanno buone intuizioni sulla frequenza delle collocazioni, mentre i non-nativi di avere un’intuizione scarsa, quindi una conoscenza non accurata. Inoltre i partecipanti nativi hanno dimostrato di essere in grado di porre le collocazioni lungo una scala di frequenza, non disponendo le collocazioni atipiche all’estremo inferiore della scala, forse perché tolleranti verso questo poiché semanticamente appropriate. Diversamente i non-nativi hanno posto le collocazioni atipiche al centro della scala, non rendendosi conto che erano inusuali. Un’altra differenza fra i due gruppi è che i nativi, sono in grado di distinguere fra collocazioni molto frequenti e collocazioni di frequenza media, mentre i non-nativi non colgono questo aspetto. Inoltre lo studio ha evidenziato che l’esposizione naturale alla L2 è un fattore importante: più i soggetti sono stati esposti alla seconda lingua, più acquisiscono conoscenza sulle collocazioni e migliori intuizioni.

Infine il terzo studio ha osservato quanto velocemente siano dati i giudizi sulle collocazioni utilizzando un online task. Sono state utilizzate le 62 collocazioni del secondo studio. I partecipanti erano 54: 27 nativi e 27 non-nativi. Durante l’esperimento le collocazioni sono state presentate una alla volta sullo schermo di un computer e i partecipanti dovevano stabilire quanto fossero comuni (usando la stessa scala del secondo studio). Non c’erano limiti di tempo ma gli è stato chiesto di rispondere il più velocemente possibile. Lo studio ha dimostrato che i nativi giudicano le collocazioni frequenti e non frequenti più velocemente dei non-nativi. La differenza era notevole: non solo i giudizi dei non-nativi erano meno

(29)

accurati ma i processi di riconoscimento necessari richiedevano molto più tempo ai parlanti non-nativi. Inoltre i parlanti nativi impiegano meno tempo a processare collocazioni molto frequenti rispetto a collocazioni di media frequenza, mentre questa differenza non emerge nei parlanti non-nativi.

Siyanova-Chanturia et al. (2011) hanno realizzato un altro studio sulla sensibilità dei soggetti alla frequenza frasale. Questa ricerca non ha preso in considerazione le collocazioni, ma un’altra classe delle mutliword expressions: le espressioni binomiali, formate da tre parole, due di contenuto unite da una congiunzione (bride and groom). Le espressioni binomiali sono interessanti da analizzare perché sono molto frequenti, perché i loro componenti contribuiscono al significato dell’intera espressione e nella maggior parte dei casi il cambiamento dell’ordine delle due parole di contenuto non cambia il significato dell’espressione. Le due parole di contenuto possono essere invertite non provocando cambiamenti nel significato ma nella frequenza dell’espressione.

Hanno partecipato alla ricerca 28 parlanti nativi e 28 parlanti non-nativi di inglese, i quali hanno compilato un questionario dove hanno riportato i punteggi delle loro abilità linguistiche nello speaking, nel listening, nel writing e nel reading, usando una scala Likert da 1 a 5.

Sono stati estratti 42 binomi dal BNC, i quali sono stati invertiti cambiando l’ordine delle due parole di contenuto (bride and groom vs groom and bride). Per entrambi i tipi di espressioni sono state registrate le frequenze ed è stato evidenziato che i binomi sono nettamente più frequenti delle loro controparti invertite. Inoltre sono stati creati due tipi di filler: un primo costituito da un set di 42 sintagmi semanticamente e grammaticalmente corretti, associati ai binomi e alle loro controparti invertite per lunghezza delle parole e per Part of Speech, e un secondo costituito da un set di 63 sintagmi di bassa frequenza semanticamente e grammaticalmente corretti. I filler sono stati utilizzati per evitare che i soggetti si accorgessero dei binomi e soprattutto delle loro controparti

(30)

invertite.

Per assicurarsi che i binomi non mostrassero un vantaggio più forte nella loro elaborazione rispetto ai binomi invertiti, ovvero per evitare che il priming fra la Parola 1 e Parola 2 fosse più efficace del priming fra la Parola 2 e la Parola 1, è stata controllata la forza di associazione semantica nell’ Edinburgh Associative Thesaurus: la media della forward association era di 0.29 e la media della backward association era di 0.25 (nessuna differenza significativa). Ciò ha evidenziato che la forza associativa fra la Parola 1 e la Parola 2 era molto simile alla forza associativa fra la Parola 2 e la Parola 1.

Sono state create due liste di stimoli (nessun soggetto ha visto entrambe): in ognuna gli item sono stati mescolati con 21 filler del primo tipo e con tutti i 63 filler del secondo. I binomi e le forme invertite sono state inserite negli stessi contesti.

E’ stata scelta come tecnica di esperimento l’tracking e gli eye-movements sono stati misurati con SMI Eye-Link 1. L’esperimento di svolgeva in questo modo: al centro dello schermo appariva un punto fissazione, il soggetto doveva fissarlo per poter controllare la calibrazione. Una volta controllata, appariva al centro dello schermo una frase e i partecipanti dovevano leggerla il più velocemente possibile. Un quarto delle frasi era seguito da un questionario di comprensione e il resto da “Ready?”. I soggetti non hanno avuto nessuna difficoltà nel rispondere al questionario: 95.4% di risposte esatte i nativi e 89.9% di risposte esatte i non-nativi.

Le misure analizzate con l’eye-tracking erano: first-pass reading times, total reading times e fixation count. I risultati sono stati testati con il mixed-effect modelling. I predittori erano: frequenza frasale, frequenza della Parola 1, frequenza della Parola 2, tipo di sintagma, lunghezza del sintagma, forza di associazione e proficiency13.

13

La proficiency era dicotomica: proficiency dei nativi e proficiency dei non-nativi. Per i non–nativi è stata calcolata come media dei punteggi che si sono assegnati nello speaking, nel writing, nel listening e nel reading. Invece ai nativi è

(31)

Ogni misura è stata influenzata dalla lunghezza del sintagma, dalla proficiency, dalla frequenza frasale e dal tipo di sintagma. Inoltre è emersa una forse interazione fra tipo di sintagma e proficiency, dimostrando che quest’ultima gioca un ruolo fondamentale nell’elaborazione della frequenza frasale.

Lo studio ha dimostrato, infatti, che i parlanti nativi e non-nativi sono sensibili alla frequenza frasale, leggendo i binomi ad alta frequenza più velocemente dei binomi a bassa frequenza. Inoltre i parlanti nativi e non di livello avanzato sono sensibili anche al tipo di sintagma, elaborando i binomi diversamente dalle loro forme invertite, invece i parlanti nativi principianti elaborano entrambi in maniera simile. Ciò conferma che l’elaborazione del tipo di sintagma dipende dalla proficiency.

Infine la ricerca dimostra che i parlanti sono sensibili alla frequenza delle multiword expressions.

Siyanova-Chanturia & Spina (2015) hanno presentato un lavoro interessante che ha investigato le intuizioni di parlanti L1 e L2 sulla frequenza delle collocazioni. I giudizi dati dai due gruppi di parlanti sono stati comparati fra loro e con le informazioni ottenute dai corpora. Lo studio si è concentrato sull’italiano.

Hanno partecipato all’esperimento 42 parlanti nativi di italiano e 42 parlanti non nativi di italiano. Le L1 dei parlanti non nativi erano varie: cinese, spagnolo, inglese, polacco, etc. E’ stato chiesto loro di compilare un questionario dove dovevano indicare l’età, quando era avvenuta la prima esperienza con l’italiano e il tempo trascorso in Italia, inoltre dovevano indicare con una scala 1-5 il loro livello nello speaking, reading, writing e comprehension. In base ai dati ottenuti sono stati divisi in due gruppi: livello intermedio e livello avanzato. Il t-test ha dimostrato che la differenza fra i due gruppi era significativa.

Sono state analizzate collocazioni italiane di varia frequenza: alta, media,

stato assegnato il punteggio massimo in ogni campo. In questo modo la proficiency è stata considerata come variabile continua.