CAF — Il confronto tra le misure di fluenza pause lunghe e esitazioni — Italiane e apprendenti (valori di gruppo).

Metodologia di ricerca

Grafico 2.4. CAF — Il confronto tra le misure di fluenza pause lunghe e esitazioni — Italiane e apprendenti (valori di gruppo).

tutte le italiane tutte le apprendenti storia

telefonate

Tabella 2.8. Le misure di fluenza, variazione.

storia telefonate

apprendenti italiane apprendenti italiane pause lunghe/AS-unit -13,20% 37,25% -42,77% 50,45% esitazioni/AS-unit 33,99% 1,31% -11,63% 20,46%

(33) PAN: || | un: negosiere | ||

(34) PAN: || | {mh .h} e # lo pane prende vuomo #0_2 >quel de< cantie:re | ||

(35) SHI: || | .hhh ha fatto: di tutto | così la polizia gli: # venisse a prend ere, | ||

(36) VAL: || | {e: tch cioè: h} lui prende dei sigari | || VAL: || | lo offre anche a dei £bambini£ | || #0_5

(37) VAL: || | e si vede::: l’ultima scena | che si ritrovano su un pezzo di legno | a galleggiare::: | ||

Inoltre nel caso in cui lo studente correggeva un proprio errore, questo non veniva conteggiato:

(38) SHI: || | e poi {ha arriva} è arrivato sull’isola::: | ||

Infine, nell’identificare le AS–unit senza errori sono stati esclusi gli errori di pronuncia:

(39) PAN: || | poi loro due contrano | ||

Per verificare l’affidabilità di questi criteri di misurazione dell’accuratezza è stato effettuato un controllo sperimentale su una parte del corpus: i task intervista, racconto di un film e apertura delle telefonate realizzati da Pandita ed Eli- sa a t1 (1278 parole, 446 AS–unit). Il controllo ha coinvolto due parlanti nativi nel ruolo di valutatori, cui è stato richiesto di identificare le AS–unit senza errori. Si è proceduto poi al confronto delle due codifiche, che ha dato un buon grado di affidabilità, con un accordo tra i due valutatori pari al 98%.

Si presenta ora la misurazione della fluenza. Le diverse misure di fluenza proposte in letteratura cercano di rilevarne tre aspetti: la fluenza legata alla velocità e la fluenza legata alle

pause, caratterizzate dalle variabili temporali, e la fluenza legata alle riparazioni definita dai fenomeni di esitazione.

Il conteggio delle misure di fluenza ha un grosso limite pratico, poiché richiede prima una trascrizione di altissima qualità e dunque estremamente impegnativa in termini di tempo. Ai fini di questo studio, tra le misure proposte in letteratura (cfr. § 1.2.2.2., tabella 1.6.), non ne sono state prese in considerazione tre: velocità d’eloquio, durata delle pause e lunghezza media tra due pause. Il tipo di corpus e gli strumen- ti a disposizione del ricercatore non hanno infatti permesso il conteggio della prima misura, la velocità dell’eloquio. La seconda è stata scartata dopo un controllo sperimentale su una parte del corpus: il task racconto di una storia realizzato in t3 da Catherine, Elisa e Valentina. Qui i risultati prodot- ti dai due ricercatori che si sono occupati delle trascrizioni ha mostrato come possa esserci un buon grado di affidabilità nell’individuazione delle pause e nella distinzione tra micro- pause e pause lunghe (con un grado di accordo dell’87,5%) ma risulti meno affidabile il conteggio della durata delle pause, con differenze anche molto marcate (accordo del 32% dei casi, con variazione media di #0_3, e una deviazione standard di #0_2/#0_6). Si è pertanto ritenuto che il conteggio della durata media delle pause non potesse essere applicato ai dati di questo corpus, in quanto avrebbe portato a risultati poco affidabili. Infine, l’esclusione della terza misura, lunghezza media tra due pause, è dovuta alla difficoltà di applicazione a task interattivi, dove la definizione del confine dell’unità non è scontata. Poiché la conversazione è costruita con l’interlo- cutore, il flusso del parlato si interrompe non solo nei casi in cui l’apprendente fa una pausa, piena o vuota, ma anche nel caso dei cambi di turno. Da un lato considerare i cambi di turno come confine dell’unità significherebbe, nei task interattivi, ottenere unità molto brevi, dunque interpretabili

come poco fluenti, dall’altro non considerarli confine di unità porterebbe a unità anche troppo lunghe, rendendo pertanto difficile l’interpretazione dei risultati.

In questo studio sono state scelte due misure di fluenza: numero di pause lunghe per AS–unit e numero di fenomeni di esitazione per AS–unit. Così come per la complessità, è sta- to effettuato un confronto tra le due misure su due task, il racconto di una storia ad immagini e l’apertura delle telefonate, realizzati dalle apprendenti e dalle italiane tra t1 e t3.

Il grafico 2.4. riporta i risultati ottenuti dai due gruppi sulle due misure di fluenza considerate e la tabella 2.8. ne riporta la variazione. Il confronto degli andamenti sui tre anni mostra come i risultati ottenuti siano piuttosto diversi gli uni dagli altri, indicando in alcuni casi tendenze addirit- tura opposte. Questo dato supporta l’idea suggerita in letteratura secondo la quale le misure considerate rilevano diversi e complementari aspetti della fluenza. Entrambe sono pertanto state impiegate per l’analisi del corpus oggetto di questo studio.

Ricapitolando, in questo studio, riguardo al CAF ven- gono usate le seguenti misure: per la complessità sintattica due specifiche di grado (lunghezza e subordinazione); tre qualitative di gamma relative al tipo di clausola (percentuale di clausole indipendenti, unità indipendenti inferiori alla clausola e clausole subordinate sul totale delle clausole), e infine tre qualitative di gamma relative alla subordinazione (percentuale di avverbiali, argomentali e relative sul totale delle subordinate).

Per l’accuratezza viene usata la misura percentuale delle AS–unit senza errori sul totale delle AS–unit.

Infine per la fluenza sono state scelte due misure: il numero di pause lunghe per AS–unit, e quello di fenomeni di esitazione per AS–unit.

2.6.2. Le valutazioni QCER

In questa sezione si presentano le griglie del QCER utilizzate in questo studio, si discute un’indagine di validazione empirica dell’affidabilità delle valutazioni e infine si illustra la procedura impiegata per la valutazione dei dati.

I descrittori sono tratti dalle griglie relative agli aspetti qualitativi dell’uso della lingua parlata e si riferiscono alle tre dimensioni della coerenza–coesione, della correttezza grammaticale e della fluenza. Questa selezione è dovuta al fatto che questi descrittori sono confrontabili con ciò che viene misurato attraverso le misure analitiche CAF esposte in § 2.6.1. Infatti alla complessità del CAF corrisponde la coerenza–coesione (QCER, p. 154), all’accuratezza corrisponde la correttezza grammaticale (QCER, p. 140), mentre — ovviamente — la fluenza del CAF coincide con quella del QCER (p. 158). La tabella 2.9. riporta i descrittori del QCER selezionati.

Tabella 2.9. QCER — Gli aspetti qualitativi dell’uso della lingua parlata.

coerenza–coesione _grammaticalecorrettezza fluenza

C2 È in grado di rea- lizzare un discorso coerente e coeso usando in modo appropriato una grande varietà di schemi organizzativi e un’ampia gamma di connettivi e di meccanismi coesivi di altro tipo. Mantiene costan- temente il controllo grammaticale di forme linguistiche comples- se, anche quando la sua attenzione è rivolta altrove (ad es. nella pianificazione di quanto intende dire e nell’osservazione delle reazioni altrui).

È in grado di esprimersi in discorsi lunghi con scioltezza naturale, senza sforzi né esitazioni. Fa pause solo per cercare le parole per esprimere con precisio- ne il proprio pensiero o per trovare un esempio o una spiegazione adatti.

coerenza–coesione _grammaticalecorrettezza fluenza C1 È in grado di rea- lizzare un discorso chiaro, sciolto e ben strutturato, mostrando un uso controllato degli schemi organizzativi, di connettivi ed espressioni coesive. Mantiene costan- temente un livello elevato di correttezza grammaticale; gli errori sono rari e poco evidenti.

È in grado di esprimersi con scioltezza e spontaneità, quasi senza sforzo. Solo un argomento concettual- mente complesso può ostacolare la naturale scioltezza del discorso.

B2+

È in grado di usare in modo efficace diversi connettivi per esplicitare i rapporti tra i concetti.

Ha una buona padronanza grammaticale; nella struttura delle frasi possono ancora verificarsi sbagli occa- sionali, errori non siste- matici e difetti minori, che sono per lo più rari e corretti a posteriori.

È in grado di comuni- care con spontaneità, dando per lo più prova di notevole scioltezza e uso disinvolto dei mezzi espressivi anche in discorsi piuttosto lunghi e complessi.

È in grado di usare un numero limitato di elementi di coesione per collegare i propri enunciati in un discorso chiaro e coerente. In un intervento lungo possono presentarsi dei “salti” logici.

Mostra una padronanza grammaticale piuttosto buona. Non fa errori che possano provocare fraintendi- menti.

È in grado di produrre sequenze discorsive con un ritmo abba- stanza uniforme; anche se può avere delle esitazioni quando cerca strutture ed espressioni, fa poche pause evidenti. È in grado di interagire con sponta- neità e scioltezza tali da consentire una normale interazione con parlanti nativi, senza sforzi per entrambe le parti.

B1+

Comunica con ragio- nevole correttezza in contesti familiari; la padronanza grammaticale è generalmente buona anche se si nota l’influenza della lingua madre. Nonostante gli errori, ciò che cerca di esprimere è chiaro.

È in grado di esprimersi con relativa disinvoltura. Nonostante alcuni problemi di formulazione che possono sfociare in pause e blocchi, è in grado di portare avanti il discorso efficacemen- te senza aiuto.

coerenza–coesione _grammaticalecorrettezza fluenza

È in grado di collegare una serie di elementi relativamente brevi e semplici in una se- quenza lineare per punti.

Usa in modo ragione- volmente corretto un repertorio di formule di routine e strutture d’uso frequente, relative alle situazioni più prevedibili.

È in grado di mantenere il discorso comprensi- bile, anche se sono evidenti pause per cercare parole e forme gram- maticali e per riparare agli errori, specialmente nelle sequenze di produzione libera di una certa lunghezza.

A2+

È in grado di collegare frasi semplici usando i connettivi più usuali per rac- contare una storia o descrivere qualcosa, realizzando un sem- plice elenco di punti.

Riesce a farsi com- prendere con enunciati molto brevi, nonostante che pause, false partenze e riformulazioni siano molto evidenti.

È in grado di collegare gruppi di parole con connettivi semplici quali “e”, “ma” e “perché”.

Usa correttamente alcune strutture semplici, ma continua sistematicamente a fare errori di base — per esempio tende a confondere i tempi verbali e a dimenticare di segnalare gli ac- cordi; ciononostante ciò che cerca di dire è solitamente chiaro.

Su argomenti familiari è in grado di formulare espressioni e ha suffi- ciente capacità di portare a termine scambi comunicativi brevi, nonostante le esitazioni e le false partenze siano evidenti.

È in grado di collegare parole o gruppi di parole con connettivi molto elementari quali “e” o “allora”.

Ha solo una padronanza limitata di qual- che struttura grammaticale e di semplici modelli sintattici, in un repertorio memo- rizzato.

È in grado di cavarsela con enunciati molto brevi, isolati, solitamente memorizzati, facendo molte pause per cercare le espressioni, per pronunciare le parole meno familiari e per riparare agli errori di comunicazione.

Per rilevare l’affidabilità nell’applicazione dei descrittori selezionati, ci si rifa all’indagine sperimentale condotta da Ferrari e Nuzzo (2010). Tale indagine consiste in una validazione empirica dell’affidabilità delle valutazioni espresse da due gruppi di valutatori, tutti insegnanti, tra cui 5 esperti valutatori e 5 non esperti, su tre attività del corpus (il racconto di un film, l’intervista e le telefonate) realizzate da 3 soggetti (due apprendenti, Pandita e Shirley, e una studentessa italia- na, Elisa). Gli insegnanti esperti sono docenti di un Centro Territoriale Permanente, formati come esaminatori e regolarmente coinvolti come valutatori della prova orale negli esami di certificazione CELI dell’Università per Stranieri di Perugia. Gli insegnanti non esperti hanno diverse esperien- ze nel mondo della scuola, e sono tutti impegnati come vo- lontari in scuole di italiano L2 per adulti.

Ciascun gruppo di insegnanti è stato impegnato in una sessione di valutazione della durata di 3 ore circa durante la quale si sono valutate le videoregistrazioni dei 3 task, rife- rendosi a griglie basate sia sui descrittori degli aspetti qualitativi dell’uso della lingua parlata che sui descrittori specifici riferiti ai tipi di task. L’attribuzione del livello avveniva subi- to dopo la visione di ciascuna produzione ed era suddivisa in due momenti: una prima valutazione individuale e una seconda valutazione condivisa da raggiungere attraverso una discussione di gruppo. L’analisi dell’affidabilità dei giudizi espressi (statistica descrittiva e correlazione) è stata condotta sulle valutazioni individuali e sulle valutazioni condivise. La tabella 2.10. riporta i risultati relativi ai tre descrittori impiegati per questo studio. Ricordando che in letteratura in genere si considerano affidabili i giudizi quando il valore della correlazione è pari o superiore a 0,80 (Alderson et al., 1995), osserviamo che i descrittori relativi alla correttezza grammaticale hanno ottenuto il maggior accordo. Rispetto

a coerenza–coesione le discrepanze più rilevanti sono relative al task telefonate, poiché in diversi casi le insegnanti non sono state in grado di esprimere una valutazione ritenendo i descrittori inadeguati per un task interattivo. I risultati relativi alla fluenza sono stati invece quelli meno soddisfacenti.

Tabella 2.10. L’affidabilità dei giudizi. Spearman rank–order (da Ferrari, Nuzzo, 2010).

tutti gli

insegnanti insegnanti esperti non espertiinsegnanti comunigiudizi coerenza–coesione 0,83 0,89 0,83 0,79 correttezza grammaticale 0,90 0,88 0,81 0,87 fluenza nel parlato 0,68 0,87 0,55 0,83

Gli insegnanti esperti dimostrano maggior accordo rispet- to ai colleghi non esperti. Questo risultato è in linea con ciò che viene da più parti evidenziato nella letteratura sul testing, e cioè che la formazione aumenta la coerenza e l’affidabilità delle scelte dei valutatori (Lunz et al., 1990) oltre che ridurre le differenze di severità tra esaminatori (Wigglesworth, 1993; Weigle, 1994). Lumley e McNamara (1995) suggeriscono che i vantaggi della formazione non sono però di lunga durata, dimostrando come sia necessario un momento di formazione prima di ogni sessione di valutazione. Interessanti inoltre i risultati ottenuti nelle valutazioni condivise: la discussione nei gruppi per il raggiungimento di un accordo sembra portare gli insegnanti ad allinearsi maggiormente nelle loro scelte. Questo dato sostiene l’utilità della pratica diffusa nelle certifi- cazioni di impiegare due valutatori per ciascuna valutazione (cfr. Alderson et al., 1995). Nonostante non ci sia sempre una correlazione ottimale dei giudizi per i 10 insegnanti, i risultati di questa indagine permettono alcune osservazioni in posi-

tivo. Sugli 11 livelli disponibili1_{per ciascuna competenza, lo}

scarto tra le scelte effettuate oscilla tra 2 e 4 livelli, con una preferenza per 2 valutazioni diverse. Le diverse valutazioni inoltre si riferiscono nella maggior parte dei casi a livelli contigui sulla scala. Questo suggerisce come il QCER possa essere un buon punto di riferimento, anche se sembra non riuscire a guidare in modo chiaro e preciso le scelte degli insegnanti nella distinzione tra livelli contigui, in particolare per la fascia C. Del resto difficoltà per i livelli più alti sono state evidenzia- te anche in altre ricerche: Kaftandjieva e Takala (2002: 113), ad esempio, sottolineano come il livello C2 non sia sempre distinto dal C1; Cassandro e Maggini (2004: 71), conducen- do un’esercitazione con un gruppo di insegnanti, osservano come non manchino divergenze vistose nell’attribuzione dei livelli, specialmente per quanto riguarda la parte alta del con- tinuum. Questo fa presupporre che anche se la formazione appare come un elemento centrale nel garantire l’affidabilità delle valutazioni, non si possono escludere fattori interni al QCER per la scarsa affidabilità dei giudizi, dal momento che anche tra i valutatori esperti si riscontrano problemi di alline- amento.

Poiché insegnanti esperti e valutazioni condivise ottengo- no i risultati migliori, nel definire la procedura di valutazione per questo studio si è cercato di soddisfare entrambe le con- dizioni. Sono stati coinvolti due valutatori esperti, entrambi regolarmente impegnati come esaminatori in esami di certificazione, oltre che buoni conoscitori del QCER. Ai valutatori è stato richiesto di esprimere un giudizio su complessità, accuratezza e fluenza delle produzioni di tutte le apprendenti del corpus in tre task (intervista, storia e telefonate) realizzati 1. Calcolando livelli e sotto–livelli, dal momento che in molti casi i livelli delle fasce A e B sono ulteriormente suddivisi (per esempio, A1, A1+, A2, A2+).

a t1 e a t4, utilizzando le griglie del QCER predisposte. Sono state così valutate in 3 sessioni di 2 ore ciascuna 36 videoregistrazioni, randomizzate per task, apprendenti e momen- to di rilevazione. Ai valutatori è stato richiesto di esprimere prima una valutazione individuale e di concordare poi una valutazione condivisa. I risultati della valutazione individua- le sono stati utilizzati per verificare l’inter–rater reliability dei due valutatori. I risultati sono stati piuttosto buoni: 0,82 per coerenza–coesione, 0,88 per correttezza grammaticale, e 0,84 per fluenza. I risultati della valutazione condivisa sono stati invece utilizzati per osservare la variazione longitudinale e situazionale di complessità, accuratezza e fluenza, oggetto di indagine di questo studio.

177

Risultati

Il capitolo è dedicato alla presentazione dei risultati delle analisi effettuate sul corpus. Prima verranno presentati i risultati dell’analisi CAF (§§ 3.1.–3.4.), poi quelli delle valutazioni QCER (§ 3.5.). Infine verranno discusse alcune interazioni tra i due approcci (§ 3.6.).

3.1. La complessità sintattica CAF

La sezione presenta i risultati relativi all’analisi della comples- sità sintattica effettuata attraverso l’applicazione delle due misure globali: lunghezza (parole/clausole) e subordinazione (subordinate/AS–unit); e delle sei misure specifiche: tipo di clausola (percentuale di clausole indipendenti, di unità indipendenti inferiori alla clausola e di subordinate sul totale delle clausole) e tipo di subordinata (percentuale di avverbiali, di argomentali e di relative sul totale delle subordinate).

Si inizia ogni volta con l’analisi della variazione longitudinale della complessità sintattica considerando complessiva- mente i due gruppi di soggetti (studentesse italiane e apprendenti) cumulativamente in tutti i task (§ 3.1.1.); si prosegue con quella della variazione situazionale individuando le differenze tra i quattro task (§ 3.1.2.). Si conclude illustrando, con esempi oltre che con grafici, il percorso individuale di ogni studentessa (§ 3.1.3.).

3.1.1. La variazione longitudinale

Il grafico 3.1. mostra i valori delle due misure di lunghezza e di subordinazione relativamente allo sviluppo longitudinale, mentre la tabella 3.1. riporta quelli delle sei misure relative al tipo di clausola e di subordinata. In entrambi i casi i dati si riferiscono ai valori medi dei due gruppi considerati cumulativamente per tutti i task.

Grafico 3.1. CAF — Complessità — Variazione longitudinale — Tutti i task

Nel documento Valutare le competenze orali in italiano L2. Variazione longitudinale e situazionale in apprendenti a livello avanzato (pagine 166-178)