• Non ci sono risultati.

Strumenti di analis

L’apprendimento di costruzion

Capitolo 3. Quesiti di ricerca e strumenti di analis

3.3 Strumenti di analis

3.3.1 Il corpus

La selezione delle prove di esame orale all’interno della Banca Dati per l’allestimento del corpus ha seguito in gran parte riflessioni teoriche derivanti dagli studi della linguistica dei corpora, in particolare di corpora di L2, o di learner corpora come vengono chiamati in letteratura. Significativa e pertinente ci è parsa la considerazione di Lenci, Montemagni, & Pirrelli (2005):

guidano questa scelta determinano la natura stessa del corpus e condizionano di conseguenza anche lo spettro dei suoi usi possibili. Scegliere un corpus come fonte di dati linguistici per l’analisi computazionale richiede dunque prima di tutto di valutare accuratamente se il suo contenuto e la sua organizzazione sono appropriati per i nostri scopi, ovvero se il corpus è in grado di fornirci il tipo e la quantità di informazioni a cui siamo interessati (Lenci, Montemagni, & Pirrelli, 2005:27).

Il punto di partenza, quindi, è lo scopo per cui si allestisce un corpus. Nel nostro caso, la finalità primaria è l’analisi della costruzione coordinata allo scopo di ipotizzare e descrivere i meccanismi con cui emergono determinate strutture linguistiche e di analizzare al contempo le modalità e le strutture con cui gli apprendenti esprimono una determinata funzione. Nasce quindi come un corpus specifico e monolingue, in quanto si concentra su una varietà linguistica specifica, ovvero l’interlingua di italiano, non identificabile né con la L1 né con la LT.

Possiamo quindi descrivere il nostro corpus attraverso i parametri che la linguistica dei

corpora ritiene significativi nella sua creazione (Lenci, Montemagni, & Pirrelli, 2005):

 la modalità, ovvero il canale utilizzato dal campione di lingua raccolto: il nostro

corpus raccoglie produzioni orali di apprendenti di italiano L2. La scelta di analizzare dati orali deriva in primo luogo dalla natura stessa dell’oralità, contestuale e non programmata, che garantisce dati più spontanei; inoltre, è proprio nell’orale che compare maggiormente la costruzione coordinata: i dati orali sembrano quindi garantire una significatività maggiore rispetto a dati scritti, dove spesso le strutture coordinate vengono sostituite da riformulazioni diafasicamente più complesse69.  la cronologia, ovvero in riferimento ai learner corpora, è possibile allestire corpora di

tipo longitudinale, che contengono dati provenienti dagli stessi apprendenti raccolti in

69

L’ipotesi di comparare dati scritti e orali, presa in considerazione in un primo momento, è stata successivamente scartata in quanto un’analisi comparata ci avrebbe allontanato dai nostri quesiti di analisi, focalizzandosi maggiormente sulle differenze tra scritto e orale. Al contrario il nostro progetto, seppur circoscritto alla produzione orale, si propone di delineare il pattern di acquisizione di costruzioni complesse, nella consapevolezza che appropriati task di parlato, rispetto a task di produzione scritta, si avvicinano maggiormente ai contesti d’uso quotidiani più frequenti della L2.

periodi diversi, o corpora di tipo trasversale. Studi su corpora di tipo longitudinale sono generalmente i più auspicabili in quanto permettono di annullare molti dei fattori che influiscono l’acquisizione della L2. Tuttavia, sono anche i più difficili da assemblare in quanto richiedono un’alta disponibilità dei parlanti e proprio per la difficoltà nella raccolta dei dati spesso il rischio che si corre è quello di condurre solo dei case-study. Nel nostro caso quindi si tratta di un corpus di tipo trasversale, in cui i soggetti dei livelli di competenza sono soggetti diversi, ma sempre bilanciati per rappresentatività numerica.

 l’estensione, ovvero le dimensioni di un corpus. Il nostro corpus è costituito da 96 parlanti di italiano L2, per un totale di 15h 19’57’’ di registrazione.

 la tipologia dei dati raccolti, ovvero se si tratta di dati naturali - come ad esempio i testi, definiti come «l’habitat naturale dei dati linguistici» (Lenci, Montemagni, & Pirrelli, 2005) - o dati controllati, ottenuti tramite escussione. Una decisione di questo tipo deve essere presa tenendo conto dei rischi di stravolgimento della natura del

corpus e dei risultati dei suoi impieghi. Nel nostro caso, i dati confluiti nel corpus

sono stati già acquisiti per un diverso fine, ovvero quello della valutazione della competenza in italiano L2. La prova di produzione orale generalmente consiste nella produzione di un testo a partire da input visivi. Si tratta quindi di dati solo parzialmente escussi, in quanto in questo tipo di task il parlante viene solo parzialmente guidato (ad esempio nella scelta del tema), ma viene totalmente lasciato libero nell’esposizione in quanto non viene creato nessun contesto obbligatorio di produzione di determinate forme linguistiche. Riteniamo che questo tipo di task si presti in modo adeguato agli scopi scientifici di ricerca: da un lato ricrea una situazione quanto più possibile aderente alla realtà d’uso della L2 (tale beneficio è garantito anche dai domini indicati dal QCER per ogni livello di competenza, personale, pubblico, della formazione e della professione) e dall’altro comporta il vantaggio di lavorare su dati che siano preventivamente valutati sulla base del QCER70. Tuttavia,

70

La modalità di raccolta dati influenza molto spesso la naturalezza e la rappresentatività del campione. La nostra scelta è ricaduta su dati semi-spontanei: l’interazione all’interno dell’intervista, infatti, lascia aperte le

utilizzando produzioni semi-spontanee si può incorrere in due ordini di rischi: da un lato si può verificare la situazione in cui all’interno dei dati vi siano rare occorrenze del fenomeno in questione; dall’altro, accanto alla certezza che i dati tratti dalle prove non sono di livello inferiore rispetto a quello per cui sono stati certificati, vi è anche la possibilità, già accennata, che possano essere di livello superiore. Tuttavia, come abbiamo visto, abbiamo cercato di annullare questa possibilità attraverso una doppia valutazione.

 la rappresentatività dei dati. Un corpus è maggiormente rappresentativo se conserva la gamma di variabilità della lingua (o della varietà di lingua) della popolazione, in relazione sia ai parlanti che alla tipologia testuale, intendendo per popolazione in questo caso l’insieme dei parlanti di italiano L2. In riferimento ai parlanti, se si vuole studiare come un determinato fenomeno si evolve all’interno dell’interlingua diventa necessario osservare cosa avviene nell’interlingua ai diversi livelli di competenza. All’interno della Banca Dati dell’Ufficio della Certificazione, per l’allestimento del nostro corpus, abbiamo quindi selezionato produzioni di parlanti di livello B1 (livello soglia) e di livello C2 (livello padronanza) del QCER, come accennato, equamente distribuiti (48 di livello B1 e 48 di livello C2)71. Analogamente, al fine di rendere

possibilità espressive e linguistiche del soggetto, anche se tale libertà è vincolata all’interno di una struttura socialmente e culturalmente stabilita, che prevede che la presa del turno sia generalmente decisa dall’intervistatore. Ciò che ci sembra rilevante è che non viene creato nessun contesto obbligatorio che il soggetto deve riempire, né vengono create delle attese sulla forma linguistica che il soggetto deve produrre. Molti dei sistemi di escussione, come i giudizi di grammaticalità o l’analisi degli errori, hanno, invece, come punto di riferimento la competenza del parlante nativo e obbligano un confronto tra la forma prodotta e quella attesa (Cook, 1993).

71

Riportiamo una breve descrizione dei due livelli di competenza proposta dal QCER per la produzione orale.

L’apprendente di livello B1:

Can reasonably fluently sustain a straightforward description of one of a variety of subjects within his/her field of interest, presenting it as a linear sequence of points. (Council of Europe, 1996:58). L’apprendente di livello C2, invece,:

rappresentativo al massimo il corpus, si è cercato di includere parlanti di diverse L1, tentando di bilanciare quanto più possibile i tipi linguistici a disposizione (flessivi, isolanti e agglutinanti) e le famiglie linguistiche. Le lingue incluse sono 12: russo, polacco, rumeno, francese, spagnolo, portoghese, inglese, tedesco, cinese, giapponese, albanese e arabo. Complessivamente risulta uno sbilanciamento verso la famiglia indoeuropea e verso il tipo flessivo, dovuto anche alla maggiore facilità con cui si reperiscono i dati di parlanti di lingue indoeuropee flessive, dato che si dimostrano maggiormente interessati a imparare l’italiano e costituiscono l’utenza principale dei certificati di competenza linguistica. Inoltre, per garantire maggiore rappresentatività ad un corpus di L2, è importante considerare i fattori esterni e interni che influenzano l’interlingua (tra i primi l’input, l’interazione, la dominanza sociale e il tipo di integrazione; tra i secondi l’età, la motivazione, l’ansietà, la personalità, l’attitudine, lo stile cognitivo e le strategie di apprendimento) (Larsen-Freeman & Long, 1991; Ellis R., 1994; Pallotti, 1998). Nel nostro caso, le informazioni a disposizione riguardavano solo il fattore età e il fattore motivazione: i soggetti hanno un’età compresa tra i 19 e i 65 anni e hanno tutti spontaneamente sostenuto l’esame di certificazione, adducendo come motivazione tanto un interesse personale (motivazione intrinseca), quanto un ritorno sul piano formativo e/o lavorativo (motivazione strumentale). Rimandiamo allo

Schema 19 per una descrizione più dettagliata dei soggetti del corpus. Tuttavia tra

tutti i fattori considerati importanti nell’allestimento di un corpus in L2, abbiamo preferito garantire una maggiore rappresentatività della L1 dei soggetti, a discapito di un bilanciamento dell’età o della motivazione.

Can produce clear, smoothly flowing well-structured speech with an effective logical structure which helps the recipient to notice and remember significant points. (Council of Europe, 1996:24).

Schema 19 Descrizione dei soggetti del corpus.

Caratteristiche

L1 russo, polacco, rumeno, francese, spagnolo, portoghese, inglese, tedesco, cinese, giapponese, albanese e arabo.

Livelli di competenza QCER B1 e C2.

Numero di Soggetti 96, equamente distribuiti tra i due livelli di competenza. 48 B1 e 48

C2

Età compresa tra i 19 e i 65 anni.

Sesso 13 M e 31 F (livello B1); 15 M e 33 F (livello C2).

Motivazioni a sostenere l’esame

Interesse personale, studio, lavoro.

In riferimento alle tipologie testuali, quelle coinvolte nei task sono quelle previste dal QCER, in relazione ai domini di uso stabiliti per ciascun livello. Le prove, infatti, si articolano in più parti: la prima parte, comune ad entrambi i livelli, consiste nel porre al candidato alcune domande di carattere personale finalizzate a metterlo a proprio agio all’interno della situazione comunicativa d’esame. A partire dalla seconda parte, i

task dei due livelli si differenziano: ai candidati di livello B1 viene generalmente chiesto di produrre un testo narrativo e/o descrittivo a partire da alcuni prompt visivi (generalmente fotografie) legati ai domini della quotidianità. Ai candidati di livello C2, invece, viene chiesto di produrre testi di vario genere (narrativi, descrittivi e argomentativi) commentando un proverbio italiano o una frase celebre a scelta e di discutere alcune vignette umoristiche. Lo Schema 20 riassume l’articolazione delle prove in task e le tipologie testuali derivanti.

Schema 20 Articolazione dei task nella prova di produzione orale.

B1 C2

Parte I Informazioni personali