• Non ci sono risultati.

progettazione e validazione in prospettiva interlinguistica CRISTIANA CERVINI (Università di Bologna; Université Grenoble Alpes)

3. Metodologia di ricerca e sviluppo: il ciclo del testing in prospettiva interlinguistica

3.1 Descrizione e risultati dei pilotaggi di SELF per la lingua italiana

Per la lingua italiana, abbiamo effettuato tre pilotaggi principali. Il primo, tenutosi nei mesi invernali del 2013, è stato svolto su 37 task di comprensione orale. L’obiettivo principale è consistito nel verificare la sensibilità redazionale degli autori. Il primo pilotaggio ci è inoltre stato utile per validare la scelta del ‘tout à l’oral’11

e per risolvere alcuni dubbi, relativi ad esempio al ruolo e all’utilità del contesto, al numero di ascolti disponibili e al rapporto tra il testo orale fonte (objet de la question), gli item (questions) e la tecnica adottata (tipologia di esercizio). Infine, abbiamo tracciato il tempo medio trascorso dagli studenti su ciascun task e la difficoltà percepita: il primo espresso in secondi ed il secondo sulla base di scala di likert con valori da 1 (per niente difficile) a 5 (molto difficile). Questi indicatori si sono rivelati utili e interessanti per stimare eventuali scarti tra quanto auspicato in fase redazionale e quanto si sarebbe realmente verificato una volta reso operativo il test.

Il secondo pilotaggio, molto più corposo, si è focalizzato su due competenze (comprensione orale e comprensione scritta) e su tre livelli: A1 (58 task corrispondenti a 103 item), B1 (44

9 Il RIR, considerato come l’indice di discriminazione più affidabile nei modelli della teoria classica del test, può variare da -1 a +1. Il valore minimo per reputare un item ben discriminante dal punto di vista psicometrico è >0.30. Un indice tra 0.15 e 0.30 segnala l’opportunità di revisione. Quanto all’indice di difficoltà, per convenzione si accettano gli item il cui tasso di riuscita sia compreso tra il 2,5% e il 97,5%. Non si tratta di criteri assoluti o rigidi ma di convenzioni stabilite in base al contesto di somministrazione e in base alle finalità della valutazione. Certo è che si debba fissare una soglia massima al di sopra o al di sotto della quale gli item non sono accettabili.

10 Il valore P indica l’indice di difficoltà/facilità degli item in Tia Plus, da non confondere con il p value che nel presente elaborato viene indicato con p minuscola in corsivo.

11 Nei task di comprensione orale di SELF, tutte le componenti (contesto, testo o objet de la question, domande, opzioni di risposta) sono oralizzate, a salvaguardia di una maggiore autenticità interazionale da un lato e dall’altro per garantire una maggiore coerenza con il costrutto di competenza (valutazione della comprensione dell’orale).

75

task corrispondenti a 78 item) e B2 (27 task corrispondenti a 48 item), per un totale di circa

170 studenti coinvolti nella sperimentazione. Le analisi si sono svolte in modo affine a quelle del primo pilotaggio, applicazione della teoria classica del test (TCT) attraverso il software TiaPlus.

Prendiamo un esempio di attività per capire il funzionamento ed i principi alla base delle analisi psicometriche con la TCT.

Fig. 3: esempio di task orale (“Prepararsi a un colloquio di lavoro”)

Osserviamo un task di comprensione orale, come da esempio riportato in figura 3, composto da tre item e pilotato su un pubblico di studenti pretestati, con un livello di padronanza in italiano tra l’A2 acquisito e il B1 in corso di acquisizione12

. Nella tabella riportiamo in sintesi le caratteristiche del testo, degli item ed alcune delle informazioni tracciate, per il task e per i singoli item. Sotto la tabella, inseriamo i grafici con i risultati delle analisi psicometriche effettuate con il software TiaPlus ed iniziamo a fare le prime considerazioni.

Considerazioni generali:

Video autentico prodotto dall’Associazione Meliusform, di 50’, con scambio dialogico controllato tra l’intervistatrice e un esperto di selezione delle risorse umane. Il video si presenta come una sorta di tutorial in cui il protagonista dà consigli su come prepararsi efficacemente a un colloquio di lavoro.

Il ‘contesto’ (icona in alto a sinistra), in questo caso, si riferisce al ‘mezzo’ di trasmissione (podcast su internet) e non fornisce dunque informazioni utili per rispondere ai quesiti.

Difficoltà media percepita dai candidati: 3 (espressa in autovalutazione su una scala da 1 a 5)

Tempo medio (in secondi): 258,4’’ Numero di ascolti max. disponibili: 2

Tipologie di esercizi: quesiti con risposta a scelta multipla (2 distrattori e 1 sola risposta corretta).

ITEM 1/QUESITO 1: focus linguistici e operazioni cognitive

comprensione globale ma anche inferenza;

Valori psicometrici

P (indice di difficoltà) = 67

RIT (indice di discriminazione = 0,06

12 Con questa terminologia ci riferiamo in particolare ai gruppi di livello dei corsi LANSAD dell’Università di Grenoble Alpes: per esempio, nel caso riportato, il campione sarà composto da studenti che hanno superato l’esame di profitto finale del corso di italiano di livello A2.2 e da studenti iscritti ai corsi di italiano di livello B1.1 e B1.2. La proporzione deve essere equamente distribuita.

76 focus principalmente lessicale (nella prima

domanda si chiede: “a chi è rivolta l’intervista”?) ITEM 2/QUESITO 2: comprensione globale. P = 82 RIT = 0,27 ITEM 3/QUESITO 3:

comprensione dettagliata ; focus lessicale e comunicativo.

P = 79 RIT = 0,37

Fig. 4: rappresentazioni grafiche dell’andamento degli item in fase di pilotaggio

Sull’asse orizzontale sono rappresentanti i candidati distribuiti sull’asse in base alla performance riscontrata nella globalità del test (sottogruppi da 1 a 4): il gruppo 1 rappresenta le risposte dei candidati più deboli e, viceversa, il gruppo 4 quello dei candidati più forti. L’asse verticale indica la percentuale di candidati che ha scelto l’opzione di risposta indicata nella curva (A, B, C). Il coefficiente di discriminazione dell’item è indicato con il valore RIT e l’indice di facilità/difficoltà viene contrassegnato nel grafico con un asterisco (*). Per esempio, se osserviamo l’andamento dei distrattori (A e C) nell’item 1, vediamo che alcuni studenti più forti (rappresentati nei gruppi 3 e 4) hanno scelto i distrattori come risposta corretta. Questo determina un indice di discriminazione (0,06) al di sotto della soglia consentita (>0,15), dato da interpretare come un chiaro campanello di allarme per il redattore, interpellato a revisionare con occhi critici il contenuto del task. Spesso infatti item di questo genere presentano ambiguità redazionali che aumentano l’incidenza del fattore ‘casualità’ e traggono in inganno lo studente competente. Il terzo pilotaggio, sul quale non ci dilungheremo in questa sede, si è principalmente focalizzato sull’espressione scritta breve (128 item) consentendoci di avviare uno studio comparativo sugli item critici e di notare come una eccessiva varietà nelle tipologie di esercizi e di indizi proposti dagli autori (p.e.: prima lettera,

prima sillaba, numero di lettere, numero di parole in espressioni composte, forma base del lemma da cui creare la forma derivata, definizione, possibile composizione di più indizi),

77