• Non ci sono risultati.

Le principali critiche ai sistemi di accountability

4. I sistemi di valutazione

4.2 Le principali critiche ai sistemi di accountability

Si è accennato, nei paragrafi che precedono, alle critiche alla valutazione degli apprendimenti che provengono dal mondo della scuole. Nel paragrafo che segue si approfondiranno le ragioni addotte da coloro che sollevano perplessità sui sistemi di accountability. Le ragioni delle mancanza di piena adesione ai progetti di valutazione degli apprendimenti da parte degli attori del mondo della scuola, sono diverse e spaziano da critiche di tipo epistemologico, a quelle contenutistico ad altre di tipo prettamente metodologico (Dolton, 2002). Di seguito verranno riportate le problematiche più comunemente sollevate e si proverà ad illustrare come i teorici dei sistemi di

accountability le affrontino oggi. Se da un lato alcuni aspetti vanno ridimensionati nella loro portata

negativa, dall’altro è indispensabile tenere presente, nel momento in cui si fa riferimento alle procedure di valutazione standardizzata, dei limiti che questi strumenti inevitabilmente portano con sé:

1) Coloro che contestano la validità epistemologica dei sistemi di valutazione, intravedono un’eccessiva limitatezza dell’ambito che è possibile sottoporre a valutazione. In particolare viene sottolineato come la rilevazione dei risultati degli apprendimenti corrisponda ad uno soltanto degli obiettivi che la scuola si prefigge (Gori 2003). Nello specifico, un gruppo di critiche evidenzia come le indagini internazionali che coprono il range di sistemi scolastici, a volte molto eterogenei, possano non rilevare quanto previsto nei percorsi disciplinari di ogni singolo paese.

2) Un secondo ventaglio di critiche solleva le questioni relative alla costruzione dei test e al rispettivo contenuto: la strutturazione dei test non sarebbe mai scevra del punto di vista e dell’approccio di coloro che costruiscono i test. Ciò finisce inevitabilmente per avvantaggiare determinati ragazzi o ragazzi e specifici gruppi sociali.

3) Un terzo aspetto di critica riguarda la questione dell’ “addestramento” ai i test. Il pericolo può essere quello di un uso eccessivo di un singolo strumento di valutazione che può portare, da parte degli insegnanti, alla messa in atto, per ragioni di sopravvivenza delle scuole stesse, di strategie di preparazione al superamento dei test indipendentemente dal contenuto degli stessi (Boero 2004).

4.2.1 Un limitato ambito di indagine?

In riferimento alla prima questione è necessario sottolineare come ci sia stata una evoluzione nel concetto di test di misurazione degli apprendimenti e nell’utilizzo che se ne è fatto nel tempo. I test di apprendimento nascono all’inizio del novecento per misurare l’intelligenza. Nel 1905 viene messo a punto dagli psicologi francesi Binet e Simon un test di intelligenza in grado di garantire l’accesso all’istruzione pubblica per coloro che lo avessero superato. Il test, pur nelle successive revisioni che seguirono, rimase uno degli strumenti di misurazione maggiormente utilizzato. Nonostante il diffuso utilizzo, le procedure standardizzate proposte da Binet e Simon presentano alcuni limiti; in particolare è da segnalare come questa scala rilevi esclusivamente le abilità verbali ovvero un singolo aspetto dell’intelligenza. Oggi si preferisce parlare di misurazione di intelligenze multiple dove l’assunto base della teoria classica che prevede un fattore unitario misurabile tramite il Q.I., è riconosciuto in modo condiviso come errato (Gardner 1983; 1988; 1994; Halpern Le May 2000). Vengono identificate una serie di ambiti in grado di misurare l’intelligenza:

2. Intelligenza linguistica come abilità di espressione nell'uso del linguaggio e delle parole, nella padronanza dei termini linguistici e nella capacità di adattarli alla natura del compito. 3. Intelligenza spaziale, abilità nel percepire e rappresentare gli oggetti visivi,

manipolandoli idealmente, anche in loro assenza.

4. Intelligenza musicale, abilità che si rivela nella composizione e nell'analisi di brani musicali, nonché nella capacità di discriminare con precisione altezza dei suoni, timbri e ritmi.

5. Intelligenza cinestetica, abilità che si rivela nel controllo e nel coordinamento dei movimenti del corpo e nella manipolazione degli oggetti per fini funzionali o espressivi. 6. Intelligenza interpersonale, abilità di interpretare le emozioni, le motivazioni gli stati

d'animo degli altri.

7. Intelligenza intrapersonale, abilità di comprendere le proprie emozioni e di incanalarle in forme socialmente accettabili.

8. Intelligenza naturalistica, in grado di classificare e riconoscere gli oggetti naturali

In ogni caso, bisogna sottolineare come i riferimenti all’intelligenza siano sempre meno frequenti quando si parla di test di misurazione degli apprendimenti.

L’attenzione si concentra sugli aspetti cognitivi e processuali di risoluzione dei test più che sugli aspetti legati alla semplice e acritica misurazione dei risultati.

È possibile quindi, nel momento i cui viene costruito un test, progettare misurazioni che spaziano ampiamente su quelli che possono essere gli ambiti del percorso disciplinare che una determinata scuola può prefiggersi come obiettivi.

D’altro canto rimane però vero che i test di apprendimento risultano essere degli strumenti imperfetti perché, come si vedrà, hanno dei limiti legati all’elaborazione e alla possibilità di approfondimento di specifici aspetti. La standardizzazione delle risposte e la possibilità di generalizzazione limita la condizione di concentrarsi sulle specificità di casi singoli (Corbetta 1999).

In riferimento alla seconda questione relativa al problema che le indagini internazionali possano non coprire l’eterogeneità dei temi trattati nei diversi curricola scolastici dei paesi, è da notare come queste (tra cui l’indagine PISA) si stiano sempre più orientando verso la rilevazione di competenze ritenute basilari a tutti i futuri cittadini di tutti i paesi; queste competenze prescindono dagli specifici contenuti dei programmi disciplinari e dalle abilità e conoscenze. Nonostante ciò alcuni problematiche sembrano ancora poco risolte: l’impostazione PISA non riesce ad eliminare una serie di caratteristiche “anglocentriche” in alcuni passaggi che risultano

Nel questionario studenti, ad esempio, l’indicatore del senso di appartenenza (domanda Q31 del questionario studente Pisa 2000) se disaggregata secondo un’analisi delle componenti principali, mostra specificità culturali molto diverse tra gli studenti delle diverse aree continentali.

Un altro aspetto che segna la centralità del pensiero di matrice anglossone è facilmente inditificabile nel questionario rivolto ai presidi: sono moltissime le domande che chiedono di descrivere i livelli di autonomia delle scuole nelle diverse attività; in realtà il modello di autonomia dei sistemi scolastici caratterizza in misura ancora ridotta un sistema come quello italiano dove quindi questa serie di domande risulta ridondante.

4.2.2 La costruzione degli items

Il secondo punto di problematicità che è stato segnalato, rivolge la sua attenzione alle modalità di costruzione delle prove: la letteratura di settore è ricchissima di studi, soprattutto di matrice anglosassone, volti a dimostrare come la costruzione dei test sia fortemente influenzata dal punto di vista delle classi dominanti: ciò determina test più semplici per gli studenti che fanno parte di questo gruppo (con relativi output di performance migliori) e più difficili per i gruppi etnici svantaggiati (che notoriamente hanno performance più basse). (Gould 1981; Ciancialo, Sternberg 2007; De Mars 2000; Ackeman 1992) .

Negli Stati Uniti nel 1994 si sollevò un vivacissimo dibattito a seguito della pubblicazione del libro di Herrnstein e Murray, “The Bell Curve” sui risultati degli apprendimenti nelle etnie che compongono la popolazione americana. Gli autori attribuiscono una maggiore intelligenza ad alcune etnie rispetto ad altre: i risultati dei test mostrano una maggiore intelligenza degli ebrei ashkenaziti e degli orientali e, a seguire in ordine decrescente, dei bianchi europei, degli afroamericani e degli ispanici. Le considerazioni presenti nella pubblicazione di Herrnestein e Murray di un fattore “g” in alcuni gruppi etnici scatenarono le critiche di numerosi ricercatori. In primo luogo venne sottolineato come i test di QI subiscano condizionamenti culturali da parte di coloro che li producono e vanno quindi a premiare i rispondenti che hanno maggiore familiarità con alcune idee e conoscenze. I bambini bianchi di classe media risultano favoriti perché hanno nel loro bagaglio di esperienza le forme di ragionamento astratto che sono necessarie per sviluppare i test. Questi studiosi fanno notare che se i test fossero costruiti da ideatori appartenenti ad altri gruppi sociali sarebbero gli studenti appartenenti a questi ultimi a risultarne favoriti (Barbagli, Bagnasco, Cavalli 1997).

In secondo luogo molti studi che criticarono le teorie di Herrnstein e Murray cercarono di dimostrare l’effetto dell’origine socio-economica sui risultati dei test delle diverse etnie: i gruppi in

migliori avrebbero un vantaggio nelle prestazioni (Glauberman 1995; Kinchelope, Steinberg, Gresson, 1996; Steele, Aronson 1995). Non viene messo in discussione, da parte di questo gruppo di autori che l’intelligenza sia in parte innata ed in parte appresa e quindi dovuta sia a fattori ereditari e sia ambientali: viene però ribadito che è necessario tenere presente i fattori ambientali.

La presenza di uno o più aspetti che possono influenzare la percezione del test in modo non univoco da parte degli studenti trova una sua collocazione specifica negli studi di settore che va sotto il nome di DIF.- Differential Item Functioning (Roussos, Stout 1996). Questa branca della psicometria si preoccupa di studiare quegli items che, se sottoposti a gruppi sociali diversi per caratteristiche (ad esempio di genere o etniche), presentano, a parità di abilità, probabilità differenti di risposte corrette. La psicometria si è occupata largamente di questo approccio per localizzare gli items con un comportamento anomalo o in grado di danneggiare specifici gruppi rispetto ad altri; l’obiettivo conclusivo degli studi di DIF è rimuovere o correggere la parte di item che determina l’errore (Carlton, Harris 1989; Scheuneman, Gerritz, 1990; Wild, McPeek 1986; Cohen, Ibarra 2007). Il presupposto che guida questo tipo di approccio è quello che i gruppi sociali che differiscono per caratteristiche etniche o di genere si muovano in sistemi culturali differenti dove questi ultimi non sono unità omogenee e compatte ma set complessi e interrelati che modellano e formano gli individui nei gruppi (Ibarra 2001, Hall 1993)

Per evitare il rischio delle influenze di specifici test che possano avvantaggiare specifici gruppi sociali, in molte indagini internazionali, sono stati utilizzati degli strumenti di valutazione, detti “test interculturali", che contengono soltanto elementi comuni a diverse culture. Questa impostazione teorica ha avuto il merito di evidenziare come il ricorso ad uno strumento "testistico" non possa misurare un determinato tipo di comportamento senza tenere conto dei fattori culturali che ne hanno condizionato lo sviluppo (Boero 2004). Come si vedrà nel paragrafo 2.2, anche l’indagine internazionale PISA ha costruito un framework di competenze di base ritenute essenziali in tutti i paesi che hanno partecipato all’indagine.

4.2.3 L’addestramento ai test

L’utilizzo dei test come strumento di riferimento nella valutazione degli apprendimenti è percepito con timore da una parte preponderante del corpo insegnante: uno dei pericoli principali è infatti quello di vedere nel tempo lo sviluppo di pratiche di addestramento ai test. Uno dei problemi che si pone nell’utilizzo di test standardizzati, soprattutto se a risposta chiusa, è quello che gli studenti mettano a punto strategie di superamento degli stessi a discapito di un percorso

Come si vedrà, il programma PISA cerca di ovviare al problema dell’addestramento ai test utilizzando oltre ai quesiti a risposta chiusa univoca, anche quelli a risposta multipla e aperta: Pisa non è quindi solo un sistema di valutazione delle performance ma è uno strumento in grado di offrire opportunità di riflessione e approfondimento per costruire le attività didattiche perché approfondisce pratiche di processo di apprendimento. Inoltre, nell’indagine, è costantemente in fase di studio l’implementazione di nuove tecniche e nuove modalità di risposta ai test in grado di rendere il più possibile attiva e propositiva la partecipazione dei rispondenti. Gli stessi ideatori dei sistemi di accountability riconoscono la necessità di sviluppare ed integrare forme di valutazione delle competenze alternative ai test che consentano di valutare il più possibile i processi oltre che i prodotti (diari durante prove ed interviste, colloqui ed interviste durante le attività di risoluzione dei problemi, saggi scritti su argomenti matematici, registrazioni e videoregistrazioni, preparazione di lezioni per compagni di classi inferiori, relazioni ai genitori su quanto viene svolto in classe). L’insieme di queste forme di valutazione è ritenuto fondamentale nel percorso di certificazione di conoscenze e competenze acquisite dello studente.