Il presupposto operativo della generalizzabilità: l’equalizzazione dei test

7.3 Metrica, oggettività specifica e rapporto tra item e soggetti

7.3.2 Il presupposto operativo della generalizzabilità: l’equalizzazione dei test

La problematica della metrica è importantissima perché i principi d’invarianza e oggettività specifica (ma anche la costruzione dei logit stessi) partono dal presupposto che i parametri stimati giacciano su una medesima scala, cioè siano calibrati in modo del tutto confrontabile. Diversamente, anche se le stime rispecchiassero in pieno le pro- prietà d’invarianza, ci ritroveremmo a commentare valori diversi dello stesso parametro in situazioni diverse. Una piena generalizzabilità di stime che siano indipendenti dalla situazione di misurazione, richiede la confrontabilità delle metriche e la possibilità di trasformarle tutte in una comune. Tale procedimento di allineamento è noto come test

equating [Lord 1980; Hambleton, Swaminathan e Rogers 1991; Baker 2001] e ha biso-

gno di riferimenti (che siano soggetti o che siano item) attorno ai quali stimare le diffe- renze tra le calibrazioni di due o più scale a intervalli: una volta stabilito il gap, si pos- sono traslare le stime in modo che coincidano su una stessa scala.

Per esempio, uno stesso campione di soggetti può avere eseguito due test, di diffi- coltà media diversa. Ogni test può essere stato calibrato, per esempio, in modo che la media delle difficoltà degli item sia pari a zero. Adesso, però, si tratta di fare in modo che l’abilità media sia uguale nei due test, perché essa è riferita allo stesso campione e deve, in linea di principio, coincidere al di là dell’occasione di misurazione. Sulla prima scala i soggetti hanno, poniamo, un’abilità media pari a 0,237, mentre sulla seconda scala gli stessi individui hanno abilità media pari a -0,089. A questo punto si deve decidere, in modo chiaramente arbitrario ma non senza ricorrere a considerazioni teoriche, quale scala sarà quella la cui metrica diverrà comune. Poniamo, quindi, che in base a rifles- sioni teoriche, si decida di utilizzare la metrica del secondo gruppo: è necessario a que-

96_{Notiamo di passaggio che l’autrice spinge oltre la sua critica, sostenendo che una volta assegnate le}

proprietà salienti del modello di Rasch al campo della misurazione fondamentale, nell’ambito della misu- razione by fiat i test classici conserverebbero addirittura dei vantaggi e si mostrerebbero superiori per quanto riguarda l’interpretazione dei punteggi.

124

sto punto traslare le stime del primo gruppo di una quantità pari alla differenza tra le loro abilità medie. In questo caso, tale differenza è pari a

𝛽1

̅̅̅ − 𝛽̅̅̅ = 0,237 − (−0,089) = 0,326 2

Si deve quindi trasportare ogni parametro, individuale e di item, di una costante pari a 0,326 per arrivare alla nuova metrica comune.

Teoricamente, calibrando ed equalizzando, si può arrivare a costruire vere e pro- prie banche dati di item pre-calibrati, pronti per essere utilizzati su campioni diversi (vedi nota 89). Di per sé, questa possibilità apre l’orizzonte a benèfici effetti nel campo della generalizzazione dei risultati e della comparazione tra campioni e popolazioni diverse. Il “sogno” di molte grandi ricerche nella storia della sociologia è stato proprio quello di poter confrontare grandi moli di dati riguardanti indagini comparative, oppure poter utilizzare strumenti comparati di testata affidabilità97. Qua però torna in campo, di nuovo, la grande questione dei differenziali di significato e del concetto di validità.

7.3.3 Contesto e significato in rapporto agli assunti

Uno degli assunti fondamentali del modello di Rasch, comune a quasi tutti gli ap- procci di misurazione, è che la risposta a un item sia indipendente dalla situazione, ivi comprese quindi le risposte agli altri item. Qui s’incontrano evidentemente dei nodi cri- tici, riconducibili almeno a due grandi ordini di problemi.

Il primo ordine di problemi riguarda il contesto stesso della rilevazione. Proprio Whitely e Dawis [1976] sollevano, in base a ricerche ad hoc, il problema per il modello di Rasch dei possibili effetti dell’ordine di presentazione degli item e della loro sistema- zione in batterie con specifiche caratteristiche, sui risultati di un test. Tale distorsione può essere ben più pericolosa nell’ambito dei test di abilità, sotto forma di effetto di ap- prendimento; ciò non toglie che anche nel campo di studio degli atteggiamenti le regole di somministrazione dei test possano avere ricadute sull’impatto cognitivo ed emotivo di talune affermazioni e quindi sulla risposta dei soggetti. Alla presenza di tali fenome- ni, l’indipendenza locale del modello si trasforma in una chimera, così come

125

l’invarianza dei parametri stimati: principalmente perché la distorsione della difficoltà degli item produce effetti a catena che partono dalla calibrazione delle stime e toccano tutti gli aspetti che ne derivano più o meno direttamente.

Il secondo ordine di problemi riguarda l’inevitabile variabilità legata alla sfera dei significati. Gli item sono pur sempre frasi, affermazioni, definizioni, espressioni verbali veicolate con un certo linguaggio e in un determinato contesto. E quando si ha a che fare con “portatori” di significato, il ruolo di quest’ultimo non può essere in alcun modo accantonato. In particolare, in letteratura si rileva l’evenienza che individui con deter- minate caratteristiche (e quindi certi gruppi di individui associati a tali caratteristiche) con una stessa quantità di proprietà sul tratto latente, possano avere probabilità diverse di superare un item. Si fa in generale riferimento a questo fenomeno con l’espressione

differential item functioning (già citato in nota 82). In pratica, sulla base di determinati

caratteri culturali, etnici, di genere, d’istruzione ecc. la curva di probabilità di uno stesso

item può cambiare tra diversi sottogruppi, negando quindi il principio d’invarianza del

parametro δ rispetto a diversi campioni. Tale meccanismo ci pare possa presentarsi con una certa verosimiglianza nella sfera degli studi sugli atteggiamenti: la dimensione cul- turale ha un peso rilevante nello stabilire gerarchie di comportamento e opinione ed è acquisizione comune che in ogni sottogruppo della popolazione possano esistere riferimenti e ordinamenti di valore parzialmente diversi. Possedere lo stesso grado di tolle- ranza in ambienti sociali e geografici diversi, può condurre a esiti differenti nel giudi- carne il livello latente in una certa affermazione a essa riferita. Per questo ogni indagine dovrebbe preoccuparsi di osservare l’eventuale incidenza di questi meccanismi, che al- terano in modo radicale le pretese di oggettività e invarianza del modello di Rasch.

Nel documento La misurazione nella ricerca sociale: il modello di Rasch e la teoria della misurazione additiva congiunta (pagine 123-125)