• Non ci sono risultati.

Unicità della scala, linearità dei punteggi e unità di misura

7.2 Le proprietà del modello di Rasch: discussione

7.2.1 Unicità della scala, linearità dei punteggi e unità di misura

Come si è detto, una delle caratteristiche dei modelli della IRT (e di quello di Rasch) è interpretare i livelli di proprietà di soggetti e item (abilità e difficoltà, rispetti- vamente) come parte di un unico continuum latente, da rappresentare su un’unica scala lineare. Inizialmente, però, le uniche informazioni possedute sulle quantità di As e Di

sono costituite dai punteggi grezzi del test, ossia la somma del numero di item superati da ciascun soggetto e la somma del numero di soggetti che supera ciascun item. Tale punteggio grezzo non rappresenta però una metrica adeguata e tantomeno lineare. Già nel primo capitolo, trattando dei modelli deterministici e della derivazione dei punteggi secondo diversi principi, si è osservato che essi non possono rispecchiare di per sé la struttura di una scala a intervalli, poiché le distanze relative, all’interno del continuum, cambiano a causa dello schiacciamento delle categorie agli estremi [Edwards 1957; Wright e Masters 1982; Marradi 2007]. Ora, tale incongruità si ripercuote anche sulle quantità di As e Di, che possiamo definire come segue sulla base dei punteggi grezzi

[Maggino 2007]:

𝐴𝑠 = 𝑟𝑠

𝑛−𝑟𝑠 (eq. 7.15)

𝐷𝑖 =𝑁−𝑦𝑖

𝑦𝑖 (eq. 7.16)

dove: n è il numero totale di item N è il numero totale di soggetti

rs è il numero di item superati dal soggetto s (il punteggio grezzo) yi è il numero di soggetti che hanno superato l’item i

Come si vede, queste definizioni rispecchiano la condizione che As sia proporzio-

nale in modo diretto al numero di risposte positive e in modo inverso a quello di rispo- ste negative date da s (odd correct); viceversa, Di è proporzionale in modo diretto al

96

numero di soggetti che rispondono negativamente e in modo inverso al numero di sog- getti che rispondono positivamente all’item i (odd incorrect). Calcolando i logaritmi delle due quantità (che, ricordiamo, sono β e δ), si ottiene un doppio vantaggio. In primo luogo, essendo logaritmi di un rapporto (tra punteggi), possono essere trasformati e in- terpretati come differenze lineari tra logaritmi (dei punteggi). In secondo luogo, entram- be le quantità sono armonizzate e riparametrate su una stessa scala e la loro differenza si distribuisce lungo tutti i valori tra -∞ e +∞. Anche da un punto di vista concettuale, tale ridefinizione predispone il terreno per “trasformare la metrica semplice ma non lineare dei punteggi grezzi in una nuova metrica (lineare) che invece tenga conto delle distanze concettuali tra soggetti e tra item” [Giampaglia 2008, 48].

Il logaritmo naturale del rapporto tra As e Di è uguale alla differenza dei loro loga-

ritmi, cioè la differenza tra β e δ. Nel caso del modello di Rasch, tale differenza ha un’interpretazione ben precisa: essa è il logaritmo dell’odd ratio delle probabilità, ossia il rapporto tra la probabilità di superare l’item e quella complementare di non superarlo. Tale quantità prende il nome di logit per xi = 1. Formalmente, quanto enunciato si dimo-

stra così: 𝑙𝑜𝑔𝑖𝑡(𝑋 = 1) = 𝑙 𝑛𝑃(𝑋=1) 𝑃(𝑋=0)= 𝑙𝑛 𝑒𝛽−𝛿 1+𝑒𝛽−𝛿 1 1+𝑒𝛽−𝛿 = 𝑙𝑛𝑒𝛽−𝛿 = 𝛽 − 𝛿 (eq. 7.17)

Se il logit è negativo, il soggetto ha una probabilità di superare l’item inferiore a 0,5; se il logit è positivo, la probabilità è superiore a 0,5; se il logit è uguale a 0, la pro- babilità è uguale a 0,5. Se stessimo trattando un modello di tipo deterministico, il solo segno del logit (in generale, il segno della differenza tra As e Di) determinerebbe l’esito

della risposta prevista. Il modello di Rasch, invece, come i modelli della IRT in genere, concede la possibilità che si diano esiti “anomali” rispetto a una rigida visione determi- nistica e quindi che esista sempre una qualche probabilità non nulla che, per esempio, un soggetto possa fallire un compito posto al di sotto delle sue capacità o, viceversa, che possa completarne uno più difficile del suo livello.

In letteratura s’individua nel logit l’unità di misura della nuova metrica ottenuta trasformando i punteggi grezzi in punteggi logaritmizzati. Senz’altro, da un punto di vi-

97

sta sostanziale la definizione del logit ha il compito di interpretare la dimensione con- cettuale latente rielaborata e ancorare la scala su cui collocare i valori stimati dei para- metri di abilità e difficoltà. La proprietà rappresentata dalla scala è la “differenza tra il livello di abilità del soggetto e il livello di difficoltà dell’item” e il punto zero, in cui la proprietà si annulla, è il punto di equilibrio in cui il modello prevede che un soggetto abbia il 50% di probabilità di superare l’item descritto dalla curva. Cerchiamo di analiz- zare più a fondo il significato con cui si utilizza l’espressione unità di misura in questo caso e i motivi per cui si discosta da quello evocato nel primo capitolo a proposito della misurazione estensiva.

Assumiamo innanzitutto che i livelli di abilità e difficoltà siano effettivamente grandezze appartenenti a un medesimo attributo quantitativo. Di tale attributo si dà una definizione teorica, da cui discende un insieme di concetti operativizzabili che sono alla fine tradotti in una batteria di item. Il flusso teorico tra la dimensione latente e gli item si concretizza quindi in prima battuta in senso top-down. Il fatto che l’attributo quantitati- vo, collocato a un livello più alto nella scala di generalità, riguardi dimensioni attitudi- nali e sociali che risiedono nella sfera psicologica, non visibile agli individui, e non permetta di essere direttamente operativizzato, fa sì che gli indicatori stessi, a un livello più basso di generalità, svolgano una funzione connotativa supplementare rispetto alla definizione della dimensione latente. In altre parole, il modello prevede per la proprietà latente un insieme di concetti indicanti e una serie precisa di assunti sui loro legami strutturali interni e su quelli con la proprietà generale; l’eventuale non adattamento dei dati al modello stimato può voler significare che il pool di item selezionato non descrive una dimensione distinta, o che essa non è scalabile nel senso previsto dal modello. In ogni caso, questa componente bottom-up del flusso potrebbe portare a rivedere la defi- nizione teorica stessa del costrutto latente non osservabile ipotizzato. Questo doppio flusso costante tra livelli diversi è ben presente nell’ambito delle scienze sociali, dove più rara è la possibilità di trovare un consenso teorico forte sulla definizione delle pro- prietà latenti [Bruschi 1999]. Questo aspetto è un risvolto diretto della questione (evoca- ta nel Parte Prima) del dualismo nella misurazione tra funzioni che generano strutture e strutture che generano funzioni.

Nell’ipotesi che questo quadro delimiti verosimilmente la condizione della ricerca applicata sui costrutti attitudinali, torniamo alla questione dell’unità di misura e partia-

98

mo dal caso elementare in cui si confrontino un solo soggetto e un solo item66 rispetto alla comune proprietà in esame, perno dell’interesse della rilevazione. Tale confronto ha almeno due caratteristiche su cui dobbiamo volgere l’attenzione. La prima è che non si richiede in partenza nessuna unità di misura pre-definita, ossia non c’è una data quantità di tratto latente adottata come standard di misurazione, ma solo due quantità incognite incarnate nei due poli del confronto (individuo / espressione verbale). La seconda carat- teristica, condizionata dalla prima, è che la natura di tale confronto non riguarda la ripe- tizione di un’unità secondo una logica di concatenazione, bensì il controllo (attraverso le istruzioni della definizione operativa) di quale dei due enti esprima una quantità em- pirica maggiore dell’attributo definito67. In sostanza, questo procedimento elementare di

per sé investirebbe, sì, il confronto tra due grandezze, ma non produce come esito diret- to un rapporto tra esse.

Ripetendo tale operazione elementare su un insieme molteplice di item (da parte di una pluralità di soggetti) si giunge a una situazione analoga a quella prevista dal mo- dello deterministico di Guttman che, introducendo un criterio di cumulatività, può con- trollare la sussistenza di un principio di scalabilità ordinale, rinunciando però affatto al- la costruzione di una relazione metrica tra soggetti, tra item e tra soggetti e item. In que- sta prospettiva il modello unfolding di Coombs fa un successivo passo in avanti poiché, chiedendo agli individui di mostrare direttamente l’ordinamento di una serie di oggetti, riesce in determinate circostanze a ricavare anche informazioni sull’ordinamento delle

differenze di distanza tra gli oggetti, controllando la sussistenza di un principio di sca- labilità metrica ordinale.

Il modello di Rasch ambisce, invece, a esplicitare la supposta natura continua del- la dimensione latente su una scala a intervalli, trasformando gli esiti delle risposte agli

item in stime di parametri sotto forma di numeri reali. La chiave di volta è costituita

proprio dalla natura stocastica del modello e dall’assunto che la probabilità di superare un item si trovi in un determinato rapporto funzionale con la dimensione latente. In altre parole, la struttura empirica della dimensione latente (di cui le risposte agli item sono la manifestazione) è rappresentata sulla struttura formale della scala attraverso la media-

66 Nella pratica della ricerca un test è ovviamente composto di una pluralità di item, ritenuti capaci di

saturare nel modo più efficace possibile tutte le manifestazioni della dimensione latente.

67 Banalmente, tale controllo potrebbe concretarsi nella domanda “Lei è d’accordo o no con la se-

99

zione di una terza struttura, anch’essa formale, che è la funzione caratteristica dell’item, interpretata secondo una logica concettuale probabilistica.

Sottolineiamo che, a questo punto della trattazione, non ci stiamo occupando del problema della stima operativa dei parametri del modello e quindi dell’adattamento tra i dati effettivamente rilevati e la curva individuata come la più verosimile: i parametri stimati associati a quest’ultima possono condurre a previsioni dei risultati anche molto diverse rispetto ai dati osservati, spingendo a rivedere o rigettare il modello. Ma noi stiamo affrontando la discussione delle proprietà formali del modello astratto, proce- dendo come se ci trovassimo nel caso-limite teorico in cui l’adattamento dei dati è asso- lutamente perfetto e, quindi, i parametri stimati perfettamente coincidenti con quelli ri- cavabili direttamente dalle operazioni di logaritmizzazione dei rapporti tra punteggi grezzi; in tutti gli altri casi in cui ci si allontani da questo scenario ideale, naturalmente si osserveranno dei residui tra il set di dati e il modello teorico, più o meno elevati se- condo il caso.

La figura 7.2 mostra la relazione logaritmica esistente tra il rapporto delle proba- bilità (odd ratio) e le unità logit. I valori di P(X = 1) e P(X = 0), la cui somma è costante e pari a 1, stanno in una relazione di reciprocità inversa: una volta determinata la prima, la seconda seguirà per differenza. Quando la probabilità di superare un item è pari a 0,01 (e quella di non superarlo a 0,99), il loro rapporto è pari a 0, 01̅̅̅̅ e il valore del logit si attesta intorno a -4,6. All’opposto, quando 𝑃(𝑋 = 1) = 0,99 e 𝑃(𝑋 = 0) = 0,01, l’odd ratio è pari a 99 e il logit arriva a circa 4,6. Nel caso intermedio di equiprobabili- tà, l’odd ratio delle probabilità è ovviamente pari a 1 e il logit si annulla. Date queste diverse circostanze, si può concludere che in situazioni reali i valori del logit si collo- cheranno quasi esclusivamente nell’intervallo tra -4 e +4.

100

Fig. 7.2 – Curva logaritmica della relazione tra l’odd ratios delle probabilità e i logit

Quanto osservato porta a rilevare, in conclusione, che definendo il logit nei termi- ni di una “unità di misura”, si deve tenere presente l’uso in un’accezione diversa rispetto a quella corrente nella visione classica della misurazione. Riassumiamo alcune ragioni rilevanti, fermandoci agli aspetti concernenti la natura delle procedure di rilevazione e della struttura del modello68.

Il primo punto è legato al tipo di definizione teorica e operativa (in termini di grandezze estensive) dei concetti di proprietà e quindi della specificazione a priori di quantità standard. Si pensi a uno dei casi più semplici della misurazione nelle scienze fisiche, quello della lunghezza. Un’unità di misura convenzionale di tale dimensione è il

metro, di cui si dà una definizione operativa teorica molto precisa e fungibile (la distan-

za percorsa dalla luce nel vuoto in una certa frazione temporale) e che è possibile rico- struire materialmente sotto forma di oggetto che possiede la proprietà in questione e la esprime nella quantità stabilita. Nel caso della forma di misurazione adottata dal model- lo di Rasch la questione è diversa. Di una proprietà si può dare una connotazione gene- rale, anche molto dettagliata e pregnante, ma non si definisce a priori su quella base un’unità di misura. Piuttosto, si selezionano item che rappresentano manifestazioni di- stinte della proprietà lungo il continuum dimensionale, ogni item rappresentando una

68 Teniamo al momento ferme tutte le altre considerazioni epistemologiche riguardanti le peculiarità

degli “oggetti” delle scienze umane, la loro non fungibilità ecc. [Bruschi 1999; Marradi 2007].

-5 -4 -3 -2 -1 0 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 logit odd ratio

101

“soglia”, che sarà superata o no da ogni soggetto, dando informazioni sulle reciproche posizioni; ma l’insieme di tali soglie, il loro ordine e la stima della loro distanza sono di fatto ignote (seppur ipotizzate) prima della “misurazione” stessa e della verifica del mo- dello, poiché dipendenti dalle risposte degli individui, che sono a loro volta il riflesso della personale struttura interna delle opinioni esplicitate dagli item69.

Il secondo punto riguarda la procedura di rilevazione: se non c’è un’unità di misu- ra predefinita, non è possibile misurare giustapponendo un numero definito di volte tale unità, secondo una logica di concatenazione. Perciò la misura finale non sarà il frutto del rapporto tra una quantità ignota e una standard della stessa proprietà.

Con il terzo punto, infine, ci riferiamo al fatto che il logit, così come ricavato dalla stima del modello, serve piuttosto ex post a scalare e omogeneizzare il continuum, sulla base degli assunti richiesti dal modello e della struttura probabilistica, ancorando la sca- la al rapporto tra la quantità di proprietà del soggetto e quella dell’item: il punto zero è quello in cui un individuo ha la medesima probabilità di superare l’item e di non supe- rarlo, nel punto esatto di uguaglianza tra ciò che è definito teoricamente come la “capa- cità del soggetto” e la “difficoltà dell’item”. Queste caratteristiche della scala logit of- frono del resto importantissime potenzialità, poiché rendono possibili tutti i procedi- menti di calibrazione e confronto delle stime che, sfruttando le proprietà d’invarianza e oggettività specifica (che discuteremo in seguito), legittimano in via di principio il con- fronto di misurazioni diverse effettuate con campioni e item diversi, peculiarità molto potente e strategica nel modello di Rasch. Da questo punto di vista, la funzione del logit che riteniamo più decisiva non è tanto quella di unità di misura in senso classico quanto di unità di scala e calibrazione.