Elementi di Psicometria (con laboratorio software 1)
07-Introduzione ai test t (v. 1.2, 29 marzo 2021)
Germano Rossi1 germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
a.a. 2020-21
Sommario
1 Introduzione
2 Test per campione singolo
3 Test per campioni dipendenti
Differenza di due medie
Basandoci sulla distribuzione campionaria della media:
abbiamo visto la possibilità di verificare
la media di un campione rispetto ad una popolazione di cui conosciamo i parametri (𝜇 e 𝜎) [situazione solo teorica]
la media di un gruppo rispetto ad una popolazione di cui conosciamo solo il parametro della DS (𝜎)
ci sono altre possibilità:
La prima è: confrontare la media di un campione con il relativo parametro di una stima di popolazione (M = 𝜇)
La seconda è: due campioni appaiati o dipendenti (M1− M2= 0) La terza è: due campioni indipendenti fra loro (M1= M2), v. Cap.8
Differenza di due medie
Se non conoscessimo neppure la media della popolazione (situazione tipica in psicologia), non potremmo fare nessun tipo di inferenza Tuttavia, la maggior parte delle volte, noi non siamo interessati a sapere se un certo campione appartiene ad una certa popolazione...
ma a saperese due campioni provengono dalla stessa popolazione o da due popolazioni con parametri uguali
In questo caso, l’ipotesi nulla sarebbe che la differenza delle due mediesia nulla (𝜇1− 𝜇2 = 0)
da questa premessa nascono 3 diverse analisi dei dati che utilizzano la distribuzione t (derivata da quella normale)
Esempi
1 Ho misurato una variabile su un campione e lo voglio confrontare con i risultati di una ricerca precedente per vedere se le popolazioni statistiche sono uguali o meno (T-Test per campione singolo)
2 Ho misurato la stessa variabile prima e dopo un determinato evento e vorrei capire se l’evento ha influito sulla seconda misurazione (T-Test per campioni appaiati)
3 Ho misurato una variabile su un campione che può essere suddiviso in due sottogruppi, ad es. maschi e femmine (T-Test per campioni indipendenti)
Test per campione singolo: Esempio
Ho misurato il Fondamentalismo in un campione di TdG (N=35) La media del campione è M=148.6 e la dev. st. è 10.79
La scala di Fondamentalismo è stata applicata più volte in Italia e la media dei vari campioni è M=140
Utilizziamo il campione italiano come se fosse una popolazione e confrontiamo il nostro campione con un altro campione (con funzione di popolazione di riferimento)
Facciamo le ipotesi:
H0 : 𝜇c = 𝜇r = 140 H1 : 𝜇c ̸= 𝜇r
che possono essere lette come “la media da cui è stato estratto il campione è uguale alla media della popolazione di riferimento, cioè 140”
e “la media da cui è stato estratto il campione è diversa dalla media della popolazione di riferimento”
T-Test singolo: distribuzione campionaria
Per la media della distribuzione campionaria possiamo usare la media del campione (𝜇 = M)
𝜎 si può stimare tramite la deviazione standard del campione sM = s
√ N
Tuttavia i punti Z ottenuti da questa formula non si distribuiscono esattamente come una normale (se non per campioni con N superiore a 30), perché sM è solo una stima di 𝜎M
La famiglia di distribuzioni basata su sM si chiama distribuzione t (di Student)
Si tratta di una famiglia perché la curva di t cambia in base alla numerosità (o meglio ai “gradi di libertà ”)
Distribuzioni t (di Student)
Per fortuna ci sono le tavole di t (Tavola A.2 a p. 591)
Si usa la distribuzione t (con gl=N-1)
Per N > 30 la t si approssima alla normale (in rosso)
Tavola di t (esempio 1)
colonna 1: gradi di libertà
riquadro rosso: valori 𝛼 e tc (t critico) con H0 monodirezionale riquadro verde: valori 𝛼 e tc (t critico) con H0 bidirezionale Fonte: Aron, Coups, Aron p. 591
Tavola di t (esempio 2)
righe 1-2: valori 𝛼 con H0 monodirezionale righe 3-4: valori 𝛼 con H0 bidirezionale colonna 1: gradi di libertà
colonne successive: tc per i vari livelli di 𝛼 Fonte: Welkowitz p. 474
𝛼 a 5%
𝛼 a 1%
𝛼 a 1‰
Gradi di libertà
Il concetto di “gradi di libertà ” (gl o df, degree of freedom) è comune a tutta la statistica In linea di massima, i gl dipendono dalla numerosità o da altri fattori
Tendenzialmente, sono un fattore di correzione In questo caso, usiamo la media
Conoscendo la media, mi basta conoscere solo N −1 dei valori e l’ultimo lo posso calcolare N −1 dei valori sono liberi di variare
casualmente
ID Xi
a 1
b 3
c 2
d 1
e 2
f x
Media 2
l’ultima X, infatti, deve avere un valore tale che la somma di tutti i valori diviso N sia uguale alla media
2 × 6 = 12 1 + 3 + 2 + 1 + 2 = 9 12 − 9 = 3
Test per campione singolo: esempio
Riprendiamo l’esempio iniziale (slide 6, file datiDatiTdG.sav)
Ho un campione (N=35) con M= 148.6 e DS=10.79 Uso la media di riferimento (M = 140) dalla letteratura, ma non conosco 𝜎
Ipotizzo che il campione sia stato estratto casualmente dalla popolazione del campione di riferimento
H0: 𝜇c = 𝜇 = 140 e H1: 𝜇c̸= 𝜇
nel t-singolo, gl=N-1 𝛼= .05 (bidirezionale)
per gl=34 (sulla Tavola A.2, si trovano gl=30 e gl=35), usiamo gl=30
il t critico è: tc = 2.043
l’area di accettazione di H0 sarà compresa fra t = −2.043 e t = +2.043
l’area di rifiuto di H0 sarà per valori t < −2.043 e per t >+2.043
Test per campione singolo: formule
Ricordiamo le formule da usare:
la media di riferimento è la media del campione di riferimento
𝜇= M la stima della varianza della popolazione è
basata sulla DS del campione (Errore Standard)
sM = s
√ N
e la formula del test sarà t = M − 𝜇
sM = M − 𝜇
√s N
Test per campione singolo: esempio
A mano (arrotondati a 3 decimali)
t = 148.6−140
10.79√ 35
= 8.6
1.824 = 4.715
Il t critico è: tc = ±2.043 L’errore standard è 1.824 Usando DatiTdG.sav
In SPSS
Test per campione singolo: risultati dell’esempio
Risultati: t(34)=4.714, p < .001 (la differenza fra il calcolo a mano e quello in SPSS è dovuto agli arrotondamenti nei vari passaggi)
L’analisi dei dati ci ha portato ad un t(34)=4.714
Tramite il valore critico: il t trovato è più grande (in valore assoluto) di quello critico (tc = ±2.043), quindi siamo nell’area di rifiuto di H0
Tramite p: La probabilità associata a t(34)=4.714 è p < .001; è più piccola del livello 𝛼 = .05, quindi rifiutiamo l’ipotesi H0
Stima intervallare
Il test puntuale ci permette di accettare o rifiutare l’ipotesi nulla Ma l’ipotesi nulla è un singolo, specifico valore
Nell’esempio precedente, sappiamo che il campione con M=148.6 non è stato (probabilmente) estratto da una popolazione con 𝜇 = 140, ma potrebbe essere stato (probabilmente) estratto da popolazioni con 𝜇= 148 oppure 𝜇 = 149 oppure 𝜇 = 147... ma anche con 𝜇 = 150...
Se fossero possibili più ipotesi nulle, dovremmo calcolare più statistiche t
L’alternativa è usare la stima intervallare
Il test viene effettuato sulla differenza dalla media (M − 𝜇 = 8.6)
Stima intervallare T singolo 1
la differenza fra 𝜇 e M dovrebbe essere 0
l’intervallo di confidenza perciò (se vera H0) dovrebbe contenere lo 0 nell’esempio non è compreso (oscilla fra 4.89 e 12.31)
tc per gl=34 (calcolato in modo preciso per avvicinarmi ai risultati di SPSS) è 2.032245
Come è calcolato l’intervallo?
Stima intervallare T singolo 2
con ±tc× sM = ±2.032245 × 1.8243 = 3.707425 aggiungiamo e sottraiamo alla differenza della media:
8.6 ± 3.707425 = [ 4.8926 − 12.3074 ]
Questo significa che un campione con M = 148.6 può essere stato estratto da una popolazione che abbia una differenza dalla media di 140 compresa fra 4.8926 e 12.3074
In termini di media del campione, la media oscillerebbe fra 𝜇=140+4.8926=144.8926 e 𝜇=140+12.3074=152.3074
Ampiezza dell’effetto N
L’effect size (vers. non standardizzata) per il t-test per campione singolo si calcola come:
d = M − 𝜇
s = 148.6 − 140 10.793 =
√t
N = 4.714√
35 = 0.797
Dalla versione 27, SPSS calcola l’ampiezza dell’effetto per questo test (2 formule alternative)
Potenza N
Usando G*Power, possiamo fare un’analisi della potenza a priori
Il grafico mostra come l’area sottesa alla curva blu è molto grande; mentre il valore di 𝛽 è molto piccolo.
Le statistiche calcolate da G*Power indicano una potenza (1-𝛽) = 0.9955817 ovvero il 99.6%
Analisi della potenza N
Per l’analisi della potenza vi propongo 2 possibilità (su un video a parte) tramite Jamovi
tramite G*Power
Troverete tutto nel video 1920Elem - Cap. 7 (Potenza)
Assunti
1 La popolazione da cui è estratta la variabile si deve distribuire normalmente
ma noi non conosciamo la distribuzione della popolazione per questa variabile
tuttavia, gli statistici hanno studiato il comportamento del t-test per campione singolo, trovando che distribuzioni non normali producono risultati accettabili
Questa proprietà del test t per campione singolo è chiamata robustezza del test
SPSS: Gruppo singolo
Analizza | Confronta medie | Test T: campione unico Scrivere un valore di media in Valore oggetto del test Infine OK
Usando DatiSara.sav
SPSS: Gruppo singolo, risultati
Con N=100, gl=99, le tre analisi sono tutte significative;
lo zero non è compreso nell’intervallo
Come si riportano i risultati
Ipotizzando di usare la frequenza cardiaca misurata sugli studenti di Sara e confrontandoli con un battito cardiaco medio di 70
Esempio
Confrontando il battito cardiaco degli studenti di Sara (in situazione normale M=72.27 SD=3.22, prima M=73.85 SD=5.13 e subito dopo M=72.80 SD= 4.74 il presunto esame) con il valore medio della popolazione di 70, vediamo come le medie siano tutte significativamente significative (p<.001) e quindi possiamo ipotizzare che la frequenza cardiaca degli studenti, nella situazione di base è globalmente maggiore di quella considerata normale. Il battito cardiaco degli studenti di Sara è statisticamente superiore a quello della popolazione considerata nelle tre situazioni: misurazione di base t(99)=7.059, p<.001; pre-esame
t(99)=7.503, p<.001 e post-esame t(99)=5.908, p<.001.
Come si riportano i risultati
Usando il file dati DatiTdG.sav, usato nelle slide 6, 12, 14-24.
Esempio
Confrontando la media del campione di Testimoni di Geova con la media dei gruppi fondamentalisti di diverse nazioni (M=140), il test t per campione singolo risulta significativo, t(34)=4.714,p<.001, d=.797); il campione italiano di Testimoni di Geova ha un punteggio maggiore (M=148.6, SD=10.79).
Applicabilità
1 Quando si conosce la media della popolazione (𝜇) ma non la deviazione standard (𝜎)
2 Per confrontare la media di un campione con i risultati di una precedente ricerca pubblicata (media usata come stima della media della popolazione)
3 Per confrontare un singolo soggetto (il suo punteggio diventa la stima della popolazione) con il campione
Cosa si usa
1 variabile quantitativa dipendente su cui verrà calcolata la media 1 valore utilizzato come media della popolazione
Confronti dipendenti o appaiati
Dipendenti: sono dipendenti due misurazioni che potrebbero essere legate fra loro; la prima misurazione potrebbe
influenzare la seconda ad es. se misuro la stessa variabile prima di un evento e poi anche dopo
se utilizzo due scale che misurano la stessa cosa se confronto due sottoscale dello stesso test psicologico
Appaiati: sono appaiati quando le risposte vengono fornite da individui che possono
influenzarsi a vicenda marito-moglie, colleghi di lavoro, fratello-sorella quando, in base a variabili indipendenti, mi aspetto lo stesso risultato: un campione patologico e un campione non patologico appaiato per età, genere o ....
Le misurazioni di questo tipo sono anche chiamate “misure ripetute”
Test per campioni dipendenti
Si parla preferibilmente di campioni dipendenti (anziché appaiati) perche i punteggi dei casi statistici sono in qualche modo legati fra loro (o si ipotizza che lo siano)
Si può usare una versione del t-test che si basa sulle differenze fra i punteggi dei singoli casi
La differenza sostanziale è che si usa la media delle differenze D = X1− X2
Si assume che i punteggi debbano essere uguali e quindi la loro differenza sia nulla si fa poi riferimento alla distribuzione campionaria della media delle differenze
Test per campioni dipendenti: riepilogo
Ladistribuzione campionaria della media delle differenzesi approssima a una t con gl=N-1 dove N equivale al numero di coppie appaiate per la statistica si usa D = Xi 1− Xi 2
l’ipotesi nulla è che 𝜇D = 0, se i punteggi della coppia sono uguali, la differenza sarà 0
la statistica puntuale si calcola con
t= D − 𝜇D
sD
√ N
= D −0
sD
√ N
con df = N − 1 quella intervallare con
D − t × sD < 𝜇D < D+ t × sD
Procedimento manuale 1
ID D P
1 97 89
2 68 57
3 85 87
4 74 76
5 92 97
6 92 79
7 100 91
8 63 50
9 85 85
10 87 84
11 81 91
12 93 91
13 77 75
14 82 77
Usando i dati del fileWCE13c11eser6.xlsx 14 persone misurate P(rima) e D(opo) una certa condizione sperimentale
facciamo la differenza fra D e P per ogni coppia:
di = Di− Pi (di solito “dopo-prima”)
Facciamo la media delle differenze di: 3.3571 Calcoliamo la deviazione standard di di: 6.912721 Calcoliamo t:
t = d −0
sd
√ N
= 3.3571
6.912721√ 14
= 3.3571
1.847502 = 1.817102
Fonte: Welkowitz (2009) p.198
Procedimento manuale 2
Riepilogo
N = 14 d = 3.3571 sd = 6.912721 Er.St.=1.847502 t = 1.817102
Cerchiamo sulla Tavola A.2 (Aron, p.591) N − 1 = 14 − 1 = 13 gradi di libertà, il valore critico al 5% bidirezionale (.05, quinta colonna) e troviamo ±2.161)
Dal momento che 1.817102 è minore di 2.161, il nostro t cade nell’area del 95% e non in una delle due code (del 2.5%) Il nostro t non è significativo
se calcoliamo l’intervallo di fiducia al 95%, troviamo [-0.6353298 – 7.349574]
Lo 0 è compreso nell’intervallo, non c’è significatività
Ampiezza dell’effetto
L’effect size per il t-test per campioni dipendenti (proposte formule diverse, usiamo quelle dei software)
Dalla vers. 27, SPSS calcola l’ampiezza dell’effetto
Analisi della potenza N
Per l’analisi della potenza vi propongo 2 possibilità (su un video a parte) tramite Jamovi
tramite G*Power
Troverete tutto nel video 1920Elem - Cap. 7 (Potenza)
Assunti
Sostanzialmente simili a quelli del test t per campione singolo 1 La popolazione da cui è estratta la variabile si deve distribuire
normalmente
anche il t-test per campioni dipendenti (o appaiati) è considerato un test robusto
con l’eccezione di quando si ha un’ipotesi di ricerca mono-direzionale e la variabile è molto asimmetrica
SPSS: Campioni appaiati
Usando WCE13c11eser6.xlsxin SPSS
Analizza | Confronta medie | Test T: campioni appaiati
In Variabili appaiate bisogna inserire due variabili quantitative che verranno confrontate fra loro a coppie
Infine OK
SPSS: Campioni appaiati
Usando WCE13c11eser6.xlsxin SPSS
La stima puntuale (quadro verde) ci dà lo stesso t calcolato a mano (1.817) La probabilità associata alla stima puntuale è p=.092 (9.2%, non significativo) La stima intervallare (quadro rosso) ci da gli estremi delle popolazioni possibili Il valore 0 è incluso nell’intervallo (è la nostra ipotesi nulla, non significativo)
SPSS: Campioni appaiati
Usando DatiSara.sav
Per ogni coppia di variabili c’è una sola riga di statistiche
Come si riportano i risultati
14 persone sono state misurate 2 volte, prima (Y) e dopo (X) essere stati sottoposti ad una certa condizione sperimentale (v. slide 31)
Esempio
La differenza fra la misurazione Prima (M=80.643, DS=13.293) e quella Dopo (M=84, DS=10.756) non è statisticamente significativa,
t(13)=1.817, p=.092, d=0.486. Questo significa che la condizione sperimentale non ha prodotto un effetto sufficientemente grande e anche se l’ampiezza dell’effetto è media, la scarsa numerosità non permette di fare affidamento su tale informazione.
Il valore dell’ampiezza dell’effetto (e il relativo commento) può essere eliminata, visto che il test non è significativo. Questo dipende dallo scopo della ricerca e dallo scopo dell’articolo (o report) che si sta scrivendo.
Applicabilità
Per confrontare la media di una variabile misurata due volte in uno stesso caso statistico
Cosa si usa
2 variabili quantitative (entrambi dipendenti) su cui viene calcolata la media delle differenze (una per ciascun gruppo)
il motivo per cui la variabile è stata misurata due volte, è la variabile indipendente
le due variabili dipendenti devono avere lo stesso intervallo teorico:
se è la stessa variabile misurata 2 volte, è vero
se è la stessa variabile misurata su due casi statistici appaiati, è vero se sono due sottoscale di un test psicologico, siamo sicuri che misurino aspetti diversi dello stesso costrutto, ma dobbiamo anche assicurarci che l’intervallo teorico sia identico (ad es. entrambe le sottoscale devono avere un intervallo 0-10 o 6-36, ecc.)