Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi

(1)

Elementi di Psicometria con Laboratorio di SPSS 1

12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014)

Germano Rossi¹

1Dipartimento di Psicologia, Università di Milano-Bicocca

(2)

Confronto di medie

In psicologia, è difficile conoscere i parametri della popolazione ed è difficile voler “conoscere” i parametri della popolazione perché sappiamo che le persone non sono tutte uguali e perché sappiamo che le persone “cambiano” con il tempo e l’esperienza

La maggior parte delle volte, vogliamo vedere se c’è una differenza fra:

gruppi differenti: quando voglio sapere se maschi e femmine si comportano diversamente oppure giovani-anziani, fratelli gemelli- non gemelli, lavoratori-disoccupati, operai - impiegati-dirigenti. . . misure ripetute: quando vogliamo studiare una differenza fra due o più misurazioni della stessa variabile sulla stessa persona ad es.

prima e dopo uno stimolo particolare, prima e dopo un intervento educativo, lo stesso test a distanza di tempo. . .

(3)

Confronto di medie

In statistica inferenziale una particolare tecnica di analisi ha lo scopo specifico di confrontare fra loro due medie per vedere se sono uguali o diverse

È ilt di Student (spesso abbreviato in t-test)

1 Quando si applica a misurazioni ripetute, viene chiamato confronto di medie per campioni appaiati(oppuredipendenti o correlati)

2 quando si applica a gruppi differenti, viene chiamatoconfronto di medie per campioni indipendenti(oppurenon correlati)

(4)

Confronto di medie: dipendenti/indipendenti

Nel confronto di medie abbiamo sempre l’assunto che una variabile dipenda da un’altra

Lavariabile dipendente è la variabile misurata (test psicologico, aggressività, memoria, . . . )

Lavariabile indipendente è il motivo per cui l’abbiamo misurata:

per i campioni appaiati potrebbe essere il tempo trascorso, l’intervento sperimentale. . .

per i campioni indipendenti è la variabile che viene usata per distinguere i gruppi (maschio/femmina, madre

lavoratrice/casalanga, . . . )

L’ipotesi che ci guida è che l’indipendente abbia un’influenza sulla dipendente (ad es. maschi più aggressivi delle femmine;

apprendimento migliore con una certa tecnica di insegnamento)

(5)

Confronti dipendenti, appaiati, correlati

Tutte le volte che capits di confrontare fra loro due variabili misurate sullo stesso campione (ad es. situazioni prima/dopo) abbiamo uncampione dipendente, in quanto la misurazione

“post” potrebbe dipendere dalla “pre”

Oppure capita di lavorare concampioni appaiati:

casi statistici che sono legati fra loro (as es. coppie moglie-marito) casi statistici che sono stati appaiati a posteriori (ad es. per verificare che un piccolo campione estratto da una “popolazione patologica” si differenzi effettivamente da un piccolo campione estratto dalla “popolazione normale”

(6)

Confronti dipendenti, appaiati, correlati

Se per qualche motivo le due misurazioni sono appaiabili, ci si aspetterà che:

i diversi casi statistici non necessariamente abbiano gli stessi valori (è possibile che ci sia grande variabilitàfra i casi statistici)

lo stesso caso statistico abbia lo stesso valore o valore vicini (piccola variabilitàentro ciascun caso statistico)

Possiamo allora ipotizzare (ipotesi nulla) che la differenza dei punteggi di ogni caso sia nulla (X₁= X₂ ovvero X₁− X₂ = 0) e di conseguenza, se è vera l’ipotesi nulla, la somma di tutte le differenze è 0 (D = X₁− X₂= 0)

(7)

Confronti dipendenti, appaiati, correlati

A questamedia delle differenze (D = X1− X₂) applichiamo il procedimento della distribuzione campionariadella media delle differenze

Questa distribuzione si approssima a una curva t con gl = N − 1 dove N equivale al numero di coppie appaiate

La curva di t è simile alla normale ma è differente quando N è piccola e diventa praticamente normale quando N è grande

(8)

Distribuzioni t (di Student)

La curva t si calcola come un punto z, ma si usa l’errore standard al posto della deviazione standard

La curva di t cambia in base ai gradi di libertà Esistono le tavole di t (Appendice C a p. 311) Per N > 30 la t si approssima alla normale

(9)

I punti z e le medie campionarie

A questo punto abbiamo:

1 La media del nostro campione (D)

2 La media della distribuzione campionaria (cioè 0)

3 L’errore standard delle medie campionarie

Possiamo usare la formula dei punti z per trovare la posizione del nostro campione rispetto a tutti gli altri campione della medesima ampiezza

Usiamo (1) come punteggio; (2) come media e (3) come deviazione standard

(10)

I punti z e le medie campionarie

Possiamo calcolare il punto z e poi trovare l’area corrispondente

z = X−X

s ⇒ t = X−µ_x

σ_x = X − µ

√σ N

In questo caso ilpunteggio grezzo è la media del campione, lamedia di riferimento è quella della popolazionee ladeviazione standardper

cui dividiamoè l’errore standard della mediacampionaria

(11)

Tavole significatività per t

Una volta calcolato il t, usiamo le tavole di t

La tabella a p.124 riporta per ogni grado di libertà i valori che identificano il 2.5%

estremo delle code

Per gl=5, i valori ±2.57 indicano i valori estremi

Ovvero, valori di t compresi fra -2.57 e +2.57 sono non significativi (accettiamo H ) e indicano che è abbastanza probabile ottenere un campione in cui le due

(12)

Tavole significatività per t

L’appendice C riporta una tavola più completa e più precisa

Per ogni per ogni grado di libertà, sono riportati i valori (chiamati “critici”) per il 10%, 5%, il 2% e l’1% (riga “Due code”)

Vediamo che per gl=5 il valore critico al 5% è 2.571 (approssimabile a 2.57) Questo valore è senza segno, ma va interpretato come se fosse −2.571 e +2.571

(13)

Procedimento manuale

Usando i dati del file Welk_c11eser6.sav (N=14) facciamo la differenza fra X e Y: d = X − Y

Facciamo la media dei 14 valori d trovati: 3, 3571 Calcoliamo la deviazione standard: 6, 912721 Calcoliamo t:

t = d qs²_d

N

= 3, 3571 q6,912721²

14

= 1, 817

Cerchiamo sulla tabella 12.1 (p.124) N − 1 = 14 − 1 = 13 gradi di libertà, il valore critico al 5% (pari a ±2.16)

(14)

Verifica SPSS del procedimento manuale

Carichiamo in SPSS il file Welk_c11eser6.sav Calcoliamo il t-test appaiato (istruzioni prossimo lucido)

Media e devia. st. delle differenze sono analoghi te gradi di libertà sono identici

questa volta, SPSS ci dà la probabilità associata ad un t = 1.817 per gl = 13. La probabilità (espressa come proporzione) è .092, quindi il 9.2%

Pur essendo piccola, rientra ancora nell’area del 95%; quindi non

(15)

SPSS: Campioni appaiati

Analizza | Confronta medie | Test T: campioni appaiati

In Variabili appaiate bisogna inserire due variabili quantitative che verranno confrontate fra loro a coppie Infine ^OK

(16)

SPSS: Campioni appaiati

Statistiche per campioni appaiati

Media N Deviazione std. Errore std. Media Coppia 1

ans_p 19,580 100 6,4325 ,6433

ans_d 19,400 100 4,7694 ,4769

Correlazioni per campioni appaiati

N Correlazione Sig.

Coppia 1 ans_p e ans_d 100 ,718 ,000

Test per campioni appaiati

Differenze a coppie

t df Sig. (2c) Intervallo al 95%

Media Dev.st. ER Media Inf Sup

ans_p - ans_d ,1800 4,4798 ,4480 -,7089 1,0689 ,402 99 ,689

(17)

Avvertenze

Questo test statistico viene usato in diverse situazioni, purché ci siano due variabili misurate sullo stesso caso

Nel caso di campioni correlati o appaiati, la correlazione delle due variabili dovrebbe essere medio-alta, altrimenti l’assunto di d = 0 non è più valido

In effetti, se le due variabili non correlano, il valore del test è lo stesso dei campioni indipendenti

Nel caso di due variabili diverse (ma non ripetute) bisogna essere

“sicuri” che gli intervalli teorici siano uguali, altrimenti l’assunto di d = 0non è più valido

(18)

Applicabilità

Per confrontare la media di due variabili misurate in uno stesso gruppo

Cosa si usa

2 variabili quantitative (entrambi dipendenti) su cui vengono

calcolate le differenze dei punteggi ed infine mostrate le medie (una per ciascun gruppo)

il motivo per cui la variabile è stata misurata due volte, è la variabile indipendente (non presente come tale nei dati grezzi)