Elementi di Psicometria con Laboratorio di SPSS 1
28-Intervalli di confidenza vers. 1.1 (21 novembre 2014)
Germano Rossi1
germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
2014-2015
Saltare
Saltare
il paragrafo 28.3 e il Calcolo 28.5
relativi alla Regressione (che non è
in programma)
Stima puntuale e intervallare
Stima puntuale
Viene calcolato un unico valore che èconsiderato la stima del parametro della popolazione (H0)
Su questo unico valore si calcola una statistica la cui probabilità costituisce il “rischio” nel prendere la decisione di rifiutare l’ipotesi nulla
Stima intervallare
Vengono calcolate 2 stime diverse
che costituiscono il limite inferiore e quello superiore di un intervallo entro questo intervallo di probabilità, cadrà il parametro della popolazione
e utilizzeremo questo intervallo per prendere una decisione
Stima puntuale e intervallare
la stima puntuale si occupa di un solo valore (la stima della popolazione)
l’intervallo di confidenza (o di fiducia) fornisce un insieme di valori che includono il valore della popolazione (data una certa
probabilità)
se usiamo la media come esempio, riflette l’insieme di valori verosimili che includerebbero la vera media della popolazione (se fosse nota)
Anziché riportare che la stima della media della popolazione è 5.3, diciamo che la media della popolazione è probabilmente compresa nell’intervallo fra 4.0 e 6.6
L’ampiezza dell’intervallo dipenderà dalla variabilità delle osservazioni
a maggiore variabilità nei dati corrisponderà una maggiore ampiezza dell’intervallo
Stima puntuale e intervallare
usualmente si utilizza il 95% (complemento a 1 di α = 5%) ma si può usare anche il 99% (corrispondente ad α = 1%) l’intervallo di confidenza al 95% è l’insieme dei valori che al 95%
includono la “vera” media della popolazione
l’errore standard è la deviazione standard delle distribuzioni campionarie delle statistiche di interesse
è fondamentale per ottenere gli intervalli di confidenza In pratica,
la stima puntuale ci dice se una certa media di un campione può venire da una certa popolazione oppure no
la stima intervallare ci dice da quali popolazioni può venire quella media del campione
Stima puntuale e intervallare
La teoria legata alla distribuzione normale (Capitolo 11) ci dice che, per grandi campioni, il 95% circa delle medie campionarie giace fra ±2 s cioè fra z = −1.96 e z = +1.96
con piccoli campioni z non funziona perfettamente e si utilizza la distribuzione t (identica alla distribuzione z per grandi campioni) il valore di t corrispondente al livello di confidenza prescelto può essere ottenuto dalla Tabella 28.1 (p. 273) per determinati gradi di libertà I limiti di fiducia sono semplicemente gli estremi dell’intervallo di confidenza
Test di significatività e intervalli di confidenza
La maggior parte delle volte, nell’ipotesi nulla ipotizziamo qualcosa pari a 0
la correlazione è nulla (ρ = 0)
la differenza delle medie è nulla (µ1− µ2= 0, µ1= µ2) la media delle differenze è nulla (µx1−x2)
Perciò di solito se l’intervallo di confidenza non contiene il valore zero, la media campionaria è statisticamente significativa
Tuttavia gli intervalli di confidenza contengono abbastanza informazione per valutare la significatività statistica
Invece la verifica di ipotesi di per sé non contiene abbastanza informazione per calcolare gli intervalli di confidenza
Verifica d’ipotesi con un campione
Ho un campione (N=20) con X=195 e s = 15 in una variabile. Conosco la media della popolazione (µ = 200)
Ipotizzo che il campione sia stato estratto casualmente da quella popolazione (H0: µc = µ = 200 e H1: µc6= µ)
Uso
t = X − µ
√s N
= 195 − 200 15/√
20 = −1.49 ipotizzando α = .05, per 19 gl, vc = ±2.09
se fosse vera l’ipotesi nulla, un campione estratto da quella popolazione avrebbe il 95% di probabilità di avere una media che sta a 2.09 errori standard sotto o sopra la media
accettiamo H0perché |1.49| < |2.09|
Stima intervallare
Il test puntuale ci permette di accettare o rifiutare l’ipotesi nulla Ma l’ipotesi nulla è un singolo, specifico valore
Ho un campione (N=20) con X = 195 e s = 15 in una variabile.
Se ipotizzassi H0 : µc= µ = 200e H1 : µc< µtroverei un valore t non significativo
Quindi il campione con X=195 è stato estratto da una popolazione con µ = 200
ma potrebbe essere stato estratto da popolazioni con µ = 195 oppure µ = 196 oppure µ = 197. . . ma anche con µ = 194. . . Se fossero possibili più ipotesi nulle, dovremmo calcolare più statistiche t
L’alternativa è usare la stima intervallare
Stima intervallare
Usiamo la formula inversa del punto z, ma usando il valore critico di t per determinati gradi di libertà
(X −tcsX) ≤ µX ≤ (X +tcsX)
dove X è la media del campione usata come stima della media della popolazione;tc è il valore critico di t per 95% o per 99%; sX è l’errore standard
Se N=20 (gdl=19), i valori critici di t sarebbero t=2.09 per il 95% e t=2.86 per il 99%
Stima intervallare: campione unico
Lavoriamo con la stima della media della popolazione (stimata dalla media del campione)
calcoliamo l’errore standard s/√
N = 15/√ 20 Sostituiamo i valori (ipotizzando 95%)
(X − tcsX) ≤ µX ≤ (X + vcsX) (195 − 2.09 × 15
√20 ≤ µ ≤ (195 + 2.09 × 3.354) l’intervallo di fiducia al 95% è compreso fra 187.99 e 202.01 al 95% il nostro campione può essere stato estratto casualmente da popolazioni la cui media oscilla fra 187.99 e 202.01
Stima intervallare: differenza medie
Anche per la differenza delle medie, possiamo calcolare un’intervallo di confidenza, sempre usando il valore critico di t al 5% o all’1% per avere intervalli di fiducia pari al 95% o al 99%
[(X1− X2) − tcsX
1−X2] ≤ µ1− µ2≤ [(X1− X2) + tcsX
1−X2] Applicandolo all’esempio dei Testimoni di Geova:
(X1− X2) = −1.33 t95%= 2.09 sX
1−X2 = 2.87
−1.33 − 2.09 ∗ 2.87 e − 1.33 + 2.09 ∗ 2.87 ovvero l’intervallo di fiducia oscilla fra -7.33 e 4.67
Poiché l’intervallo include anche il valore 0 (H0: µ1− µ2= 0)
corrispondente alla nostra ipotesi nulla, dobbiamo accettarla come vera.
Stima intervallare: media differenze
Per la media delle differenze, la formula diventa D − tcsD < µD < D + tcsD
Se la media delle differenze è 3,3571 la dev. st. delle diff. è 6,912721 la numerosità è N=14
l’errore standard sarà s/
√
N = 6, 912721/√
14 = 1.847 3.3571 − 2.09 ∗ 1.847 < µD < 3.3571 + 2.09 ∗ 1.847 quindi compreso fra -0.503 e 7.217
lo 0 è compreso, quindi non significativo
Stima intervallare: correlazione
Per la correlazione è un pochino più complesso rdev’essere normalizzata con
zr = 1
2loge1 + r 1 − r oppure tramite la Tabella 26.5
zrè il coefficiente di correlazione normalizzato di Fisher
r = .881diventa rz= 1.380
Stima intervallare: correlazione
ci serve anche la deviazione standard di zr, che è
√ 1 N − 3
l’intervallo di confidenza della correlazione (al 95%) sarà
zr± 1.96szr dove 1.96 è il punto z corrispondente ad un’area del 5% bidirezionale
Supponiamo di aver calcolato una correlazione di .45 in un campione di N=30
il suo errore standard sarà 1/√
30 − 3 = 0.192 dalla tabella ricaviamo zr= .485
è l’intervallo zr± 1.96szr = .485 ± 1.96 × 0.192
Stima intervallare: correlazione
con zr± 1.96szr = .485 ± 1.96 × 0.192l’intervallo sarà compreso fra 0.10868 e 0.86132
ma questi sono i valori espressi in punti z
con la Tabella 26.5 torniamo indietro e troviamo .11 e .69 L’intervallo non comprende lo 0, quindi la correlazione di .45 è significativa