Elementi di Psicometria (con laboratorio software 1)
05-La verifica delle ipotesi con le medie dei campioni (v. 1.1c, 27 marzo 2021)
Germano Rossi1 germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
a.a. 2020-21
Sommario
1 Ripasso: verifica delle ipotesi
2 Significatività
3 Intervallo di confidenza
Ripasso sulla verifica delle ipotesi
Anziché usare un singolo campione, abbiamo usato più campioni estratti da un specifica popolazione (conosciuta)
di ogni campione abbiamo calcolato la media
e abbiamo fatto una distribuzione di frequenza delle medie calcolate Era una distribuzione campionaria (perché erano più campioni) delle medie(perché l’abbiamo applicata alla media)
Se ripetiamo questo procedimento più volte avremo che
1 la media della distribuzione campionaria delle medie tende ad avvicinarsi alla media della popolazione
2 la dispersione della distribuzione campionaria delle medie tende a diminuire all’aumentare dell’ampiezza dei campioni estratti
3 La forma della distribuzione campionaria delle medie tende ad approssimarsi alla normale
Regole della distribuzione campionaria: 1
1 La media di una distribuzione campionaria delle medie è uguale alla media della popolazione
𝜇M = 𝜇 Ogni campione è estratto casualmente
Le medie dei singoli campioni estratti oscillerà attorno alla media generale della popolazione (𝜇)
Campioni con medie sensibilmente più alte o più basse di 𝜇, tenderanno a compensarsi
perciò la media delle medie tenderà ad avvicinarsi a 𝜇
Regole della distribuzione campionaria: 2
2 La varianza di una distribuzione delle medie è la varianza della popolazione diviso la numerosità e la stessa cosa per la deviazione standard
𝜎2M = 𝜎2
N e 𝜎M = 𝜎
√ N
È difficile che un campione estratto abbia tutti elementi
corrispondenti al minimo (o al massimo), per cui è poco probabile che la M di un campione sia molto bassa (o molto alta)
Ogni campione può allontanarsi da 𝜇 ma tenderà ad oscillare in un intervallo più o meno grande attorno a 𝜇
per cui la varianza di una distribuzione campionaria delle medie è sempre più piccola della varianza della popolazione
Inoltre, più ampio è il campione estratto, meno è probabile che TUTTI i casi statistici siano estremi
Regole della distribuzione campionaria: 3
3 La forma della distribuzione campionaria tende ad approssimarsi alla normale
Se la popolazione si distribuisce in modo normale, anche la distribuzione campionaria avrà forma normale
Se l’ampiezza del campione è uguale o superiore a 30, anche la distribuzione campionaria avrà forma normale o comunque sempre più vicina alla curva normale (all’aumentare di N) anche quando la popolazione non si distribuisce normalmente
Per un riepilogo della formule, vedi la slide 17 dei lucidi04-Introduzione alla verifica delle ipotesi
Il test z
Il test z può servire a stabilire la probabilità che un determinato campione provenga da una determinata popolazione, tramite la distribuzione campionaria
Usiamo la media del campione e media e DS della distribuzione campionaria
z = M − 𝜇M 𝜎M
Usando il valore trovato di z (tramite la distribuzione normale) posso stimare la probabilità che quel campione sia un campione
rappresentativo oppure no di quella popolazione
La verifica d’ipotesi
Abbiamo visto che, se conosco mediae dev.st. della popolazione posso chiedermi se un campione appartiene a quella popolazione tramite la distribuzione campionaria
La verifica d’ipotesi sulla media di un campione si applica tramite un punto z fra la media del campione e quello della distribuzione campionaria
z = M − 𝜇
𝜎M = M − 𝜇
√𝜎 N
Poi si cerca l’area corrispondente al punto z, che è la probabilità (p) associata a z
Significatività
p si confronta con il livello di significatività (𝛼 arbitrario)
Se p ≤ 𝛼 rifiuto l’ipotesi nulla (H0) e accetto quella alternativa (H1) Se p > 𝛼 accetto l’ipotesi nulla (H0) e rifiuto quella alternativa (H1) Anche 𝛼 è una probabilità, ma di riferimento
Accettare H0 viene normalmente associato ad un risultato statisticamente non significativo
Rifiutare H0 (per accettare H1) viene normalmente associato ad un risultato statisticamente significativo
SPSS (nei risultati) indica il valore di p nella colonna denominata
“Sig.” o “Sign.”
Probabilità vs. significatività
Tuttavia p è la probabilità del risultato
che diventa significativo o non significativo in base al livello 𝛼 (o errore di I tipo) di riferimento
in questo senso, l’errore di I tipo indica l’errore massimo che siamo disposti a correre nel rifiutare H0
Ricordiamo che H0 è l’ipotesi conservativa
Impostare 𝛼 al 5% significa che, se rifiutassimo l’ipotesi nulla, il rischio che correremmo di sbagliare, sarebbe al massimo il 5%
Impostare 𝛼 all’1% o all’1‰, significa decidere di correre un rischio inferiore
Probabilità marginale 1
In psicologia sono stati scelti i livelli del 5%, 1% o 1‰
ma cosa fare se p fosse leggermente superiore a .05? (ad es.
p = .053)
Premesso che il valore di 𝛼 è una scelta arbitraria, in linea di massima, una volta dichiarato (o scelto) un livello 𝛼 si dovrebbe rispettarlo Ci sono però articoli in cui, livelli di p superiore al 5% vengono interpretati come “tendenti alla significatività” o “marginalmente significativi” o “quasi significativi”
in genere capita quando non ci sono risultati significativi oppure l’ipotesi di ricerca è associata ad una p molto vicina ad 𝛼 ma comunque superiore
Probabilità marginale 2
Nella letteratura statistica, la significatività basata sull’errore di I tipo è una scelta dicotomica
p > 𝛼, non significativo p ≤ 𝛼, significativo
ma un p = .0504 viene approssimato a p = .050 anche se è > .05 ma questo non significa che p = .054 o p = .061 possano essere interpretati come “quasi significativi”
ci sono indici statistici (v. cap. 6) che esprimono concetti simili al
“quasi significativo”
Valore critico
Nel processo di verifica d’ipotesi, abbiamo usato (facendo riferimento agli esempi del cap.4):
Media della popolazione (𝜇) Varianza (o DS) della popolazione (𝜎2 o 𝜎) Media di un campione (M) Usato i parametri per stimare M e DS della distribuzione
campionaria delle medie Calcolato un punto z Cercato la probabilità di z Confrontato la p con 𝛼
Avremmo potuto fare un’operazione diversa:
Cercare il punto z
corrispondente ad 𝛼 (z critico) Confrontare lo z calcolato (o Indice statistico, Is) con lo z critico (in valore assoluto) Se lo z critico è più grande della statistica (Is), ad es. zc = 1.64
> Is=.73, accetto H0
Se è più piccolo, ad es. zc=1.64
< Is=2.37, rifiuto H0
Confronto tra p e valore critico
Il valore di pè la
probabilità associata ad una certastatistica (ad es. z) il più utilizzato con i software statistici
Valore di p associati a certi valori di z
z p %
0.73 .2327 23.27 2.37 .0089 0.89 Il valore critico(vc) di una
statistica, è il valore della statistica associato ad un certo livello di significatività(𝛼) (ad es. z)
poco usato (se non come riferimento teorico)
ipotesi mono- bi-
𝛼 z |z| 𝛼/2
.05 1.64 1.96 .025
.01 2.32 2.58 .005
.001 3.09 3.29 .0005
Intervallo di confidenza: premessa
Finora abbiamo ipotizzato la conoscenza di alcuni parametri della popolazione (𝜇 e 𝜎) Ipotizziamo di conoscere solo 𝜎 e non 𝜇
Quale potrebbe essere una stima della M campionaria?
La media del campione!
Ma quanto sarà accurata questa stima?
Dipende dall’Errore standard della distribuzione campionaria
Ipotizziamo una popolazione con 𝜎 = 48 e ipotizziamo un campione di N = 64 che ha M = 220
L’errore standard sarà
√𝜎
N = √48 64 = 6 Ricordiamo che la distribuzione campionaria tende a distribuirsi normalmente
Intervallo di confidenza 1
In una distribuzione normale, il 68.26% delle medie campionarie dovrebbe oscillare fra -1 e +1 ES (errori standard)
Usando la media 𝜇 = 220 stimata sulla base del campione e l’ES della distribuzione campionaria, e usando 1 DS, il 68.26% dei campioni avrebbe una media che oscilla fra 220-6=214 e 220+6=226
Questo significa che il nostro campione potrebbe essere stato estratto da popolazioni che hanno medie che oscillano da 𝜇 = 214 a 𝜇 = 226
Intervallo di confidenza 2
Se invece usiamo lo z critico al 5% possiamo costruire l’intervallo entro cui potrebbero presentarsi le medie dei campioni nel 95% dei casi: 220 ± 6 * 1.96 = [208.24 – 231.76]
Usando lo z critico all’1%, l’intervallo al 99%: 220 ± 6 * 2.58 = [204.52 – 235.48]
Intervallo di confidenza 3
Questi intervalli sono chiamati Intervalli di confidenza (IC) o Intervalli di fiducia
Come limiti dell’intervallo usiamo gli stessi valori di 𝛼 ma suddivisi attorno alla media: ad es. per il 5%, il 2.5% sulla coda di sinistra e il 2.5% sulla coda di destra.
Ma adesso ci interessa l’area compresa fra i limiti dell’intervallo, la stessa area che corrisponde all’accettazione dell’ipotesi H0
bidirezionale
Normalmente si utilizzano intervalli di confidenza al 95% o al 99%
Si riportano sia il limite inferiore sia quello superiore, indicando il livello di confidenza:
99% IC, 204.52 - 235.48