Elementi di Psicometria (con laboratorio software 1) 05-La verifica delle ipotesi con le medie dei campioni (v. 1.1c, 27 marzo 2021) Germano Rossi

(1)

Elementi di Psicometria (con laboratorio software 1)

05-La verifica delle ipotesi con le medie dei campioni (v. 1.1c, 27 marzo 2021)

Germano Rossi¹ germano.rossi@unimib.it

1Dipartimento di Psicologia, Università di Milano-Bicocca

a.a. 2020-21

(2)

Sommario

1 Ripasso: verifica delle ipotesi

2 Significatività

3 Intervallo di confidenza

(3)

Ripasso sulla verifica delle ipotesi

Anziché usare un singolo campione, abbiamo usato più campioni estratti da un specifica popolazione (conosciuta)

di ogni campione abbiamo calcolato la media

e abbiamo fatto una distribuzione di frequenza delle medie calcolate Era una distribuzione campionaria (perché erano più campioni) delle medie(perché l’abbiamo applicata alla media)

Se ripetiamo questo procedimento più volte avremo che

1 la media della distribuzione campionaria delle medie tende ad avvicinarsi alla media della popolazione

2 la dispersione della distribuzione campionaria delle medie tende a diminuire all’aumentare dell’ampiezza dei campioni estratti

3 La forma della distribuzione campionaria delle medie tende ad approssimarsi alla normale

(4)

Regole della distribuzione campionaria: 1

1 La media di una distribuzione campionaria delle medie è uguale alla media della popolazione

𝜇_M = 𝜇 Ogni campione è estratto casualmente

Le medie dei singoli campioni estratti oscillerà attorno alla media generale della popolazione (𝜇)

Campioni con medie sensibilmente più alte o più basse di 𝜇, tenderanno a compensarsi

perciò la media delle medie tenderà ad avvicinarsi a 𝜇

(5)

Regole della distribuzione campionaria: 2

2 La varianza di una distribuzione delle medie è la varianza della popolazione diviso la numerosità e la stessa cosa per la deviazione standard

𝜎²_M = 𝜎²

N e 𝜎M = 𝜎

√ N

È difficile che un campione estratto abbia tutti elementi

corrispondenti al minimo (o al massimo), per cui è poco probabile che la M di un campione sia molto bassa (o molto alta)

Ogni campione può allontanarsi da 𝜇 ma tenderà ad oscillare in un intervallo più o meno grande attorno a 𝜇

per cui la varianza di una distribuzione campionaria delle medie è sempre più piccola della varianza della popolazione

Inoltre, più ampio è il campione estratto, meno è probabile che TUTTI i casi statistici siano estremi

(6)

Regole della distribuzione campionaria: 3

3 La forma della distribuzione campionaria tende ad approssimarsi alla normale

Se la popolazione si distribuisce in modo normale, anche la distribuzione campionaria avrà forma normale

Se l’ampiezza del campione è uguale o superiore a 30, anche la distribuzione campionaria avrà forma normale o comunque sempre più vicina alla curva normale (all’aumentare di N) anche quando la popolazione non si distribuisce normalmente

Per un riepilogo della formule, vedi la slide 17 dei lucidi04-Introduzione alla verifica delle ipotesi

(7)

Il test z

Il test z può servire a stabilire la probabilità che un determinato campione provenga da una determinata popolazione, tramite la distribuzione campionaria

Usiamo la media del campione e media e DS della distribuzione campionaria

z = M − 𝜇_M 𝜎_M

Usando il valore trovato di z (tramite la distribuzione normale) posso stimare la probabilità che quel campione sia un campione

rappresentativo oppure no di quella popolazione

(8)

La verifica d’ipotesi

Abbiamo visto che, se conosco mediae dev.st. della popolazione posso chiedermi se un campione appartiene a quella popolazione tramite la distribuzione campionaria

La verifica d’ipotesi sulla media di un campione si applica tramite un punto z fra la media del campione e quello della distribuzione campionaria

z = M − 𝜇

𝜎_M = M − 𝜇

√𝜎 N

Poi si cerca l’area corrispondente al punto z, che è la probabilità (p) associata a z

(9)

Significatività

p si confronta con il livello di significatività (𝛼 arbitrario)

Se p ≤ 𝛼 rifiuto l’ipotesi nulla (H0) e accetto quella alternativa (H1) Se p > 𝛼 accetto l’ipotesi nulla (H0) e rifiuto quella alternativa (H1) Anche 𝛼 è una probabilità, ma di riferimento

Accettare H0 viene normalmente associato ad un risultato statisticamente non significativo

Rifiutare H0 (per accettare H1) viene normalmente associato ad un risultato statisticamente significativo

SPSS (nei risultati) indica il valore di p nella colonna denominata

“Sig.” o “Sign.”

(10)

Probabilità vs. significatività

Tuttavia p è la probabilità del risultato

che diventa significativo o non significativo in base al livello 𝛼 (o errore di I tipo) di riferimento

in questo senso, l’errore di I tipo indica l’errore massimo che siamo disposti a correre nel rifiutare H0

Ricordiamo che H0 è l’ipotesi conservativa

Impostare 𝛼 al 5% significa che, se rifiutassimo l’ipotesi nulla, il rischio che correremmo di sbagliare, sarebbe al massimo il 5%

Impostare 𝛼 all’1% o all’1‰, significa decidere di correre un rischio inferiore

(11)

Probabilità marginale 1

In psicologia sono stati scelti i livelli del 5%, 1% o 1‰

ma cosa fare se p fosse leggermente superiore a .05? (ad es.

p = .053)

Premesso che il valore di 𝛼 è una scelta arbitraria, in linea di massima, una volta dichiarato (o scelto) un livello 𝛼 si dovrebbe rispettarlo Ci sono però articoli in cui, livelli di p superiore al 5% vengono interpretati come “tendenti alla significatività” o “marginalmente significativi” o “quasi significativi”

in genere capita quando non ci sono risultati significativi oppure l’ipotesi di ricerca è associata ad una p molto vicina ad 𝛼 ma comunque superiore

(12)

Probabilità marginale 2

Nella letteratura statistica, la significatività basata sull’errore di I tipo è una scelta dicotomica

p > 𝛼, non significativo p ≤ 𝛼, significativo

ma un p = .0504 viene approssimato a p = .050 anche se è > .05 ma questo non significa che p = .054 o p = .061 possano essere interpretati come “quasi significativi”

ci sono indici statistici (v. cap. 6) che esprimono concetti simili al

“quasi significativo”

(13)

Valore critico

Nel processo di verifica d’ipotesi, abbiamo usato (facendo riferimento agli esempi del cap.4):

Media della popolazione (𝜇) Varianza (o DS) della popolazione (𝜎² o 𝜎) Media di un campione (M) Usato i parametri per stimare M e DS della distribuzione

campionaria delle medie Calcolato un punto z Cercato la probabilità di z Confrontato la p con 𝛼

Avremmo potuto fare un’operazione diversa:

Cercare il punto z

corrispondente ad 𝛼 (z critico) Confrontare lo z calcolato (o Indice statistico, Is) con lo z critico (in valore assoluto) Se lo z critico è più grande della statistica (Is), ad es. zc = 1.64

> Is=.73, accetto H0

Se è più piccolo, ad es. zc=1.64

< Is=2.37, rifiuto H0

(14)

Confronto tra p e valore critico

Il valore di pè la

probabilità associata ad una certastatistica (ad es. z) il più utilizzato con i software statistici

Valore di p associati a certi valori di z

z p %

0.73 .2327 23.27 2.37 .0089 0.89 Il valore critico(vc) di una

statistica, è il valore della statistica associato ad un certo livello di significatività(𝛼) (ad es. z)

poco usato (se non come riferimento teorico)

ipotesi mono- bi-

𝛼 z |z| 𝛼/2

.05 1.64 1.96 .025

.01 2.32 2.58 .005

.001 3.09 3.29 .0005

(15)

Intervallo di confidenza: premessa

Finora abbiamo ipotizzato la conoscenza di alcuni parametri della popolazione (𝜇 e 𝜎) Ipotizziamo di conoscere solo 𝜎 e non 𝜇

Quale potrebbe essere una stima della M campionaria?

La media del campione!

Ma quanto sarà accurata questa stima?

Dipende dall’Errore standard della distribuzione campionaria

Ipotizziamo una popolazione con 𝜎 = 48 e ipotizziamo un campione di N = 64 che ha M = 220

L’errore standard sarà

√𝜎

N = √48 64 = 6 Ricordiamo che la distribuzione campionaria tende a distribuirsi normalmente

(16)

Intervallo di confidenza 1

In una distribuzione normale, il 68.26% delle medie campionarie dovrebbe oscillare fra -1 e +1 ES (errori standard)

Usando la media 𝜇 = 220 stimata sulla base del campione e l’ES della distribuzione campionaria, e usando 1 DS, il 68.26% dei campioni avrebbe una media che oscilla fra 220-6=214 e 220+6=226

Questo significa che il nostro campione potrebbe essere stato estratto da popolazioni che hanno medie che oscillano da 𝜇 = 214 a 𝜇 = 226

(17)

Intervallo di confidenza 2

Se invece usiamo lo z critico al 5% possiamo costruire l’intervallo entro cui potrebbero presentarsi le medie dei campioni nel 95% dei casi: 220 ± 6 * 1.96 = [208.24 – 231.76]

Usando lo z critico all’1%, l’intervallo al 99%: 220 ± 6 * 2.58 = [204.52 – 235.48]

(18)

Intervallo di confidenza 3

Questi intervalli sono chiamati Intervalli di confidenza (IC) o Intervalli di fiducia

Come limiti dell’intervallo usiamo gli stessi valori di 𝛼 ma suddivisi attorno alla media: ad es. per il 5%, il 2.5% sulla coda di sinistra e il 2.5% sulla coda di destra.

Ma adesso ci interessa l’area compresa fra i limiti dell’intervallo, la stessa area che corrisponde all’accettazione dell’ipotesi H0

bidirezionale

Normalmente si utilizzano intervalli di confidenza al 95% o al 99%

Si riportano sia il limite inferiore sia quello superiore, indicando il livello di confidenza:

99% IC, 204.52 - 235.48