Elementi di Psicometria (con laboratorio software 1)
04-Introduzione alla verifica delle ipotesi (v. 1.5, 22 marzo 2021)
Germano Rossi1 germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
a.a. 2020-21
Sommario
1 Statistica inferenziale
2 Distribuzione campionaria
3 Verifica d’ipotesi
Introduzione
Una ricerca scientifica si basa su un’ipotesi
Abbiamo visto che il campione estratto per una ricerca dev’essere rappresentativo ocasuale
Abbiamo detto che dalle statistiche su un campione possiamo trarre delle conclusioni sulla popolazione (date certe circostanze)
Questo processo passa attraverso un procedimento logico di inferenza basato su alcuni aspetti:
conseguenze teoriche dell’estrazione casuale distribuzione campionaria
verifica di un’ipotesi
probabilità associata all’ipotesi
Conseguenze dell’estrazione casuale
Ipotizziamo che il nostro campione sia stato estratto casualmente da un popolazione conosciuta
Se è casuale, i singoli casi statistici avranno dei valori che sono spesso vicini alla media (qualche volta sopra, altre sotto)
valori più lontani dalla media saranno meno frequenti più sono lontani e più sono rari
La media di un campione estratto casualmente da una popolazione tenderà ad essere vicina alla media della popolazione
Ma non tutti i campioni estratti sono “rappresentativi”
Estrazione casuale
Immaginiamo di essere in una cittadina che ha un palazzetto dello sport dedicato alla pallacanestro Noi vorremmo studiare l’altezza (in cm) delle persone presenti nel palazzetto
Nella stessa cittadina, il giorno in cui facciamo la rilevazione, è presente un circo
Il giorno della rilevazione, i nani del circo (5) sono nel palazzetto per vedere la partita
Ipotizziamo che nel palazzetto ci siano 100 persone in totale (per semplicità di calcolo!) Abbiamo 5 nani, 10
giocatori e 85 altre persone Se io estraggo 2 persone a caso fra quelle presenti nel palazzetto, qual è la probabilità di estrarre casualmente 2 nani o 2 giocatori di basket?
Estrazione casuale
L’altezza è una variabile fisica: tende a distribuirsi normalmente (persone basse o alte sono meno frequenti di persone di altezza media)
Se io estraggo 2 persone a caso (simultaneamente) fra quelle presenti nel palazzetto, qual è la probabilità di estrarre casualmente 2 nani oppure 2 giocatori di basket?
La probabilità di estrarre per caso 2 nani è circa 0.0004 (4 su 10 mila)
di 2 giocatori è circa 0.01 (1 su cento)
di 2 nani o 2 giocatori, 0.0104
Ma la probabilità di estrarre 5 giocatori è ancora più piccola, circa 0.0000000032
E la probabilità di estrarre un campione di 5 nani e 10 giocatori è ancora più piccola
Conseguenze dell’estrazione casuale
In linea di massima, estraendo campioni casuali da una popolazione, la maggior parte dei campioni è un buon “rappresentante” della popolazione
I campioni poco rappresentativi sono rari
Se estraiamo un campione da una popolazione e il campione è rappresentativo di quella popolazione, il campione dovrebbe avere gli stessi indici statistici (ad es. una media vicina a 𝜇)
All’aumentare dell’ampiezza dei campioni estratti, migliora la rappresentatività
Ovviamente non è sempre vero
Distribuzione campionaria (1)
La distribuzione campionaria è un procedimento logico (e teorico) che ci fornirà delle conoscenze utili e importanti per l’inferenza statistica Per questo useremo campioni estratti da una popolazione come se fossero “individui”
E ci concentreremo sulla media (ma potremmo rifare lo stesso discorso sulla mediana o altre statistiche)
Inizieremo con una “popolazione” conosciuta e finita
Usiamo una variabile (Fondamentalismo) proveniente da una ricerca effettuata su di 659 persone.
Se la “pensiamo come popolazione”, la sua media è 𝜇 =90.3915
Distribuzione campionaria (2)
Ipotizziamo di estrarre un campione di 100 casi da questa popolazione e di calcolare la media della variabile
La media di questo campione casuale di 100 persone è: M1 = 91.46 Questo campione differisce dalla popolazione di1.07 (91.46-90.39) Estraiamo un altro campione e calcoliamo la sua media: M2= 90.63 che differisce0.24 (90.63-90.39)
Potremmo estrarre un terzo campione e poi un quarto, e così via...
Dei due campioni già estratti, il secondo campione ha una media più vicina a quella della “popolazione”, ma...
Lo posso dire solo perché conosco 𝜇 e le due medie di due campioni estratti
C’è un modo di stimare la media (𝜇) della popolazione raccogliendo un solo campione rappresentativo?
Distribuzione campionaria (3)
Estraiamo altri campioni di ampiezza 100 dalla stessa popolazione e calcoliamo la media per ciascuno...
87.83, 90.63, 91.90, 91.99, 90.10, 90.80, 93.84, 90.80, 89.80, 90.12, 90.71, 88.56, 89.67, 90.76, 87.77, 90.51, 89.78, 90.68, 90.40, 89.27 Senza conoscere il parametro della popolazione, non possiamo sapere a priori se sarà o meno vicino a 𝜇
ma se estraiamo diversi campioni, le loro medie oscilleranno attorno alla media della popolazione
Vediamo tutti gli scarti...
Distribuzione campionaria (4)
Medie Scarto Medie Scarto
91,46 1,07
87,83 -2,56 90,71 0,32
90,63 0,24 88,56 -1,83
91,90 1,51 89,67 -0,72
91,99 1,60 90,76 0,37
90,10 -0,29 87,77 -2,62
90,80 0,41 90,51 0,12
93,84 3,45 max 89,78 -0,61
90,80 0,41 90,68 0,29
89,80 -0,59 90,40 0,01 min
90,12 -0,27 89,27 -1,12
Medie Scarto
90.39 Media popolazione
90.35 -0.04 Media delle medie dei campioni
Poiché vengono dalla stessa popolazione, la media di ogni campione estratto tenderà ad oscillare attorno alla media della popolazione Facciamo la media delle medie dei 21 campioni:
90.35
La media delle 21 medie, avrà un valoresicuramente più vicino alla media della popolazione: 90.3915
Distribuzione campionaria (5)
Anziché 20 campioni ne potremmo estrarre 10 mila, avremmo 10 mila medie e potremmo costruire una distribuzione di frequenza di quelle medie
L’importante è che ogni campione sia casuale, ovvero
ogni caso di un singolo campione abbia la stessa probabilità di essere estratto degli altri
ogni possibile campione estraibile dalla popolazione abbia la stessa probabilità degli altri
La distribuzione di frequenza che costruiremmo con le medie dei campioni si chiama distribuzione campionaria delle medie
Se il numero di campioni estratto è sufficientemente elevato, le medie dei campioni tenderanno a distribuirsi secondo la curva della normale
Distribuzione campionaria delle medie
Se effettivamente estraessimo un numero elevatissimo di campioni da una popolazione (metodo Monte Carlo), avremmo una distribuzione sperimentale, mentre quella su cui noi lavoreremo è una distribuzione teorica
La distribuzione campionaria delle medie si basa sul teorema del limite centrale che afferma che, all’aumentare dell’ampiezza dei campioni, la distribuzione campionaria della media si avvicinerà sempre più ad una distribuzione normale,indipendentemente dalla forma delle misurazioni individuali
Se una variabile si distribuisce normalmente, anche piccoli campioni produrrano una distribuzione campionaria normale
Con variabili non normali, la distribuzione campionaria deve avere numerosità (N) uguale almeno a 30 o maggiore
Teorema del limite centrale: esempio semplice
La Tavola di Galtonmostra come i valori estremi di una variabile sono sempre i meno frequenti.
con Size decidete l’ampiezza dei valori (se è pari, aggiunge 0, max 15)
Left/Right la probabilità Speed la velocità con cui cadono le palline (max 200) Restart fa ripartire la caduta delle palline
Data mostra i dati con cui sono state prese le decisioni
Distribuzione campionaria medie: var. NORMALE
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●●
●
●●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●●●
●●
●●
●●
●
●●●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●●
●
●
●●
●
●●
●●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●●●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●●
●
●
●●
●
●
●
●
●
●●
●
●●
●●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●●
●
●●●●
●●
●
●
●
●●
●
●●
●
●●
●●
●
●●●
●
●
●
●
●
●
●
●
●●●●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●●
●
●
●●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●●
●
●●
●●
●
●
●●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●●
●●
●
●●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
0 200 600 1000
−4−2024
Media= 0.03
Popolazione normale Popolazione normale
Media= 0.03
−4 −2 0 2 4
0.00.10.20.30.4
100 campioni N=10
Media dei campioni= 0.01
−2 −1 0 1 2
0.00.40.81.2
100 campioni N=30
Media dei campioni= 0.03
−2 −1 0 1 2
0.01.02.0
A partire da una popolazione distribuita normalmente (1000 casi, valori -4; 4)
abbiamo il grafico dei valori [1]
l’istogramma delle frequenze [2]
l’istogramma con normale di 100 campioni di ampiezza 10[3]
l’istogramma con normale di 100 campioni di ampiezza 30[4]
Distribuzione campionaria medie: var. NORMALE
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●●
●
●●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●●●
●●
●●
●●
●
●●●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●●
●
●
●●
●
●●
●●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●●●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●●
●
●
●●
●
●
●
●
●
●●
●
●●
●●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●●
●
●●●●
●●
●
●
●
●●
●
●●
●
●●
●●
●
●●●
●
●
●
●
●
●
●
●
●●●●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●●
●
●
●●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●●
●
●●
●●
●
●
●●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●●
●●
●
●●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
0 200 600 1000
−4−2024
Media= 0.03
Popolazione normale Popolazione normale
Media= 0.03
−4 −2 0 2 4
0.00.10.20.30.4
100 campioni N=10
Media dei campioni= 0.01
−2 −1 0 1 2
0.00.40.81.2
100 campioni N=30
Media dei campioni= 0.03
−2 −1 0 1 2
0.01.02.0
A partire da una popolazione distribuita normalmente (1000 casi, valori -4; 4)
abbiamo il grafico dei valori [1]
l’istogramma delle frequenze [2]
l’istogramma con normale di 100 campioni di ampiezza 10[3]
l’istogramma con normale di 100 campioni di ampiezza 30[4]