Elementi di Psicometria (con laboratorio software 1) 04-Introduzione alla verifica delle ipotesi (v. 1.5, 22 marzo 2021) Germano Rossi

(1)

Elementi di Psicometria (con laboratorio software 1)

04-Introduzione alla verifica delle ipotesi (v. 1.5, 22 marzo 2021)

Germano Rossi¹ [email protected]

1Dipartimento di Psicologia, Università di Milano-Bicocca

a.a. 2020-21

(2)

Sommario

1 Statistica inferenziale

2 Distribuzione campionaria

3 Verifica d’ipotesi

(3)

Introduzione

Una ricerca scientifica si basa su un’ipotesi

Abbiamo visto che il campione estratto per una ricerca dev’essere rappresentativo ocasuale

Abbiamo detto che dalle statistiche su un campione possiamo trarre delle conclusioni sulla popolazione (date certe circostanze)

Questo processo passa attraverso un procedimento logico di inferenza basato su alcuni aspetti:

conseguenze teoriche dell’estrazione casuale distribuzione campionaria

verifica di un’ipotesi

probabilità associata all’ipotesi

(4)

Conseguenze dell’estrazione casuale

Ipotizziamo che il nostro campione sia stato estratto casualmente da un popolazione conosciuta

Se è casuale, i singoli casi statistici avranno dei valori che sono spesso vicini alla media (qualche volta sopra, altre sotto)

valori più lontani dalla media saranno meno frequenti più sono lontani e più sono rari

La media di un campione estratto casualmente da una popolazione tenderà ad essere vicina alla media della popolazione

Ma non tutti i campioni estratti sono “rappresentativi”

(5)

Estrazione casuale

Immaginiamo di essere in una cittadina che ha un palazzetto dello sport dedicato alla pallacanestro Noi vorremmo studiare l’altezza (in cm) delle persone presenti nel palazzetto

Nella stessa cittadina, il giorno in cui facciamo la rilevazione, è presente un circo

Il giorno della rilevazione, i nani del circo (5) sono nel palazzetto per vedere la partita

Ipotizziamo che nel palazzetto ci siano 100 persone in totale (per semplicità di calcolo!) Abbiamo 5 nani, 10

giocatori e 85 altre persone Se io estraggo 2 persone a caso fra quelle presenti nel palazzetto, qual è la probabilità di estrarre casualmente 2 nani o 2 giocatori di basket?

(6)

Estrazione casuale

L’altezza è una variabile fisica: tende a distribuirsi normalmente (persone basse o alte sono meno frequenti di persone di altezza media)

Se io estraggo 2 persone a caso (simultaneamente) fra quelle presenti nel palazzetto, qual è la probabilità di estrarre casualmente 2 nani oppure 2 giocatori di basket?

La probabilità di estrarre per caso 2 nani è circa 0.0004 (4 su 10 mila)

di 2 giocatori è circa 0.01 (1 su cento)

di 2 nani o 2 giocatori, 0.0104

Ma la probabilità di estrarre 5 giocatori è ancora più piccola, circa 0.0000000032

E la probabilità di estrarre un campione di 5 nani e 10 giocatori è ancora più piccola

(7)

Conseguenze dell’estrazione casuale

In linea di massima, estraendo campioni casuali da una popolazione, la maggior parte dei campioni è un buon “rappresentante” della popolazione

I campioni poco rappresentativi sono rari

Se estraiamo un campione da una popolazione e il campione è rappresentativo di quella popolazione, il campione dovrebbe avere gli stessi indici statistici (ad es. una media vicina a 𝜇)

All’aumentare dell’ampiezza dei campioni estratti, migliora la rappresentatività

Ovviamente non è sempre vero

(8)

Distribuzione campionaria (1)

La distribuzione campionaria è un procedimento logico (e teorico) che ci fornirà delle conoscenze utili e importanti per l’inferenza statistica Per questo useremo campioni estratti da una popolazione come se fossero “individui”

E ci concentreremo sulla media (ma potremmo rifare lo stesso discorso sulla mediana o altre statistiche)

Inizieremo con una “popolazione” conosciuta e finita

Usiamo una variabile (Fondamentalismo) proveniente da una ricerca effettuata su di 659 persone.

Se la “pensiamo come popolazione”, la sua media è 𝜇 =90.3915

(9)

Distribuzione campionaria (2)

Ipotizziamo di estrarre un campione di 100 casi da questa popolazione e di calcolare la media della variabile

La media di questo campione casuale di 100 persone è: M₁ = 91.46 Questo campione differisce dalla popolazione di1.07 (91.46-90.39) Estraiamo un altro campione e calcoliamo la sua media: M₂= 90.63 che differisce0.24 (90.63-90.39)

Potremmo estrarre un terzo campione e poi un quarto, e così via...

Dei due campioni già estratti, il secondo campione ha una media più vicina a quella della “popolazione”, ma...

Lo posso dire solo perché conosco 𝜇 e le due medie di due campioni estratti

C’è un modo di stimare la media (𝜇) della popolazione raccogliendo un solo campione rappresentativo?

(10)

Distribuzione campionaria (3)

Estraiamo altri campioni di ampiezza 100 dalla stessa popolazione e calcoliamo la media per ciascuno...

87.83, 90.63, 91.90, 91.99, 90.10, 90.80, 93.84, 90.80, 89.80, 90.12, 90.71, 88.56, 89.67, 90.76, 87.77, 90.51, 89.78, 90.68, 90.40, 89.27 Senza conoscere il parametro della popolazione, non possiamo sapere a priori se sarà o meno vicino a 𝜇

ma se estraiamo diversi campioni, le loro medie oscilleranno attorno alla media della popolazione

Vediamo tutti gli scarti...

(11)

Distribuzione campionaria (4)

Medie Scarto Medie Scarto

91,46 1,07

87,83 -2,56 90,71 0,32

90,63 0,24 88,56 -1,83

91,90 1,51 89,67 -0,72

91,99 1,60 90,76 0,37

90,10 -0,29 87,77 -2,62

90,80 0,41 90,51 0,12

93,84 3,45 max 89,78 -0,61

90,80 0,41 90,68 0,29

89,80 -0,59 90,40 0,01 min

90,12 -0,27 89,27 -1,12

Medie Scarto

90.39 Media popolazione

90.35 -0.04 Media delle medie dei campioni

Poiché vengono dalla stessa popolazione, la media di ogni campione estratto tenderà ad oscillare attorno alla media della popolazione Facciamo la media delle medie dei 21 campioni:

90.35

La media delle 21 medie, avrà un valoresicuramente più vicino alla media della popolazione: 90.3915

(12)

Distribuzione campionaria (5)

Anziché 20 campioni ne potremmo estrarre 10 mila, avremmo 10 mila medie e potremmo costruire una distribuzione di frequenza di quelle medie

L’importante è che ogni campione sia casuale, ovvero

ogni caso di un singolo campione abbia la stessa probabilità di essere estratto degli altri

ogni possibile campione estraibile dalla popolazione abbia la stessa probabilità degli altri

La distribuzione di frequenza che costruiremmo con le medie dei campioni si chiama distribuzione campionaria delle medie

Se il numero di campioni estratto è sufficientemente elevato, le medie dei campioni tenderanno a distribuirsi secondo la curva della normale

(13)

Distribuzione campionaria delle medie

Se effettivamente estraessimo un numero elevatissimo di campioni da una popolazione (metodo Monte Carlo), avremmo una distribuzione sperimentale, mentre quella su cui noi lavoreremo è una distribuzione teorica

La distribuzione campionaria delle medie si basa sul teorema del limite centrale che afferma che, all’aumentare dell’ampiezza dei campioni, la distribuzione campionaria della media si avvicinerà sempre più ad una distribuzione normale,indipendentemente dalla forma delle misurazioni individuali

Se una variabile si distribuisce normalmente, anche piccoli campioni produrrano una distribuzione campionaria normale

Con variabili non normali, la distribuzione campionaria deve avere numerosità (N) uguale almeno a 30 o maggiore

(14)

Teorema del limite centrale: esempio semplice

La Tavola di Galtonmostra come i valori estremi di una variabile sono sempre i meno frequenti.

con Size decidete l’ampiezza dei valori (se è pari, aggiunge 0, max 15)

Left/Right la probabilità Speed la velocità con cui cadono le palline (max 200) Restart fa ripartire la caduta delle palline

Data mostra i dati con cui sono state prese le decisioni

(15)

Distribuzione campionaria medie: var. NORMALE

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●

●●

●

●●●

●

●●

●

●●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●●●●

●

●●

●

●●

●

●●

●

●●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●●●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

0 200 600 1000

−4−2024

Media= 0.03

Popolazione normale Popolazione normale

Media= 0.03

−4 −2 0 2 4

0.00.10.20.30.4

100 campioni N=10

Media dei campioni= 0.01

−2 −1 0 1 2

0.00.40.81.2

−2 −1 0 1 2

0.01.02.0

A partire da una popolazione distribuita normalmente (1000 casi, valori -4; 4)

abbiamo il grafico dei valori [1]

l’istogramma delle frequenze [2]

l’istogramma con normale di 100 campioni di ampiezza 10[3]

(16)

Distribuzione campionaria medie: var. NORMALE

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●

●●

●

●●●

●

●●

●

●●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●●●●

●

●●

●

●●

●

●●

●

●●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●●●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

0 200 600 1000

−4−2024

Media= 0.03

Popolazione normale Popolazione normale

Media= 0.03

−4 −2 0 2 4

0.00.10.20.30.4

−2 −1 0 1 2

0.00.40.81.2

−2 −1 0 1 2

0.01.02.0

A partire da una popolazione distribuita normalmente (1000 casi, valori -4; 4)

abbiamo il grafico dei valori [1]

l’istogramma delle frequenze [2]