• Non ci sono risultati.

Elementi di Psicometria con Laboratorio di SPSS 1 03-Medie, variabilità e dispersione vers. 1.0 (15 ottobre 2014) Germano Rossi

N/A
N/A
Protected

Academic year: 2021

Condividi "Elementi di Psicometria con Laboratorio di SPSS 1 03-Medie, variabilità e dispersione vers. 1.0 (15 ottobre 2014) Germano Rossi"

Copied!
62
0
0

Testo completo

(1)

Elementi di Psicometria con Laboratorio di SPSS 1

03-Medie, variabilità e dispersione vers. 1.0 (15 ottobre 2014)

Germano Rossi1

[email protected]

1Dipartimento di Psicologia, Università di Milano-Bicocca

2014-2015

(2)

Introduzione

I dati della tabella 3.1 (del libro) rappresentati graficamente. Possiamo vedere che 13 valori sono su 4 valori e 11 su 8.

(3)

Introduzione

Ci sono almeno due informazioni che possiamo raccogliere su datiquantitativi:

latendenza centrale: un valore che meglio rappresenta tutta la distribuzione

lavariabilità: quanto i valori si disperdono attorno al valore centrale

Un ulteriore blocco di informazioni si chiamanoindici di posizione.

(4)

Tendenza centrale

Tendenza centrale

La tendenza centrale è un’indicazione generica di come sta andando la distribuizione della variabile

Ci sono diversi indici che “misurano” la tendenza centrale, alcuni poco informativi, altri molto informativi

Livello nominale: Moda Livello ordinale: Mediana

Livello intervallo/rapporto:Media

Ricordiamo che ogni livello “eredita” dai livelli precedenti

(5)

Tendenza centrale Moda

Tendenza centrale: Moda

LaModa(Mo) è la frequenza più elevata di una distribuzione Se c’è una sola moda, la distribuzione si diceUnimodale Se sono 2,Bimodale

Se sono più di 2,Multimodale(ma non si utilizza) Esempio

M=17, F=13 ⇒Maschiperché ha frequenza 17

Se ci sono molte categorie, oppure poche categorie tutte con frequenze simili, la moda non ha molto senso.

Esempio

1 1 1 2 2 2 2 3 3 3 Mo=2 (ma non ha molto senso)

(6)

Tendenza centrale Moda

Spss: moda

Tramite Analizza | Statistiche descrittive | Frequenze...

pulsante

Statistiche , possiamo far calcolare la moda.

poi Continua e OK

(7)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Lamediana(Mdn) divide la distribuzione a metà (corrisponde, ma non è sempre uguale, a Q2)

Se N è dispari, la Mdn è ilvalore in posizione centrale, corrispondente a (N + 1)/2

Esempio

Dati grezzi 5 2 1 3 5 1 4 4 3 1 5

Ordinati 1 1 1 2 3 3 4 4 5 5 5

⇑ (11 + 1)/2 = 6 ⇒Mdn=3

(8)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Se N è pari, la Mdn è ilvalore fra le 2 posizioni centrali (se esiste) cioè fra N/2 e (N/2) + 1

Se i due valori sono uguali, quello è il valore della mediana Esempio

Dati grezzi 5 2 1 3 5 1 4 4 3 1

Ordinati 1 1 1 2 3 3 4 4 5 5

⇑ ⇑

N/2 = 10/2 = 5e (N/2) + 1 = 5 + 1 = 6 ⇒Mdn=3

(9)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Se i due valori sono diversi

se la scala èordinale: entrambi costituiscono la mediana se èquantitativa: si fa la media fra i due valori

Esempio

Dati grezzi 5 2 1 4 5 1 4 4 3 1

Ordinati 1 1 1 2 3 4 4 4 5 5

⇑ ⇑

N/2 = 10/2 = 5e (N/2) + 1 = 5 + 1 = 6 ⇒Mdn=3;4 (ORD) ⇒ 3,5 (I/R)

Attenzione

Spss (e la maggior parte dei software statistici) fannosempre la media fra i due valori!

(10)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia

Se cambiano i valori estremi della distribuzione, la Mdn non cambia

(11)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia

Se cambiano i valori estremi della distribuzione, la Mdn non cambia

(12)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia

Se cambiano i valori estremi della distribuzione, la Mdn non cambia

(13)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia

Se cambiano i valori estremi della distribuzione, la Mdn non cambia

(14)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia

Se cambiano i valori estremi della distribuzione, la Mdn non cambia

(15)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia

Se cambiano i valori estremi della distribuzione, la Mdn non cambia

(16)

Tendenza centrale Mediana

Tendenza centrale: Mediana

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia

Se cambiano i valori estremi della distribuzione, la Mdn non cambia

(17)

Tendenza centrale Media

Tendenza centrale: media

Se 4 amici escono a mangiare la pizza e poi pagano in parti

uguali. . . stanno usando lamedia Ovvero:

(18 + 16.5 + 22 + 17.5)/4 Ovvero: 18.5 ∗ 4

Qualcuno paga di più e qualcuno di meno, ma, alla fine, il “di più” si annulla con il “di meno”

pizza, bibita e dessert

Marco 18.0

Clara 16.5

Daniela 22.0

Andrea 17.5

Totale 74.0

a testa 18.5

Marco 18.0 − 18.5 = 0.5 Clara 16.5 − 18.5 = 2.0 Daniela 22.0 − 18.5 = −3.5 Andrea 17.5 − 18.5 = 1.0 Totale 74.0 − 74.0 = 0

(18)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Lamedia aritmetica( ¯X, Md, M) è la somma (X

) di tutti i valori di una distribuzione, divisa per la numerosità (N)

X = PN

i=1Xi

N = P X

N

Esempio

M(10, 15, 16, 18, 20, 24, 32, 35, 38, 40) = 24.8

10 + 15 + 16 + 18 + 20 + 24 + 32 + 35 + 38 + 40

10 = 248

10

(19)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

Proprietà della media 2: Gli scarti dalla media sommano a 0

(20)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

Proprietà della media 2: Gli scarti dalla media sommano a 0

(21)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

Proprietà della media 2: Gli scarti dalla media sommano a 0

(22)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

Proprietà della media 2: Gli scarti dalla media sommano a 0

(23)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

Proprietà della media 2: Gli scarti dalla media sommano a 0

(24)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

Proprietà della media 2: Gli scarti dalla media sommano a 0

(25)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

Proprietà della media 2: Gli scarti dalla media sommano a 0

(26)

Tendenza centrale Media

Tendenza centrale: Media [aritmetica]

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

Proprietà della media 2: Gli scarti dalla media sommano a 0

(27)

Tendenza centrale Media

Spss: media

La media viene visualizzata da Spss in molte procedure. Quelle specifiche sono:

Analizza | Statistiche descrittive |

Frequenze... (fra le varie statistiche che è possibile stampare vi è anche la media)

Analizza | Statistiche descrittive |

Descrittive... (è la procedura specifica per le statistiche descrittive)

Analizza | Statistiche descrittive | Esplora...

(stampa la media come una delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)

(28)

Tendenza centrale Media

Spss: Media con Frequenze. . .

Dopo aver scelto le variabili, click-are su Statistiche... e selezionare Media

Quindi, click-are su Continua Con variabili quantitative conviene de-selezionare anche

oppure in Formato...

Poi OK

(29)

Tendenza centrale Media

Spss: Media con Descrittive. . .

Dopo aver scelto le variabili, click-are su Opzioni...

Normalmente Media è già selezionato

Potete ordinare i risultati in vari modi

Poi OK

(30)

Tendenza centrale Media

Tendenza centrale: Media con dati dicotomici

Se una variabile è dicotomica (D) ed è stata categorizzata con 0 e 1,la media di D equivale alla proporzione della categoria 1.

Infatti, possiamo pensare a D come la somma di tutti gli 0 e la somma di tutti gli 1.

D = P di

N = 0 · f0+ 1 · f1 N

Ma la somma degli 0 è 0 e la somma degli 1 è uguale alla frequenza degli 1.

Quindi la media di una variabile dicotomica è D = f1

N

L’equivalenza non vale se categorizziamo con numeri diversi da 0 e 1.

(31)

Tendenza centrale Media

Confronto fra statistiche

Moda(Nominale): è il peggior indice

Mediana(Ordinale): non è per nulla sensibile ai valori estremi Media(Intervallo/Rapporto):

è il miglior indice di tendenza centrale

ma è molto sensibile ai valori estremi della distribuzione

In una distribuzione simmetrica normale, media, mediana e moda coincidono

Se la media è minore della mediana la distribuzione è asimmetrica a sinistra

Se la media è maggiore della mediana, la distribuzione è asimmetrica a destra

(32)

Misure di posizione

Indici di posizione - Quantili

Dopo aver ordinato i valori di una distribuzione, possiamo suddividere l’intera distribuzione di frequenza in n parti uguali.

Se divisa in 100 parti,Centili(C1, C2. . . , C99) oPercentili(P1, P2. . . )

se divisa in 10 parti,Decili(D1, D2. . . , D9) se divisa in 4 parti,Quartili(Q1, Q2, Q3) se divisa in 3 parti,Terzili

Notate che

D1= P10, e così via Q1= P25,

Q2= P50= D5è anche chiamato “Mediana”, Q3= P75

(33)

Misure di posizione

Quartili

I quartili suddividono la distribuzione in 4 parti uguali

Q1 Q2 Q3

Si usano solitamente il primo e il terzo quartile (Q1 e Q3) Q1 ha sotto di sé il 25% dei dati

25% 75%

Q2 ha sotto di sé il 50% dei dati

50% 50%

Q3 ha sotto di sé il 75% dei dati

75% 25%

(34)

Misure di posizione

Quartili: formule

La posizione in cui cadono i quartili si trova con:

Q1 = 1

4(N + 1) = (N + 1) 4 Q2 = 2

4(N + 1) = 2(N + 1)

4 = N + 1

2 Q3 = 3

4(N + 1) = 3(N + 1) 4

Se la posizione trovata non è un intero, si tronca (ovvero si usa l’intero inferiore)

Una volta trovata la posizione si identifica il valore del quartile (il valore che corrisponde alla posizione)

(35)

Misure di posizione

Quartili

Esempio

2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8 Q2 = (15+1)/2 = 8 ⇒ Q2=16

Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24

Esercizio 2 4 5 9 10 12

1 Q1 = ?

2 Q2 = ?

Soluzione 2 4 5 9 10 12

1 N=6; pos=1.75; Q1=2

2 N=6; pos=3.5; Q2=5

3 N=6; pos=5.25; Q3=10

(36)

Misure di posizione

Quartili

Esempio

2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8 Q2 = (15+1)/2 = 8 ⇒ Q2=16

Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24

Esercizio 2 4 5 9 10 12

1 Q1 = ?

2 Q2 = ?

3 Q3 = ?

Soluzione 2 4 5 9 10 12

1 N=6; pos=1.75; Q1=2

2 N=6; pos=3.5; Q2=5

3 N=6; pos=5.25; Q3=10

(37)

Misure di posizione

Spss: n-tili (Frequenze)

In Statistiche...

Quartilicalcola i quartili Punti di divisionedivide in nparti uguali

Percentili: scrivete il percentile che volete e aggiungete

Qui abbiamo chiesto: i quartili, i terzili e il 45esimo percentile

(38)

Misure di posizione

Spss: Esplora. . .

Dopo aver scelto le variabili, metterle in Variabili dipendenti

poi

click-are su

Statistiche...

e scegliere Percentili Quindi, click-are su

Continua

Poi OK

(39)

Misure di posizione

Spss: Esplora. . .

Esploranon permette di scegliere, ma fornisce alcuni n-tili notevoli

I tre quartili e i valori corrispondenti al 5% e 10% su entrambi i lati.

Questi valori hanno particolarmente senso con variabili “normali”

(capiremo più avanti).

(40)

Misure di variabilità

Misure di variabilità

Gli indici di variabilità ci dicono quanto i valori sono dipersi attorno alla tendenza centrale.

Esempio

valori P X/N = M

7 7 6 5 4 4 4 3 40/8=5 10 10 9 7 5 4 3 2 0 0 50/10=5

A livello di scala intervallo/rapporto ci sono diversi indici di variabilità:

Campo di variazione o gamma (di oscillazione) o range Differenza interquartilica (IQR)

Deviazione media o scostamento semplice medio Varianza e deviazione standard

(41)

Misure di variabilità

Misure di variabilità: campo di variazione

Ilcampo di variazioneogamma(di oscillazione) orangeo

intervallo(per SPSS) è la differenza fra il valore massimo e quello minimo

gamma = max − min

Esempio

valori campo var.

7 7 6 5 4 4 4 3 7-3=4 10 10 9 7 5 4 3 2 0 0 10-0=10

(42)

Misure di variabilità

Misure di variabilità: differenza interquartilica

Ladifferenza interquartilica(DI, IQR) è la differenza fra il terzo e il primo quartile

IQR = Q3− Q1

e corrisponde al 50% centrale dei valori centrali della distribuzione Esempio

valori Q3-Q1 IQR

7 7 6 5 4 4 4 3 6-4 2 10 10 9 7 5 4 3 2 0 0 7-0 7

La semi-differenza interquartilica è la metà dell’IQR e corrisponde al 25% dei valori sopra o sotto la mediana

(43)

Misure di variabilità

Misure di variabilità

Gli scarti dalla media potrebbero essere una misura di variabilità, sennonché abbiamo visto che

la somma degli scarti dalla media è sempre pari a 0 (zero) Alcune soluzioni sono:

Deviazione media (DM)oscostamento semplice medio (SSM):

considerare gli scarti senza il segno (in valore assoluto) e fare la loro media

DM = PN

i=1|Xi− X|

N

Varianza (var): elevare gli scarti a quadrato e fare la loro media var =

PN

i=1(Xi− X)2 N

(44)

Misure di variabilità

Misure di variabilità

La scelta generale è caduta sulla varianza, perché minimizza le piccole differenze e massimizza le grandi differenze

Però la varianza è un quadrato (un’area) e quindi si introduce anche una versione lineare (che è una distanza), lo scarto quadratico medio.

Loscarto quadratico medio (sqm)odeviazione standard (ds)è la radice quadrata della varianza

ds =√ var =

s

P(Xi− X)2 N

(45)

Misure di variabilità

Misure di variabilità

Esempio Var(1,2,3,4,5) =

[(1 − 3)2+ (2 − 3)2+ (3 − 3)2+ (4 − 3)2+ (5 − 3)2]

5 =

[(−2)2+ (−1)2+ (0)2+ (1)2+ (2)2]

5 = 4 + 1 + 0 + 1 + 4

5 =

10 5 = 2 DS(1,2,3,4,5)=√

2 = 1.41

(46)

Misure di variabilità

Misure di variabilità

la varianza finora vista è calcolata sul campione var=

PN

i=1(Xi− X)2 N

possiamo però usare il campione perstimare la varianza della popolazione, in tal caso la formula diventa:

varstimata= PN

i=1(Xi− X)2 N − 1

(47)

Misure di variabilità

Misure di variabilità: formula alternativa

Calcolare gli scarti dalla media, nella maggior parte dei casi, produce valori decimali che possono generare imprecisioni nei calcoli. Esiste quindi una formula alternativa da usare con i dati grezzi:

X X − M (X − M )2 X2

2 -0,8 0,64 4

2 -0,8 0,64 4

3 0,2 0,04 9

3 0,2 0,04 9

4 1,2 1,44 16

Somma 14 2,8 42

Media 2,8 0,56 8,4

V ar =

= 42 5 − 2.82

= 8.4 − 7.84 =

= 0.56

= P X2 N − X2 La varianza è quindi uguale a. . . la media dei quadrati meno il

(48)

Misure di variabilità

Misure di variabilità: formula alternativa

var = P X2

N − X2 =

P X2−P(X)2 N N

Con N − 1 la formula non è così semplice, ma bisogna “aggiustarla”

var stimata = N N − 1

P X2

N − X2= P X2

N − X2 =

P X2−P(X)2 N N − 1

(49)

Misure di variabilità

Proprietà della varianza (e dev. st)

Esercizio

1 var(1,2,3,4,5)

2 var(3,4,5,6,7)

3 var(2,4,6,8,10)

Soluzione

1 5/4 ∗ (55/5 − 32) = 2.5, s = 1.58

2 5/4 ∗ (135/5 − 52) = 2.5, s = 1.58

3 5/4 ∗ (220/5 − 62) = 10, s = 3.16

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la varianza cambia ma la dev. st. subisce la stessa trasformazione

(50)

Misure di variabilità

Proprietà della varianza (e dev. st)

Esercizio

1 var(1,2,3,4,5)

2 var(3,4,5,6,7)

3 var(2,4,6,8,10)

Soluzione

1 5/4 ∗ (55/5 − 32) = 2.5, s = 1.58

2 5/4 ∗ (135/5 − 52) = 2.5, s = 1.58

3 5/4 ∗ (220/5 − 62) = 10, s = 3.16

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la varianza cambia ma la dev. st. subisce la stessa trasformazione

(51)

Misure di variabilità

Spss: Variabilità

Anche varianza e dev. st. sono visualizzate da Spss (sempre N-1) in molte procedure. Quelle specifiche sono:

Analizza | Statistiche descrittive |

Frequenze... (fra le varie statistiche vi è anche quelle di variabilità)

Analizza | Statistiche descrittive |

Descrittive... (è la procedura specifica per le statistiche descrittive)

Analizza | Statistiche descrittive | Esplora...

(stampa le misure di variabilità come parte delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)

(52)

Misure di variabilità

Spss: Variabilità con Frequenze. . .

Dopo aver scelto le variabili, click-are su Statistiche... e selezionare quelle che servono

Quindi, click-are su Continua

Con variabili quantitative conviene selezionare anche

oppure in Formato...

OK

(53)

Misure di variabilità

Spss: Variabilità con Descrittive. . .

Dopo aver scelto le variabili, click-are su Opzioni...

Poi Continua e OK

(54)

Misure di variabilità

Confronto fra statistiche

Campo di variazione(Intervallo/Rapporto): è l’indice più grossolano

Differenza interquartilica(Intervallo/Rapporto): poco usato in psicologia

Semi-differenza interquartilica(Intervallo/Rapporto): pochissimo usato in psicologia

Deviazione media(Intervallo/Rapporto): per nulla usato

Varianza, Deviazione standard(Intervallo/Rapporto): i più usati

(55)

Valori anomali (Outlier)

Valori anomali

Alcuni indici non sono influenzati dai valori estremi (Mediana) Altri sono influenzati (Media, Varianza)

C’è la necessità (non sempre) di identificare questi valori estremi, chiamativalori anomaliooutlier

La rappresentazione grafica (istogrammi) può aiutare, ma dipende molto dall’abilità di chi guarda il grafico

Un indice che viene usato è basato su (IQR) ∗ 1.5 Anche un grafico è basato su (IQR) ∗ 1.5

variabile A ordinata:2222 24 24 24 24 24 27 272727 30 30 31 31 32 33 33 33 333435 35 36 36 36 37 39 39 414242 42 44 45 45 45 46 46 5454 Mediana=34 Q1=27 Q3=42 IGR=(42-27)=15 IGR∗1.5=(4.5; 64.5)

(56)

Valori anomali (Outlier)

Diagramma a scatola e baffi

Il diagramma a scatola e baffi (box-and-whiskers) è stato ideato da Tukey nell’ambito della EDA (Exploratory data analysis). È più spesso chiamato “box-plot”

La scatola è formata dai valori corrispondenti al primo e al terzo quartile

25303540455055

Tukey's Boxplot

min Q1 Mdn Q3 max

La linea spessa dentro la scatola corrisponde alla mediana I baffi rappresentano cose diverse in base ai software: come primo approccio useremo i valori minimo e massimo

(57)

Valori anomali (Outlier)

Grafico a scatola [Box-plot] (I/R)

25303540455055

Tukey's Boxplot

Q1 Mdn

Q3 max

variabile A ordinata: 22 22 24 24 24 24 24 27 272727 30 30 31 31 32 33 33 33 333435 35 36 36 36 37 39 39 414242 42 44 45 45 45 46 46 5454 N=41; min=22;

Q1(10)=27;

Mdn(21)=34;

Q3(31)=42; max=54

(58)

Valori anomali (Outlier)

Grafico a scatola

In realtà i box-plot di SPSS ed R non visualizzano i valori minimo e massimo

Al loro posto viene usata la semi-differenza interquartilica

moltiplicata per 1,5; in una distribuzione normale, questo valore è quasi sempre oltre il massimo e oltre il minimo (quindi si

visualizzano max e min)

inoltre visualizzano i singoli valori anomali (i valori oltre i baffi), evidenziando quindi le code asimmetriche

L’utilità dei box-plot è più evidente se si incrociano con una variabile categoriale, perché si possono fare confronti sulle distribuzioni dei sotto-campioni

(59)

Valori anomali (Outlier)

Grafico a scatola (I/R)

200300400500600

Vendita biglietti cinema

variabile Gross ordinata: 172 173 173 174 175 176 176 177 177 178 180 180 181 181 181 181 183 183 183184184 184 185 188 190 191 192 194 197 199 199 202 202 205 206 207 211 213 215216217 218 219 226 228 229 233 234 235 239 241 242 242 246 250 251 256 257 260260262 268 286 290 294 306 309 311 313 318 329 330 339 357 404 431 435 461 601

IQR: (260 − 184) ∗ 1.5 = 114 baffi: 70 e 374

(60)

Valori anomali (Outlier)

Grafico a scatola (I/R) suddiviso (N/O)

50100150

Fondamentalismo

Per ogni valore della variabile di

raggruppamento, viene prodotto un box-plot In questo modo si possono vedere le differenze di distribuzione

(61)

Valori anomali (Outlier)

Spss: Box-plot (Esplora)

Spss produce i box-plot tramite Analizza | Statistiche descrittive | Esplora...e dal pulsante Grafici...

assicuratevi di aver attivato una delle prime due opzioni diGrafici a scatola

Se avete selezionato più variabili, “Un grafico ogni dipendente” produce grafici separati

”Dipendenti insieme”

produce un unico grafico

(62)

Valori anomali (Outlier)

Spss: Box-plot

Esempio di box-plot di Spss

Riferimenti

Documenti correlati

Un livello di misura è ad intervallo/rapporto quando i valori assunti dalla variabile possono essere espressi tramite numeri che fanno riferimento ad una specifica unità di misura

È la somma delle frequenze che precedono una determinata categoria La frequenza cumulata della prima categoria è uguale a se stessa la frequenza cumulata delle categorie intermedie,

curtosi (o kurtosis): quanto la curva dei nostri dati è più piatta o più acuta di quella della

Confrontare variabili diverse fra loro non è possibile se non usando la stessa scala di misura e lo stesso metro.. È come decidere se 3 banane sono di più di 3 arance Sono cose

In questa categoria ricadono i grafici che utilizzano una variabile quantitativa e una variabile qualitativa, nonché tabelle che incrociano una qualitativa e una

Per ora vedremo la correlazione lineare prodotto-momento di Bravais-Pearson più conosciuta come correlazione di Pearson e a cui ci si riferisce per antonomasia quando si parla

Un modo generalmente usato per avere la rappresentatività è quella della selezione casuale dei casi statistica dalla popolazione Questi campioni sono chiamati campioni casuali

Se la correlazione trovata nel nostro campione di partenza è compresa nel 95% attorno alla media di 0, allora la nostra correlazione sarà non significativa ovvero casualmente