Elementi di Psicometria con Laboratorio di SPSS 1
03-Medie, variabilità e dispersione vers. 1.0 (15 ottobre 2014)
Germano Rossi1
1Dipartimento di Psicologia, Università di Milano-Bicocca
2014-2015
Introduzione
I dati della tabella 3.1 (del libro) rappresentati graficamente. Possiamo vedere che 13 valori sono su 4 valori e 11 su 8.
Introduzione
Ci sono almeno due informazioni che possiamo raccogliere su datiquantitativi:
latendenza centrale: un valore che meglio rappresenta tutta la distribuzione
lavariabilità: quanto i valori si disperdono attorno al valore centrale
Un ulteriore blocco di informazioni si chiamanoindici di posizione.
Tendenza centrale
Tendenza centrale
La tendenza centrale è un’indicazione generica di come sta andando la distribuizione della variabile
Ci sono diversi indici che “misurano” la tendenza centrale, alcuni poco informativi, altri molto informativi
Livello nominale: Moda Livello ordinale: Mediana
Livello intervallo/rapporto:Media
Ricordiamo che ogni livello “eredita” dai livelli precedenti
Tendenza centrale Moda
Tendenza centrale: Moda
LaModa(Mo) è la frequenza più elevata di una distribuzione Se c’è una sola moda, la distribuzione si diceUnimodale Se sono 2,Bimodale
Se sono più di 2,Multimodale(ma non si utilizza) Esempio
M=17, F=13 ⇒Maschiperché ha frequenza 17
Se ci sono molte categorie, oppure poche categorie tutte con frequenze simili, la moda non ha molto senso.
Esempio
1 1 1 2 2 2 2 3 3 3 Mo=2 (ma non ha molto senso)
Tendenza centrale Moda
Spss: moda
Tramite Analizza | Statistiche descrittive | Frequenze...
pulsante
Statistiche , possiamo far calcolare la moda.
poi Continua e OK
Tendenza centrale Mediana
Tendenza centrale: Mediana
Lamediana(Mdn) divide la distribuzione a metà (corrisponde, ma non è sempre uguale, a Q2)
Se N è dispari, la Mdn è ilvalore in posizione centrale, corrispondente a (N + 1)/2
Esempio
Dati grezzi 5 2 1 3 5 1 4 4 3 1 5
Ordinati 1 1 1 2 3 3 4 4 5 5 5
⇑ (11 + 1)/2 = 6 ⇒Mdn=3
Tendenza centrale Mediana
Tendenza centrale: Mediana
Se N è pari, la Mdn è ilvalore fra le 2 posizioni centrali (se esiste) cioè fra N/2 e (N/2) + 1
Se i due valori sono uguali, quello è il valore della mediana Esempio
Dati grezzi 5 2 1 3 5 1 4 4 3 1
Ordinati 1 1 1 2 3 3 4 4 5 5
⇑ ⇑
N/2 = 10/2 = 5e (N/2) + 1 = 5 + 1 = 6 ⇒Mdn=3
Tendenza centrale Mediana
Tendenza centrale: Mediana
Se i due valori sono diversi
se la scala èordinale: entrambi costituiscono la mediana se èquantitativa: si fa la media fra i due valori
Esempio
Dati grezzi 5 2 1 4 5 1 4 4 3 1
Ordinati 1 1 1 2 3 4 4 4 5 5
⇑ ⇑
N/2 = 10/2 = 5e (N/2) + 1 = 5 + 1 = 6 ⇒Mdn=3;4 (ORD) ⇒ 3,5 (I/R)
Attenzione
Spss (e la maggior parte dei software statistici) fannosempre la media fra i due valori!
Tendenza centrale Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Tendenza centrale Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Tendenza centrale Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Tendenza centrale Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Tendenza centrale Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Tendenza centrale Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Tendenza centrale Mediana
Tendenza centrale: Mediana
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Tendenza centrale Media
Tendenza centrale: media
Se 4 amici escono a mangiare la pizza e poi pagano in parti
uguali. . . stanno usando lamedia Ovvero:
(18 + 16.5 + 22 + 17.5)/4 Ovvero: 18.5 ∗ 4
Qualcuno paga di più e qualcuno di meno, ma, alla fine, il “di più” si annulla con il “di meno”
pizza, bibita e dessert
Marco 18.0
Clara 16.5
Daniela 22.0
Andrea 17.5
Totale 74.0
a testa 18.5
Marco 18.0 − 18.5 = 0.5 Clara 16.5 − 18.5 = 2.0 Daniela 22.0 − 18.5 = −3.5 Andrea 17.5 − 18.5 = 1.0 Totale 74.0 − 74.0 = 0
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Lamedia aritmetica( ¯X, Md, M) è la somma (X
) di tutti i valori di una distribuzione, divisa per la numerosità (N)
X = PN
i=1Xi
N = P X
N
Esempio
M(10, 15, 16, 18, 20, 24, 32, 35, 38, 40) = 24.8
10 + 15 + 16 + 18 + 20 + 24 + 32 + 35 + 38 + 40
10 = 248
10
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
Tendenza centrale Media
Tendenza centrale: Media [aritmetica]
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Proprietà della media 2: Gli scarti dalla media sommano a 0
Tendenza centrale Media
Spss: media
La media viene visualizzata da Spss in molte procedure. Quelle specifiche sono:
Analizza | Statistiche descrittive |
Frequenze... (fra le varie statistiche che è possibile stampare vi è anche la media)
Analizza | Statistiche descrittive |
Descrittive... (è la procedura specifica per le statistiche descrittive)
Analizza | Statistiche descrittive | Esplora...
(stampa la media come una delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)
Tendenza centrale Media
Spss: Media con Frequenze. . .
Dopo aver scelto le variabili, click-are su Statistiche... e selezionare Media
Quindi, click-are su Continua Con variabili quantitative conviene de-selezionare anche
oppure in Formato...
Poi OK
Tendenza centrale Media
Spss: Media con Descrittive. . .
Dopo aver scelto le variabili, click-are su Opzioni...
Normalmente Media è già selezionato
Potete ordinare i risultati in vari modi
Poi OK
Tendenza centrale Media
Tendenza centrale: Media con dati dicotomici
Se una variabile è dicotomica (D) ed è stata categorizzata con 0 e 1,la media di D equivale alla proporzione della categoria 1.
Infatti, possiamo pensare a D come la somma di tutti gli 0 e la somma di tutti gli 1.
D = P di
N = 0 · f0+ 1 · f1 N
Ma la somma degli 0 è 0 e la somma degli 1 è uguale alla frequenza degli 1.
Quindi la media di una variabile dicotomica è D = f1
N
L’equivalenza non vale se categorizziamo con numeri diversi da 0 e 1.
Tendenza centrale Media
Confronto fra statistiche
Moda(Nominale): è il peggior indice
Mediana(Ordinale): non è per nulla sensibile ai valori estremi Media(Intervallo/Rapporto):
è il miglior indice di tendenza centrale
ma è molto sensibile ai valori estremi della distribuzione
In una distribuzione simmetrica normale, media, mediana e moda coincidono
Se la media è minore della mediana la distribuzione è asimmetrica a sinistra
Se la media è maggiore della mediana, la distribuzione è asimmetrica a destra
Misure di posizione
Indici di posizione - Quantili
Dopo aver ordinato i valori di una distribuzione, possiamo suddividere l’intera distribuzione di frequenza in n parti uguali.
Se divisa in 100 parti,Centili(C1, C2. . . , C99) oPercentili(P1, P2. . . )
se divisa in 10 parti,Decili(D1, D2. . . , D9) se divisa in 4 parti,Quartili(Q1, Q2, Q3) se divisa in 3 parti,Terzili
Notate che
D1= P10, e così via Q1= P25,
Q2= P50= D5è anche chiamato “Mediana”, Q3= P75
Misure di posizione
Quartili
I quartili suddividono la distribuzione in 4 parti uguali
Q1 Q2 Q3
Si usano solitamente il primo e il terzo quartile (Q1 e Q3) Q1 ha sotto di sé il 25% dei dati
25% 75%
Q2 ha sotto di sé il 50% dei dati
50% 50%
Q3 ha sotto di sé il 75% dei dati
75% 25%
Misure di posizione
Quartili: formule
La posizione in cui cadono i quartili si trova con:
Q1 = 1
4(N + 1) = (N + 1) 4 Q2 = 2
4(N + 1) = 2(N + 1)
4 = N + 1
2 Q3 = 3
4(N + 1) = 3(N + 1) 4
Se la posizione trovata non è un intero, si tronca (ovvero si usa l’intero inferiore)
Una volta trovata la posizione si identifica il valore del quartile (il valore che corrisponde alla posizione)
Misure di posizione
Quartili
Esempio
2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8 Q2 = (15+1)/2 = 8 ⇒ Q2=16
Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24
Esercizio 2 4 5 9 10 12
1 Q1 = ?
2 Q2 = ?
Soluzione 2 4 5 9 10 12
1 N=6; pos=1.75; Q1=2
2 N=6; pos=3.5; Q2=5
3 N=6; pos=5.25; Q3=10
Misure di posizione
Quartili
Esempio
2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8 Q2 = (15+1)/2 = 8 ⇒ Q2=16
Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24
Esercizio 2 4 5 9 10 12
1 Q1 = ?
2 Q2 = ?
3 Q3 = ?
Soluzione 2 4 5 9 10 12
1 N=6; pos=1.75; Q1=2
2 N=6; pos=3.5; Q2=5
3 N=6; pos=5.25; Q3=10
Misure di posizione
Spss: n-tili (Frequenze)
In Statistiche...
Quartilicalcola i quartili Punti di divisionedivide in nparti uguali
Percentili: scrivete il percentile che volete e aggiungete
Qui abbiamo chiesto: i quartili, i terzili e il 45esimo percentile
Misure di posizione
Spss: Esplora. . .
Dopo aver scelto le variabili, metterle in Variabili dipendenti
poi
click-are su
Statistiche...
e scegliere Percentili Quindi, click-are su
Continua
Poi OK
Misure di posizione
Spss: Esplora. . .
Esploranon permette di scegliere, ma fornisce alcuni n-tili notevoli
I tre quartili e i valori corrispondenti al 5% e 10% su entrambi i lati.
Questi valori hanno particolarmente senso con variabili “normali”
(capiremo più avanti).
Misure di variabilità
Misure di variabilità
Gli indici di variabilità ci dicono quanto i valori sono dipersi attorno alla tendenza centrale.
Esempio
valori P X/N = M
7 7 6 5 4 4 4 3 40/8=5 10 10 9 7 5 4 3 2 0 0 50/10=5
A livello di scala intervallo/rapporto ci sono diversi indici di variabilità:
Campo di variazione o gamma (di oscillazione) o range Differenza interquartilica (IQR)
Deviazione media o scostamento semplice medio Varianza e deviazione standard
Misure di variabilità
Misure di variabilità: campo di variazione
Ilcampo di variazioneogamma(di oscillazione) orangeo
intervallo(per SPSS) è la differenza fra il valore massimo e quello minimo
gamma = max − min
Esempio
valori campo var.
7 7 6 5 4 4 4 3 7-3=4 10 10 9 7 5 4 3 2 0 0 10-0=10
Misure di variabilità
Misure di variabilità: differenza interquartilica
Ladifferenza interquartilica(DI, IQR) è la differenza fra il terzo e il primo quartile
IQR = Q3− Q1
e corrisponde al 50% centrale dei valori centrali della distribuzione Esempio
valori Q3-Q1 IQR
7 7 6 5 4 4 4 3 6-4 2 10 10 9 7 5 4 3 2 0 0 7-0 7
La semi-differenza interquartilica è la metà dell’IQR e corrisponde al 25% dei valori sopra o sotto la mediana
Misure di variabilità
Misure di variabilità
Gli scarti dalla media potrebbero essere una misura di variabilità, sennonché abbiamo visto che
la somma degli scarti dalla media è sempre pari a 0 (zero) Alcune soluzioni sono:
Deviazione media (DM)oscostamento semplice medio (SSM):
considerare gli scarti senza il segno (in valore assoluto) e fare la loro media
DM = PN
i=1|Xi− X|
N
Varianza (var): elevare gli scarti a quadrato e fare la loro media var =
PN
i=1(Xi− X)2 N
Misure di variabilità
Misure di variabilità
La scelta generale è caduta sulla varianza, perché minimizza le piccole differenze e massimizza le grandi differenze
Però la varianza è un quadrato (un’area) e quindi si introduce anche una versione lineare (che è una distanza), lo scarto quadratico medio.
Loscarto quadratico medio (sqm)odeviazione standard (ds)è la radice quadrata della varianza
ds =√ var =
s
P(Xi− X)2 N
Misure di variabilità
Misure di variabilità
Esempio Var(1,2,3,4,5) =
[(1 − 3)2+ (2 − 3)2+ (3 − 3)2+ (4 − 3)2+ (5 − 3)2]
5 =
[(−2)2+ (−1)2+ (0)2+ (1)2+ (2)2]
5 = 4 + 1 + 0 + 1 + 4
5 =
10 5 = 2 DS(1,2,3,4,5)=√
2 = 1.41
Misure di variabilità
Misure di variabilità
la varianza finora vista è calcolata sul campione var=
PN
i=1(Xi− X)2 N
possiamo però usare il campione perstimare la varianza della popolazione, in tal caso la formula diventa:
varstimata= PN
i=1(Xi− X)2 N − 1
Misure di variabilità
Misure di variabilità: formula alternativa
Calcolare gli scarti dalla media, nella maggior parte dei casi, produce valori decimali che possono generare imprecisioni nei calcoli. Esiste quindi una formula alternativa da usare con i dati grezzi:
X X − M (X − M )2 X2
2 -0,8 0,64 4
2 -0,8 0,64 4
3 0,2 0,04 9
3 0,2 0,04 9
4 1,2 1,44 16
Somma 14 2,8 42
Media 2,8 0,56 8,4
V ar =
= 42 5 − 2.82
= 8.4 − 7.84 =
= 0.56
= P X2 N − X2 La varianza è quindi uguale a. . . la media dei quadrati meno il
Misure di variabilità
Misure di variabilità: formula alternativa
var = P X2
N − X2 =
P X2−P(X)2 N N
Con N − 1 la formula non è così semplice, ma bisogna “aggiustarla”
var stimata = N N − 1
P X2
N − X2= P X2
N − X2 =
P X2−P(X)2 N N − 1
Misure di variabilità
Proprietà della varianza (e dev. st)
Esercizio
1 var(1,2,3,4,5)
2 var(3,4,5,6,7)
3 var(2,4,6,8,10)
Soluzione
1 5/4 ∗ (55/5 − 32) = 2.5, s = 1.58
2 5/4 ∗ (135/5 − 52) = 2.5, s = 1.58
3 5/4 ∗ (220/5 − 62) = 10, s = 3.16
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la varianza cambia ma la dev. st. subisce la stessa trasformazione
Misure di variabilità
Proprietà della varianza (e dev. st)
Esercizio
1 var(1,2,3,4,5)
2 var(3,4,5,6,7)
3 var(2,4,6,8,10)
Soluzione
1 5/4 ∗ (55/5 − 32) = 2.5, s = 1.58
2 5/4 ∗ (135/5 − 52) = 2.5, s = 1.58
3 5/4 ∗ (220/5 − 62) = 10, s = 3.16
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la varianza cambia ma la dev. st. subisce la stessa trasformazione
Misure di variabilità
Spss: Variabilità
Anche varianza e dev. st. sono visualizzate da Spss (sempre N-1) in molte procedure. Quelle specifiche sono:
Analizza | Statistiche descrittive |
Frequenze... (fra le varie statistiche vi è anche quelle di variabilità)
Analizza | Statistiche descrittive |
Descrittive... (è la procedura specifica per le statistiche descrittive)
Analizza | Statistiche descrittive | Esplora...
(stampa le misure di variabilità come parte delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)
Misure di variabilità
Spss: Variabilità con Frequenze. . .
Dopo aver scelto le variabili, click-are su Statistiche... e selezionare quelle che servono
Quindi, click-are su Continua
Con variabili quantitative conviene selezionare anche
oppure in Formato...
OK
Misure di variabilità
Spss: Variabilità con Descrittive. . .
Dopo aver scelto le variabili, click-are su Opzioni...
Poi Continua e OK
Misure di variabilità
Confronto fra statistiche
Campo di variazione(Intervallo/Rapporto): è l’indice più grossolano
Differenza interquartilica(Intervallo/Rapporto): poco usato in psicologia
Semi-differenza interquartilica(Intervallo/Rapporto): pochissimo usato in psicologia
Deviazione media(Intervallo/Rapporto): per nulla usato
Varianza, Deviazione standard(Intervallo/Rapporto): i più usati
Valori anomali (Outlier)
Valori anomali
Alcuni indici non sono influenzati dai valori estremi (Mediana) Altri sono influenzati (Media, Varianza)
C’è la necessità (non sempre) di identificare questi valori estremi, chiamativalori anomaliooutlier
La rappresentazione grafica (istogrammi) può aiutare, ma dipende molto dall’abilità di chi guarda il grafico
Un indice che viene usato è basato su (IQR) ∗ 1.5 Anche un grafico è basato su (IQR) ∗ 1.5
variabile A ordinata:2222 24 24 24 24 24 27 272727 30 30 31 31 32 33 33 33 333435 35 36 36 36 37 39 39 414242 42 44 45 45 45 46 46 5454 Mediana=34 Q1=27 Q3=42 IGR=(42-27)=15 IGR∗1.5=(4.5; 64.5)
Valori anomali (Outlier)
Diagramma a scatola e baffi
Il diagramma a scatola e baffi (box-and-whiskers) è stato ideato da Tukey nell’ambito della EDA (Exploratory data analysis). È più spesso chiamato “box-plot”
La scatola è formata dai valori corrispondenti al primo e al terzo quartile
25303540455055
Tukey's Boxplot
min Q1 Mdn Q3 max
La linea spessa dentro la scatola corrisponde alla mediana I baffi rappresentano cose diverse in base ai software: come primo approccio useremo i valori minimo e massimo
Valori anomali (Outlier)
Grafico a scatola [Box-plot] (I/R)
25303540455055
Tukey's Boxplot
Q1 Mdn
Q3 max
variabile A ordinata: 22 22 24 24 24 24 24 27 272727 30 30 31 31 32 33 33 33 333435 35 36 36 36 37 39 39 414242 42 44 45 45 45 46 46 5454 N=41; min=22;
Q1(10)=27;
Mdn(21)=34;
Q3(31)=42; max=54
Valori anomali (Outlier)
Grafico a scatola
In realtà i box-plot di SPSS ed R non visualizzano i valori minimo e massimo
Al loro posto viene usata la semi-differenza interquartilica
moltiplicata per 1,5; in una distribuzione normale, questo valore è quasi sempre oltre il massimo e oltre il minimo (quindi si
visualizzano max e min)
inoltre visualizzano i singoli valori anomali (i valori oltre i baffi), evidenziando quindi le code asimmetriche
L’utilità dei box-plot è più evidente se si incrociano con una variabile categoriale, perché si possono fare confronti sulle distribuzioni dei sotto-campioni
Valori anomali (Outlier)
Grafico a scatola (I/R)
●
●
●●
●
200300400500600
Vendita biglietti cinema
variabile Gross ordinata: 172 173 173 174 175 176 176 177 177 178 180 180 181 181 181 181 183 183 183184184 184 185 188 190 191 192 194 197 199 199 202 202 205 206 207 211 213 215216217 218 219 226 228 229 233 234 235 239 241 242 242 246 250 251 256 257 260260262 268 286 290 294 306 309 311 313 318 329 330 339 357 404 431 435 461 601
IQR: (260 − 184) ∗ 1.5 = 114 baffi: 70 e 374
Valori anomali (Outlier)
Grafico a scatola (I/R) suddiviso (N/O)
●
●●
●
●
●
●
50100150
Fondamentalismo
Per ogni valore della variabile di
raggruppamento, viene prodotto un box-plot In questo modo si possono vedere le differenze di distribuzione
Valori anomali (Outlier)
Spss: Box-plot (Esplora)
Spss produce i box-plot tramite Analizza | Statistiche descrittive | Esplora...e dal pulsante Grafici...
assicuratevi di aver attivato una delle prime due opzioni diGrafici a scatola
Se avete selezionato più variabili, “Un grafico ogni dipendente” produce grafici separati
”Dipendenti insieme”
produce un unico grafico
Valori anomali (Outlier)
Spss: Box-plot
Esempio di box-plot di Spss