Elementi di Psicometria (con laboratorio software 1)
02-Tendenza centrale e variabilità (v. 1.1d, 7 marzo 2021)
Germano Rossi1 germano.rossi@unimib.it
1Dipartimento di Psicologia, Università di Milano-Bicocca
a.a. 2020-21
Introduzione
Nel capitolo precedente abbiamo visto delle tecniche grafiche per riassumere i dati che abbiamo a disposizione.
In questo capitolo vediamo degli indici numerici che rappresentano le principali statistiche descrittive.
Indici della tendenza centrale (slide 3):
Indici di variabilità (slide26) Indici di posizione (slide39)
Rappresentazione grafica specifica per variabili I/R (slide 47) Indici per la distribuzione normale (slide 56)
Tendenza centrale
La “tendenza centrale” è un’indicazione generica di come sta andando la distribuzione della variabile
L’idea base è che sia possibile trovare un valore che rappresenti al meglio la “tendenza” generale dei dati
Ci sono diversi indici che “misurano” la tendenza centrale, alcuni poco informativi, altri molto informativi
Questi indici dipendono dalla scala di misura
Livello nominale: Moda (pochissimo informativa, p. 31) Livello ordinale: Mediana (poco informativa, p. 33)
Livello intervallo/rapporto: Media(molto informativa, slide p. 4)
Livello intervallo: Media
Se 4 amici escono a mangiare la pizza e poi pagano in parti uguali... stanno usando lamedia
Ovvero: si divide il conto (€ 80) fra gli amici (n=4)
Se la cifra singola (€ 20) non è un intero, si arrotonda e l’avanzo lo si lascia come mancia
pizza, bibita e dessert
Marco 21.5 €
Clara 16.5 €
Daniela 22.5 € Andrea 19.5 € Totale 80.0 € a testa 20.0 €
il calcolo è (21.5 + 16.5 + 22.5 + 19.5)/4 = 20 Qualcuno paga di più e qualcuno di meno
Livello intervallo: Media 2
Se 4 amici escono a mangiare la pizza e poi pagano in parti uguali...
La media è il punto di equilibrio dell’intera distribuzione
Qualcuno paga di più e qualcuno di meno
Marco 21.5 − 20 = 1.5 Clara 16.5 − 20 = −3.5 Daniela 22.5 − 20 = 2.5 Andrea 19.5 − 20 = −0.5 Totale 80.0 − 80.0 = 0
la somma delle differenze positive dalla media (+4) e di quelle negative (-4) si annullano a vicenda
Proprietà della media: Gli scarti dalla media sommano a 0
Media
Logica: La media aritmetica(X , M) è la somma (∑︁) di tutti i valori di una distribuzione, divisa per la numerosità (N)
Formalizzazione:
X = M =
∑︀N i =1Xi
N
SE i vale xi vale
Marco 1 18.0
Clara 2 16.5
Daniela 3 22.0
Andrea 4 17.5
18+ 16.5 + 22 + 17.5
4 = 74
4 = 18.5
Media
Logica: La media aritmetica(X , M) è la somma (∑︁) di tutti i valori di una distribuzione, divisa per la numerosità (N)
Formalizzazione:
X = M =
∑︀N i =1Xi
N
SE i vale xi vale
Marco 1 18.0
Clara 2 16.5
Daniela 3 22.0
Andrea 4 17.5
18 +16.5+ 22 + 17.5
4 = 74
4 = 18.5
Media
Logica: La media aritmetica(X , M) è la somma (∑︁) di tutti i valori di una distribuzione, divisa per la numerosità (N)
Formalizzazione:
X = M =
∑︀N i =1Xi
N
SE i vale xi vale
Marco 1 18.0
Clara 2 16.5
Daniela 3 22.0
Andrea 4 17.5
18 + 16.5 +22+ 17.5
4 = 74
4 = 18.5
Media
Logica: La media aritmetica(X , M) è la somma (∑︁) di tutti i valori di una distribuzione, divisa per la numerosità (N)
Formalizzazione:
X = M =
∑︀N i =1Xi
N
SE i vale xi vale
Marco 1 18.0
Clara 2 16.5
Daniela 3 22.0
Andrea 4 17.5
18 + 16.5 + 22 +17.5
4 = 74
4 = 18.5
Media [aritmetica]
La media aritmetica( ¯X , M) è la somma (∑︁) di tutti i valori di una distribuzione, divisa per la numerosità (N)
M =
∑︀N i =1Xi
N =
∑︀N i =1Xi
N =
∑︀X N
Esempio EsempioL.sav
M(10, 15, 16, 18, 20, 24, 32, 35, 38, 40) = 24.8
10 + 15 + 16 + 18 + 20 + 24 + 32 + 35 + 38 + 40
10 = 248
10
Uso della distribuzione di frequenza
Quando si utilizzano delle
distribuzioni di frequenza, si hanno i dati in un formato leggermente diverso. Anziché:
1 1 1 2 2 2 2 2 2 3 3 (M = 1.9)
Possiamo usare una forma tabellare dove per ogni valore (xi) indichiamo a fianco la frequenza (fi) con cui compare.
Esempio
xi fi xifi
1 3 1 x 3 3
2 6 2 x 6 12
3 2 3 x 2 6
∑︁ 11 21
Esempio M =
∑︀k i =1fixi
∑︀k i =1fi
=
∑︀fx N
Media [aritmetica]: verifica e proprietà
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Media [aritmetica]: verifica e proprietà
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Media [aritmetica]: verifica e proprietà
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Media [aritmetica]: verifica e proprietà
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Media [aritmetica]: verifica e proprietà
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Media [aritmetica]: verifica e proprietà
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Media [aritmetica]: verifica e proprietà
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Media [aritmetica]: verifica e proprietà
Esercizio
1 M(1,2,3,4,5)
2 M(3,4,5,6,7)
3 M(2,4,6,8,10)
Soluzione
1 (1+2+3+4+5)/5=15/5=3
2 (3+4+5+6+7)/5=25/5=5
3 (2+4+6+8+10)/5=30/5=6
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione
Media [aritmetica]: verifica
Esercizio
1 M(2,4,6,8,10)
2 M(1,4,6,8,16)
3 M(1,4,6,8,46)
Soluzione
1 (2+4+6+8+10)/5=30/5=6
2 (1+4+6+8+16)/5=35/5=7
3 (1+4+6+8+46)/5=65/5=13 Proprietà della media: La media è sensibile ai valori estremi
Media [aritmetica]: verifica
Esercizio
1 M(2,4,6,8,10)
2 M(1,4,6,8,16)
3 M(1,4,6,8,46)
Soluzione
1 (2+4+6+8+10)/5=30/5=6
2 (1+4+6+8+16)/5=35/5=7
3 (1+4+6+8+46)/5=65/5=13 Proprietà della media: La media è sensibile ai valori estremi
Media [aritmetica]: verifica
Esercizio
1 M(2,4,6,8,10)
2 M(1,4,6,8,16)
3 M(1,4,6,8,46)
Soluzione
1 (2+4+6+8+10)/5=30/5=6
2 (1+4+6+8+16)/5=35/5=7
3 (1+4+6+8+46)/5=65/5=13 Proprietà della media: La media è sensibile ai valori estremi
Media [aritmetica]: verifica
Esercizio
1 M(2,4,6,8,10)
2 M(1,4,6,8,16)
3 M(1,4,6,8,46)
Soluzione
1 (2+4+6+8+10)/5=30/5=6
2 (1+4+6+8+16)/5=35/5=7
3 (1+4+6+8+46)/5=65/5=13 Proprietà della media: La media è sensibile ai valori estremi
Media [aritmetica]: verifica
Esercizio
1 M(2,4,6,8,10)
2 M(1,4,6,8,16)
3 M(1,4,6,8,46)
Soluzione
1 (2+4+6+8+10)/5=30/5=6
2 (1+4+6+8+16)/5=35/5=7
3 (1+4+6+8+46)/5=65/5=13 Proprietà della media: La media è sensibile ai valori estremi
SPSS: Media
La media viene visualizzata da Spss in quasi tutte le procedure come informazione aggiuntiva. Quelle specifiche per esplorare le variabili, sono:
Analizza | Statistiche descrittive | Frequenze...
(fra le varie statistiche che è possibile stampare vi è anche la media) Analizza | Statistiche descrittive | Descrittive...
(è la procedura specifica per le statistiche descrittive) Analizza | Statistiche descrittive | Esplora...
(stampa la media come una delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)
SPSS: Media con Frequenze...
Dopo aver scelto le variabili, click-are su Statistiche... e selezionare Media
Quindi, click-are su Continua Con variabili quantitative conviene de-selezionare anche
oppure in Formato...
Poi OK
SPSS: Media con Frequenze...
Usando set15.sav
SPSS: Media con Descrittive...
Dopo aver scelto le variabili, click-are su Opzioni...
Normalmente Media è già selezionato
Con più variabili, potete ordinare i risultati in vari modi Poi OK
Media con dati dicotomici
Se una variabile è dicotomica (D) ed è stata categorizzata con 0 e 1, la media di D equivale alla proporzione della categoria 1.
Infatti, possiamo pensare a D come la somma di tutti gli 0 e la somma di tutti gli 1.
D =
∑︀di
N = 0 · f0+ 1 · f1
N = f1
N
Ma la somma degli 0 è 0 e la somma degli 1 è uguale alla frequenza degli 1.
Quindi la media di una variabile dicotomica è D = f1
N (cioè la proporzione degli 1)
Media con dati dicotomici
Usando set15.sav
La media di una variabile dicotomica (0/1) è la proporzione della categoria 1
Livello nominale: Moda
La moda è la misura della tendenza centrale a livello nominale LaModa (Mo) è la frequenza più elevata di una distribuzione La logica è che il valore più frequente, a questo livello, rappresenta la tendenza generale meglio degli altri valori
può essere calcolata a tutti i livelli di misura a livello intervallo/rapporto è pochissimo usata
Moda
Se c’è una sola moda, la distribuzione si dice Unimodale Se sono 2, Bimodale
Se sono più di 2, Multimodale(ma non si utilizza) Esempio
Maschio=17, Femmina=13 ⇒Maschio perché ha frequenza 17
Se ci sono molte categorie, oppure poche categorie tutte con frequenze simili, la moda non ha molto senso.
Esempio
Mo(1 1 1 2 2 2 2 3 3 3) Mo=2 (ma non ha molto senso) Mo(1 1 1 1 2 2 2 3 3 3 3) Bimodale (ma non ha molto senso)
Livello ordinale: Mediana
Lamediana (Mdn) divide la distribuzione a metà
La logica è che, nei dati ordinati, il valore “centrale” è anche la tendenza
Se N è dispari, la Mdn è il valore in posizione centrale, corrispondente a (N + 1)/2
Esempio
1 2 3 4 5 6 7 8 9 10 11
Dati grezzi 5 2 1 3 5 1 4 4 3 1 5
Ordinati 1 1 1 2 3 3 4 4 5 5 5
⇑
Mediana, N pari
La mediana si può calcolare sia su scala ordinale sia su scala intervallo/rapporto, perciò (con N pari)
Se N è pari, la Mdn è il valore fra le 2 posizioni centrali (se esiste) cioè fra N/2 e (N/2) + 1
Se i due valori sono uguali, quello è il valore della mediana Esempio
Dati grezzi 5 2 1 3 5 1 4 4 3 1
Ordinati 1 1 1 2 3 3 4 4 5 5
⇑ ⇑
N/2 = 10/2 = 5 e (N/2) + 1 = 5 + 1 = 6 ⇒ Mdn = 3
Mediana, N pari
Se i due valori sono diversi
se la scala è ordinale: entrambi costituiscono la mediana se è quantitativa: si fa la media fra i due valori
Esempio
Dati grezzi 5 2 1 4 5 1 4 4 3 1
Ordinati 1 1 1 2 3 4 4 4 5 5
⇑ ⇑
N/2 = 10/2 = 5 e
(N/2) + 1 = 5 + 1 = 6 ⇒ Mdn=3;4 (ORD) ⇒ 3,5 (I/R) Attenzione
Spss (e la maggior parte dei software statistici) fanno sempre una stima
Mediana: Verifica
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione (quindi “ordinata”), la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Mediana: Verifica
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione (quindi “ordinata”), la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Mediana: Verifica
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione (quindi “ordinata”), la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Mediana: Verifica
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione (quindi “ordinata”), la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Mediana: Verifica
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione (quindi “ordinata”), la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Mediana: Verifica
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione (quindi “ordinata”), la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
Mediana: Verifica
Esercizio
1 Mdn (3,5,7,9,11)
2 Mdn (2,3,5,7,9,11,12)
3 Mdn (3,4,5,5,6,7)
4 Mdn (3,4,5,6,7,8)
5 Mdn (4,5,7,9,13)
6 Mdn (1,5,7,9,25)
Soluzione
1 N=5; pos=3; Mdn=7
2 N=7; pos=4; Mdn=7
3 N=6; pos=3 e 4; Mdn=5
4 N=6; pos=3 e 4; Mdn=5;6 (5,5)
5 N=5; pos=3; Mdn=7
6 N=5; pos=3; Mdn=7
Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione (quindi “ordinata”), la Mdn non cambia
Se cambiano i valori estremi della distribuzione, la Mdn non cambia
SPSS: Moda e Mediana
Moda e Mediana vengono visualizzate da Spss solo in queste procedure:
Analizza | Statistiche descrittive | Frequenze...
(fra le varie statistiche che è possibile stampare vi sono anche la moda e mediana)
Analizza | Statistiche descrittive | Esplora...
(stampa la mediana come una delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)
Spss-Frequenze: moda e mediana
Usando set15.sav Tramite Analizza | Statistiche descrittive | Frequenze...
pulsante
Statistiche , possiamo far calcolare delle statistiche, tra cui la moda e la mediana.
poi Continua e
“Modalità” è un termine alternativo a “Moda”
Spss-Esplora: mediana
Usando set15.sav Tramite Analizza | Statistiche descrittive | Esplora... pulsante
Statistiche , possiamo far calcolare la mediana.
poi Continua e OK
Concetto di variabilità
Gli indici di variabilità ci dicono quanto i valori sono dispersi attorno alla tendenza centrale.
Esempio
valori ∑︁X /N = M 7 7 6 5 4 4 4 3 40/8=5 10 10 9 7 5 4 3 2 0 0 50/10=5
Due distribuzioni con M uguale, ma dispersione diversa
A livello di scala intervallo/rapporto ci sono diversi indici di variabilità:
Campo di variazione o gamma (di oscillazione) o range Differenza interquartilica (DI o IQR)*
Deviazione media o scostamento semplice medio Varianza e deviazione standard
Misure di variabilità: campo di variazione
Il campo di variazioneo gamma(di oscillazione) o range o intervallo (per SPSS) è la differenza fra il valore massimo e quello minimo
gamma = max − min per variabili a intervallo/rapporto
Esempio
valori campo var.
7 7 6 5 4 4 4 3 7-3=4 10 10 9 7 5 4 3 2 0 0 10-0=10
Varianza
Sempre a livello intervallo/rapporto
Gli scarti dalla media potrebbero essere una misura di variabilità, senonché...
la somma degli scarti dalla media è sempre pari a 0 (zero) la soluzione è
Varianza (Var, s2): elevare gli scarti a quadrato e fare la loro media
var = s2 = DS2=
N
∑︁
i =1
(Xi− M)2
N = SS
N dove: Xi sono i punteggi delle singole unità statistiche M è la media della variabili
N è la numerosità
Varianza: formula alternativa
Calcolare gli scarti dalla media, nella maggior parte dei casi, produce valori decimali che possono generare imprecisioni nei calcoli. Esiste quindi una formula alternativa da usare con i dati grezzi:
X X − M (X − M)2 X2
2 -0,8 0,64 4
2 -0,8 0,64 4
3 0,2 0,04 9
3 0,2 0,04 9
4 1,2 1,44 16
Somma 14 0 2,8 42
Media 2,8 0,56 8,4
Var =
∑︀X2
N − M2
= 42
5 − 2.82
= 8.4 − 7.84 =
= 0.56
Deviazione standard
La varianza minimizza le piccole differenze e massimizza le grandi differenze
Però la varianza è un quadrato (un’area) e quindi si introduce anche una versione lineare (che è una distanza), lo scarto quadratico medio Lo scarto quadratico medio (sqm)o deviazione standard (DS, s)è la radice quadrata della varianza
DS = s =
√
s2=√ var =
√︃
∑︀(Xi − M)2 N
Varianza: esempi
Esempio
DS2(1,2,3,4,5) =
[(1 − 3)2+ (2 − 3)2+ (3 − 3)2+ (4 − 3)2+ (5 − 3)2]
5 =
[(−2)2+ (−1)2+ (0)2+ (1)2+ (2)2]
5 = 4 + 1 + 0 + 1 + 4
5 =
10 5 = 2 DS(1,2,3,4,5)=
√
2 = 1.41
Misure di variabilità
la varianza finora vista è stata calcolata su una piccola quantità di dati, che però vengono considerati come una popolazione
DS2 =
∑︀N
i =1(Xi − M)2
N DS =
√︃
∑︀(Xi − M)2 N
quando si calcola su un campione si effettua una correzione che tiene conto dell’ampiezza del campione stesso, in tal caso la formula diventa:
DS2 =
∑︀N
i =1(Xi − M)2
N − 1 DS =
√︃
∑︀(Xi − M)2 N − 1 dividere per N − 1 produce valori più grandi
con campioni grandi la divisione per N o per N − 1 non è molto diversa; per campioni piccoli, si.
Misure di variabilità: formula alternativa
Con N − 1 la formula alternativa non è così semplice, ma bisogna
“aggiustarla”
s2= N N − 1
(︃ ∑︀
X2 N − M2
)︃
s =
√︃
N N − 1
(︂ ∑︀X2 N − M2
)︂
Proprietà della varianza (e dev. st)
Esercizio
1 var(1,2,3,4,5)
2 var(3,4,5,6,7)
3 var(2,4,6,8,10)
Soluzione
1 5/4 * (55/5 − 32) = 2.5, s = 1.58
2 5/4 * (135/5 − 52) = 2.5, s = 1.58
3 5/4 * (220/5 − 62) = 10, s = 3.16 (1.58 × 2)
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza e (la DS) non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la varianza cambia ma la dev. st. subisce la stessa trasformazione
Proprietà della varianza (e dev. st)
Esercizio
1 var(1,2,3,4,5)
2 var(3,4,5,6,7)
3 var(2,4,6,8,10)
Soluzione
1 5/4 * (55/5 − 32) = 2.5, s = 1.58
2 5/4 * (135/5 − 52) = 2.5, s = 1.58
3 5/4 * (220/5 − 62) = 10, s = 3.16 (1.58 × 2)
1 i numeri da 1 a 5
2 i numeri della prima serie sommati a 2
3 i numeri della prima serie moltiplicati per 2
Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza e (la DS) non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la
Spss: Variabilità
Anche varianza e dev. st. sono visualizzate da Spss (sempre N-1) in molte procedure. Quelle specifiche sono:
Analizza | Statistiche descrittive | Frequenze...
(fra le varie statistiche vi è anche quelle di variabilità)
Analizza | Statistiche descrittive | Descrittive...
(è la procedura specifica per le statistiche descrittive) Analizza | Statistiche descrittive | Esplora...
(stampa le misure di variabilità come parte delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)
Tutti gli esempi che seguono, usandoset15.sav
Spss: Variabilità con Frequenze...
Dopo aver scelto le variabili, click-are su Statistiche... e selezionare quelle che servono
Quindi, click-are su Continua Con variabili quantitative conviene de-selezionare anche
oppure in Formato...
attivare
Infine OK
Spss: Variabilità con Descrittive...
Dopo aver scelto le variabili, click-are su
Opzioni... Selezionare Varianza,
Deviazione stand. e Intervallo
Poi Continua e OK
Spss: Variabilità con Esplora...
Dopo aver scelto le variabili, click-are su Statistiche...
e selezionate Descrittive Fra le varie statistiche stampate, ci sono anche varianza, deviazione standard e intervallo
Indici di posizione - Quantili N
Gli indici di posizione si possono calcolare a partire dal livello ordinale Posso essere utilizzati come indici di variabilità a livello ordinale Dopo aver ordinato i valori di una distribuzione, possiamo suddividere l’intera distribuzione di frequenza in n parti uguali.
un quantile è il valore che cade in una certa posizione
Se divisa in 100 parti,Centili(C1, C2. . . , C99) oPercentili(P1, P2. . . ) se divisa in 10 parti,Decili (D1, D2. . . , D9)
se divisa in 4 parti,Quartili (Q1, Q2, Q3) se divisa in 3 parti,Terzili
Notate che
D1= P10, e così via Q1= P25,
Q2= P50= D5è anche chiamato “Mediana”,
Quartili N
I quartili suddividono la distribuzione in 4 parti uguali
Q1 Q2 Q3
Si usano solitamente il primo e il terzo quartile (Q1 e Q3) Q1 ha sotto di sé il 25% dei dati
25% 75%
Q2 ha sotto di sé il 50% dei dati
50% 50%
Q3 ha sotto di sé il 75% dei dati
75% 25%
Quartili: formule N
La posizione in cui cadono i quartili si trova con:
Q1 = 1
4(N + 1) = (N + 1) 4 Q2 = 2
4(N + 1) = 2(N + 1)
4 = N + 1 2 Q3 = 3
4(N + 1) = 3(N + 1) 4
Se la posizione trovata non è un intero, si tronca (ovvero si usa l’intero inferiore)
Una volta trovata la posizione si identifica il valore del quartile (il valore che corrisponde alla posizione)
Quartili N
Esempio
2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 (N=15) Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8
Q2 = (15+1)/2 = 8 ⇒ Q2=16
Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24
Esercizio
2 4 5 9 10 12 (N=6)
1 Q1 = ?
2 Q2 = ?
Soluzione 2 4 5 9 10 12
1 pos=1.75; Q1=2
2 pos=3.5; Q2=5
3 pos=5.25; Q3=10
Quartili N
Esempio
2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 (N=15) Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8
Q2 = (15+1)/2 = 8 ⇒ Q2=16
Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24
Esercizio
2 4 5 9 10 12 (N=6)
1 Q1 = ?
2 Q2 = ?
3 Q3 = ?
Soluzione 2 4 5 9 10 12
1 pos=1.75; Q1=2
2 pos=3.5; Q2=5
3 pos=5.25; Q3=10
Quantili (utilizzo) N
A livello ordinale, con molte categorie, Q1 e Q3 possono essere usati come un indice di variabilità (poco informativo) sopra e sotto la mediana (Q2)
i terzili possono essere usati per studiare un campione che presenti punteggi bassi (≤ T1), medi (tra T1 e T2) o alti (>T2) in altre variabili quantitative
i quintili potrebbero essere usati per escludere il 20% centrale (0-40%
e 60-100%) di un’altra variabile, usando il 2o e 3o quintile
i percentili sono usati nei test psicologici standardizzati come punteggi di riferimento in base a variabili come il genere e/o le fasce di età.
Spss: n-tili (Frequenze) N
In Statistiche...
Quartili calcola i quartili Punti di divisione divide in n parti uguali
Percentili: scrivete il percentile che volete e aggiungete
Qui abbiamo chiesto: i quartili, i terzili e il 45esimo percentile
Spss: Esplora... N
Dopo aver scelto le variabili, metterle in Variabili dipendenti
poi
click-are su
Statistiche... e scegliere Percentili Quindi, click-are su
Continua
Poi OK
Spss: Esplora... N
Esplora non permette di scegliere i percentili, ma fornisce alcuni n-tili notevoli
I tre quartili e i valori corrispondenti al 5o e 10o percentile su entrambi i lati.
Questi valori hanno particolarmente senso con variabili “normali”
(capiremo più avanti) e sono usati in molti test psicologici (in particolare nei manuali di riferimento).
Diagramma a scatola e baffi N
Le rappresentazioni grafiche (in senso lato) di solito utilizzano informazioni tratte da indici statistici.
Le tabelle di frequenza, usano frequenze, percentuali e percentuali cumulate
Grafico a barre e istogramma usano rispettivamente le frequenze e i punteggi
Il grafico a torta le frequenze o le percentuali I diagrammi ramo foglia i singoli valori quantitativi*
Usando altri indici statistici possiamo fare altri tipi di rappresentazioni grafiche
Usando la differenza interquartilica si possono fare dei diagramma a scatola e baffi
Misure di variabilità: differenza interquartilica [I/R] N
Ladifferenza interquartilica(DI, IQR o interquartile range) è la differenza fra il terzo e il primo quartile
IQR = Q3− Q1
e corrisponde al 50% centrale dei valori della distribuzione Esempio
valori Q3-Q1 IQR
7 7 6 5 4 4 4 3 6-4 2
10 10 9 7 5 4 3 2 0 0 9-0 9
La semi-differenza interquartilica è la metà dell’IQR e corrisponde al 25% dei valori sopra o sotto la mediana
Diagramma a scatola e baffi N
Il diagramma a scatola e baffi (box-and-whiskers) è stato ideato da Tukey nell’ambito della EDA (Exploratory data analysis). È spesso chiamato
“box-plot”
La scatola è formata dai valori corrispondenti al primo e al terzo quartile
25303540455055
Tukey's Boxplot
min Q1 Mdn Q3 max
La linea spessa dentro la scatola corrisponde alla mediana
I baffi rappresentano cose diverse in base ai software: come primo approccio useremo i valori minimo e massimo
Grafico a scatola [Box-plot] (I/R) N
25303540455055
Tukey's Boxplot
min Q1 Mdn
Q3 max
variabile A ordinata: 22 22 24 24 24 24 24 27 27 27 27 30 30 31 31 32 33 33 33 3334 35 35 36 36 36 37 39 39 4142 42 42 44 45 45 45 46 46 54 54 N=41; min=22;
Q1(10)=27;
Mdn(21)=34;
Q3(31)=42; max=54 VariableA.sav
Grafico a scatola (I/R) N
In realtà i box-plot di SPSS ed R non visualizzano i valori minimo e massimo
Al loro posto viene usata la differenza interquartilica moltiplicata per 1,5; in una distribuzione normale, questo valore è quasi sempre oltre il massimo e oltre il minimo (quindi si visualizzano max e min)
inoltre visualizzano i singoli valori anomali (i valori oltre i baffi), evidenziando quindi le code asimmetriche
L’utilità dei box-plot è più evidente se si incrociano con una variabile categoriale, perché si possono fare confronti sulle distribuzioni dei sotto-campioni
Grafico a scatola (I/R) N
Variabile asimmetrica
●
●
●●
●
200300400500600
Vendita biglietti cinema
gross.sav
variabile Gross ordinata: 172 173 173 174 175 176 176 177 177 178 180 180 181 181 181 181 183 183 183184 184 184 185 188 190 191 192 194 197 199 199 202 202 205 206 207 211 213 215216217 218 219 226 228 229 233 234 235 239 241 242 242 246 250 251 256 257 260260262 268 286 290 294 306 309 311 313 318 329 330 339 357 404 431 435 461 601
IQR: (260 − 184) * 1.5 = 114 baffi: 70 e 374
Grafico a scatola (I/R) suddiviso (N/O) N
●
●●
●
●
●
●
50100150
Fondamentalismo
Per ogni valore della variabile di
raggruppamento, viene prodotto un box-plot In questo modo si possono vedere le differenze di distribuzione
Spss: Box-plot (Esplora) N
Spss produce i box-plot tramite Analizza | Statistiche descrittive | Esplora... e dal pulsante Grafici...
assicuratevi di aver attivato una delle prime due opzioni di Grafici a scatola
Se avete selezionato più variabili,
“Un grafico ogni dipendente”
produce grafici separati
”Dipendenti insieme” produce un unico grafico
Spss: Box-plot suddiviso N
Esempio di box-plot di Spss
Misure di variabilità: curtosi e asimmetria N
Curtosi: è il grado di piattezza della curva della densità delle frequenze rispetto ad una curva particolare che è la normale (valore di riferimento = 0);
Asimmetria: è il grado di asimmetria della curva della densità delle frequenze rispetto ad una curva particolare che è la normale (valore di riferimento = 0);
−4 −2 0 2 4
0.00.10.20.30.40.50.6
x
Probabilità
Curva normale con M=0 (sd=1)
Riepilogo
Frequenza: numero di comparsa di un valore
Proporzione, percentuale: rapporto fra frequenza e totale (eventualmente moltiplicato per 100)
cumulate: frequenze o percentuali del valore considerato sommati a tutti i precedenti
Tabelle di frequenza: tabella che riporta le frequenze, le percentuali o le percentuali cumulate dei valori di una variabile
Quantili: valori che corrispondono ad una particolare posizione Quartili: i valori che corrispondono alle posizioni 25%, 50% e 75%
Percentili: valori che corrispondono alle posizioni da 1% a 99%
Ranghi percentili: la percentuali di valori minori o uguali ad un valore
Riepilogo tendenza centrale
Moda (Nominale): la frequenza più elevata (è il peggior indice) Mediana (Ordinale): il valore in posizione centrale (non è per nulla sensibile ai valori estremi)
Media(Intervallo/Rapporto): valore di equilibrio di tutti i valori è il miglior indice di tendenza centrale
ma è molto sensibile ai valori estremi della distribuzione
In una distribuzione simmetrica normale, media, mediana e moda coincidono
Se la media è minore della mediana la distribuzione è asimmetrica a sinistra
Se la media è maggiore della mediana, la distribuzione è asimmetrica a destra
Riepilogo variabilità
Campo di variazione,Gamma di oscillazione,Intervallo (Intervallo/Rapporto): è l’indice più grossolano
Differenza interquartilica (Intervallo/Rapporto): poco usato in psicologia
Semi-differenza interquartilica (Intervallo/Rapporto): pochissimo usato in psicologia
Varianza(Intervallo/Rapporto): media degli scarti (dalla media) al quadrato
Deviazione standard (Intervallo/Rapporto): radice quadrata della varianza
Curtosi(Intervallo/Rapporto): per verificare la piattezza della distribuzione rispetto alla normale
Come si riportano le informazioni statistiche
Ci sono molti modi di riportare queste statistiche all’interno del contesto dell’articolo (o della tesi)
La grafica dev’essere selezionata con cura per rappresentare accuratamente e fedelmente le informazioni
In genere, quindi, nei report di ricerca (o nelle tesi) si possono trovare istogrammi a più entrare e box-plot; negli articoli, rappresentazioni grafiche più complesse di quelle studiate finora
le rappresentazioni grafiche più semplici (torte, poligoni di frequenza e simili) non vengono usate.
Come si riportano queste statistiche
Di solito si riportano numerosità, media e deviazione standard (preferibilmente con 2 decimali, arrotondando se necessario) 1) in una tabella riassuntiva delle varie variabili
2) all’interno del testo per una o più variabili specifiche Esempio
N M DS
Fondamentalismo 100 76,97 31,98 Autoritarismo 100 33,95 11,32 Intrinseco 100 23,57 6,40
“La variabile
Fondamentalismo (N=100) ha media 76,97 (DS=31,98)”
Come si riportano queste statistiche
Ovviamente la tabella si può adattare al contesto Se la numerosità è uguale per tutte le variabili si può riportarla una volta sola
il testo può essere sintetizzato in un altro modo
Esempio
N=100 M DS
Fondamentalismo 76,97 31,98 Autoritarismo 33,95 11,32 Intrinseco 23,57 6,40
“Le variabili Fondamentalismo e Autoritarismo (N=100) hanno rispettivamente media di 76,97±
31,98 e 33,95± 11,32.”