Elementi di Psicometria (con laboratorio software 1) 02-Tendenza centrale e variabilità (v. 1.1d, 7 marzo 2021) Germano Rossi

(1)

Elementi di Psicometria (con laboratorio software 1)

02-Tendenza centrale e variabilità (v. 1.1d, 7 marzo 2021)

Germano Rossi¹ [email protected]

1Dipartimento di Psicologia, Università di Milano-Bicocca

a.a. 2020-21

(2)

Introduzione

Nel capitolo precedente abbiamo visto delle tecniche grafiche per riassumere i dati che abbiamo a disposizione.

In questo capitolo vediamo degli indici numerici che rappresentano le principali statistiche descrittive.

Indici della tendenza centrale (slide 3):

Indici di variabilità (slide26) Indici di posizione (slide39)

Rappresentazione grafica specifica per variabili I/R (slide 47) Indici per la distribuzione normale (slide 56)

(3)

Tendenza centrale

La “tendenza centrale” è un’indicazione generica di come sta andando la distribuzione della variabile

L’idea base è che sia possibile trovare un valore che rappresenti al meglio la “tendenza” generale dei dati

Ci sono diversi indici che “misurano” la tendenza centrale, alcuni poco informativi, altri molto informativi

Questi indici dipendono dalla scala di misura

Livello nominale: Moda (pochissimo informativa, p. 31) Livello ordinale: Mediana (poco informativa, p. 33)

Livello intervallo/rapporto: Media(molto informativa, slide p. 4)

(4)

Livello intervallo: Media

Se 4 amici escono a mangiare la pizza e poi pagano in parti uguali... stanno usando lamedia

Ovvero: si divide il conto (€ 80) fra gli amici (n=4)

Se la cifra singola (€ 20) non è un intero, si arrotonda e l’avanzo lo si lascia come mancia

pizza, bibita e dessert

Marco 21.5 €

Clara 16.5 €

Daniela 22.5 € Andrea 19.5 € Totale 80.0 € a testa 20.0 €

il calcolo è (21.5 + 16.5 + 22.5 + 19.5)/4 = 20 Qualcuno paga di più e qualcuno di meno

(5)

Livello intervallo: Media 2

Se 4 amici escono a mangiare la pizza e poi pagano in parti uguali...

La media è il punto di equilibrio dell’intera distribuzione

Qualcuno paga di più e qualcuno di meno

Marco 21.5 − 20 = 1.5 Clara 16.5 − 20 = −3.5 Daniela 22.5 − 20 = 2.5 Andrea 19.5 − 20 = −0.5 Totale 80.0 − 80.0 = 0

la somma delle differenze positive dalla media (+4) e di quelle negative (-4) si annullano a vicenda

Proprietà della media: Gli scarti dalla media sommano a 0

(6)

Media

Logica: La media aritmetica(X , M) è la somma (^∑︁) di tutti i valori di una distribuzione, divisa per la numerosità (N)

Formalizzazione:

X = M =

∑︀N i =1X_i

N

SE i vale xi vale

Marco 1 18.0

Clara 2 16.5

Daniela 3 22.0

Andrea 4 17.5

18+ 16.5 + 22 + 17.5

4 = 74

4 = 18.5

(7)

Media

X = M =

∑︀N i =1X_i

N

SE i vale xi vale

Marco 1 18.0

Clara 2 16.5

Daniela 3 22.0

Andrea 4 17.5

18 +16.5+ 22 + 17.5

4 = 74

4 = 18.5

(8)

Media

X = M =

∑︀N i =1X_i

N

SE i vale xi vale

Marco 1 18.0

Clara 2 16.5

Daniela 3 22.0

Andrea 4 17.5

18 + 16.5 +22+ 17.5

4 = 74

4 = 18.5

(9)

Media

X = M =

∑︀N i =1X_i

N

SE i vale xi vale

Marco 1 18.0

Clara 2 16.5

Daniela 3 22.0

Andrea 4 17.5

18 + 16.5 + 22 +17.5

4 = 74

4 = 18.5

(10)

Media [aritmetica]

La media aritmetica( ¯X , M) è la somma (^∑︁) di tutti i valori di una distribuzione, divisa per la numerosità (N)

M =

∑︀N i =1X_i

N =

∑︀N i =1X_i

N =

∑︀X N

Esempio EsempioL.sav

M(10, 15, 16, 18, 20, 24, 32, 35, 38, 40) = 24.8

10 + 15 + 16 + 18 + 20 + 24 + 32 + 35 + 38 + 40

10 = 248

10

(11)

Uso della distribuzione di frequenza

Quando si utilizzano delle

distribuzioni di frequenza, si hanno i dati in un formato leggermente diverso. Anziché:

1 1 1 2 2 2 2 2 2 3 3 (M = 1.9)

Possiamo usare una forma tabellare dove per ogni valore (x_i) indichiamo a fianco la frequenza (fi) con cui compare.

Esempio

x_i f_i x_if_i

1 3 1 x 3 3

2 6 2 x 6 12

3 2 3 x 2 6

∑︁ 11 21

Esempio M =

∑︀k i =1fixi

∑︀k i =1fi

=

∑︀fx N

(12)

Media [aritmetica]: verifica e proprietà

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

2 i numeri della prima serie sommati a 2

3 i numeri della prima serie moltiplicati per 2

Proprietà della media: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione

(13)

Media [aritmetica]: verifica e proprietà

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

(14)

Media [aritmetica]: verifica e proprietà

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

(15)

Media [aritmetica]: verifica e proprietà

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

(16)

Media [aritmetica]: verifica e proprietà

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

(17)

Media [aritmetica]: verifica e proprietà

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

(18)

Media [aritmetica]: verifica e proprietà

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

(19)

Media [aritmetica]: verifica e proprietà

Esercizio

1 M(1,2,3,4,5)

2 M(3,4,5,6,7)

3 M(2,4,6,8,10)

Soluzione

1 (1+2+3+4+5)/5=15/5=3

2 (3+4+5+6+7)/5=25/5=5

3 (2+4+6+8+10)/5=30/5=6

1 i numeri da 1 a 5

(20)

Media [aritmetica]: verifica

Esercizio

1 M(2,4,6,8,10)

2 M(1,4,6,8,16)

3 M(1,4,6,8,46)

Soluzione

1 (2+4+6+8+10)/5=30/5=6

2 (1+4+6+8+16)/5=35/5=7

3 (1+4+6+8+46)/5=65/5=13 Proprietà della media: La media è sensibile ai valori estremi

(21)

Media [aritmetica]: verifica

Esercizio

1 M(2,4,6,8,10)

2 M(1,4,6,8,16)

3 M(1,4,6,8,46)

Soluzione

1 (2+4+6+8+10)/5=30/5=6

2 (1+4+6+8+16)/5=35/5=7

(22)

Media [aritmetica]: verifica

Esercizio

1 M(2,4,6,8,10)

2 M(1,4,6,8,16)

3 M(1,4,6,8,46)

Soluzione

1 (2+4+6+8+10)/5=30/5=6

2 (1+4+6+8+16)/5=35/5=7

(23)

Media [aritmetica]: verifica

Esercizio

1 M(2,4,6,8,10)

2 M(1,4,6,8,16)

3 M(1,4,6,8,46)

Soluzione

1 (2+4+6+8+10)/5=30/5=6

2 (1+4+6+8+16)/5=35/5=7

(24)

Media [aritmetica]: verifica

Esercizio

1 M(2,4,6,8,10)

2 M(1,4,6,8,16)

3 M(1,4,6,8,46)

Soluzione

1 (2+4+6+8+10)/5=30/5=6

2 (1+4+6+8+16)/5=35/5=7

(25)

SPSS: Media

La media viene visualizzata da Spss in quasi tutte le procedure come informazione aggiuntiva. Quelle specifiche per esplorare le variabili, sono:

Analizza | Statistiche descrittive | Frequenze...

(fra le varie statistiche che è possibile stampare vi è anche la media) Analizza | Statistiche descrittive | Descrittive...

(è la procedura specifica per le statistiche descrittive) Analizza | Statistiche descrittive | Esplora...

(stampa la media come una delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)

(26)

SPSS: Media con Frequenze...

Dopo aver scelto le variabili, click-are su Statistiche... e selezionare Media

Quindi, click-are su ^Continua Con variabili quantitative conviene de-selezionare anche

oppure in ^Formato...

Poi ^OK

(27)

SPSS: Media con Frequenze...

Usando set15.sav

(28)

SPSS: Media con Descrittive...

Dopo aver scelto le variabili, click-are su ^Opzioni...

Normalmente Media è già selezionato

Con più variabili, potete ordinare i risultati in vari modi Poi ^OK

(29)

Media con dati dicotomici

Se una variabile è dicotomica (D) ed è stata categorizzata con 0 e 1, la media di D equivale alla proporzione della categoria 1.

Infatti, possiamo pensare a D come la somma di tutti gli 0 e la somma di tutti gli 1.

D =

∑︀di

N = 0 · f0+ 1 · f1

N = f1

N

Ma la somma degli 0 è 0 e la somma degli 1 è uguale alla frequenza degli 1.

Quindi la media di una variabile dicotomica è D = f1

N (cioè la proporzione degli 1)

(30)

Media con dati dicotomici

Usando set15.sav

La media di una variabile dicotomica (0/1) è la proporzione della categoria 1

(31)

Livello nominale: Moda

La moda è la misura della tendenza centrale a livello nominale LaModa (Mo) è la frequenza più elevata di una distribuzione La logica è che il valore più frequente, a questo livello, rappresenta la tendenza generale meglio degli altri valori

può essere calcolata a tutti i livelli di misura a livello intervallo/rapporto è pochissimo usata

(32)

Moda

Se c’è una sola moda, la distribuzione si dice Unimodale Se sono 2, Bimodale

Se sono più di 2, Multimodale(ma non si utilizza) Esempio

Maschio=17, Femmina=13 ⇒Maschio perché ha frequenza 17

Se ci sono molte categorie, oppure poche categorie tutte con frequenze simili, la moda non ha molto senso.

Esempio

Mo(1 1 1 2 2 2 2 3 3 3) Mo=2 (ma non ha molto senso) Mo(1 1 1 1 2 2 2 3 3 3 3) Bimodale (ma non ha molto senso)

(33)

Livello ordinale: Mediana

Lamediana (Mdn) divide la distribuzione a metà

La logica è che, nei dati ordinati, il valore “centrale” è anche la tendenza

Se N è dispari, la Mdn è il valore in posizione centrale, corrispondente a (N + 1)/2

Esempio

1 2 3 4 5 6 7 8 9 10 11

Dati grezzi 5 2 1 3 5 1 4 4 3 1 5

Ordinati 1 1 1 2 3 3 4 4 5 5 5

⇑

(34)

Mediana, N pari

La mediana si può calcolare sia su scala ordinale sia su scala intervallo/rapporto, perciò (con N pari)

Se N è pari, la Mdn è il valore fra le 2 posizioni centrali (se esiste) cioè fra N/2 e (N/2) + 1

Se i due valori sono uguali, quello è il valore della mediana Esempio

Dati grezzi 5 2 1 3 5 1 4 4 3 1

Ordinati 1 1 1 2 3 3 4 4 5 5

⇑ ⇑

N/2 = 10/2 = 5 e (N/2) + 1 = 5 + 1 = 6 ⇒ Mdn = 3

(35)

Mediana, N pari

Se i due valori sono diversi

se la scala è ordinale: entrambi costituiscono la mediana se è quantitativa: si fa la media fra i due valori

Esempio

Dati grezzi 5 2 1 4 5 1 4 4 3 1

Ordinati 1 1 1 2 3 4 4 4 5 5

⇑ ⇑

N/2 = 10/2 = 5 e

(N/2) + 1 = 5 + 1 = 6 ⇒ Mdn=3;4 (ORD) ⇒ 3,5 (I/R) Attenzione

Spss (e la maggior parte dei software statistici) fanno sempre una stima

(36)

Mediana: Verifica

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione (quindi “ordinata”), la Mdn non cambia

Se cambiano i valori estremi della distribuzione, la Mdn non cambia

(37)

Mediana: Verifica

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

(38)

Mediana: Verifica

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

(39)

Mediana: Verifica

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

(40)

Mediana: Verifica

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

(41)

Mediana: Verifica

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

(42)

Mediana: Verifica

Esercizio

1 Mdn (3,5,7,9,11)

2 Mdn (2,3,5,7,9,11,12)

3 Mdn (3,4,5,5,6,7)

4 Mdn (3,4,5,6,7,8)

5 Mdn (4,5,7,9,13)

6 Mdn (1,5,7,9,25)

Soluzione

1 N=5; pos=3; Mdn=7

2 N=7; pos=4; Mdn=7

3 N=6; pos=3 e 4; Mdn=5

4 N=6; pos=3 e 4; Mdn=5;6 (5,5)

5 N=5; pos=3; Mdn=7

6 N=5; pos=3; Mdn=7

(43)

SPSS: Moda e Mediana

Moda e Mediana vengono visualizzate da Spss solo in queste procedure:

(fra le varie statistiche che è possibile stampare vi sono anche la moda e mediana)

Analizza | Statistiche descrittive | Esplora...

(stampa la mediana come una delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)

(44)

Spss-Frequenze: moda e mediana

Usando set15.sav Tramite Analizza | Statistiche descrittive | Frequenze...

pulsante

Statistiche , possiamo far calcolare delle statistiche, tra cui la moda e la mediana.

poi ^Continua e

“Modalità” è un termine alternativo a “Moda”

(45)

Spss-Esplora: mediana

Usando set15.sav Tramite Analizza | Statistiche descrittive | Esplora... pulsante

Statistiche , possiamo far calcolare la mediana.

poi ^Continua e ^OK

(46)

Concetto di variabilità

Gli indici di variabilità ci dicono quanto i valori sono dispersi attorno alla tendenza centrale.

Esempio

valori ^∑︁X /N = M 7 7 6 5 4 4 4 3 40/8=5 10 10 9 7 5 4 3 2 0 0 50/10=5

Due distribuzioni con M uguale, ma dispersione diversa

A livello di scala intervallo/rapporto ci sono diversi indici di variabilità:

Campo di variazione o gamma (di oscillazione) o range Differenza interquartilica (DI o IQR)^*

Deviazione media o scostamento semplice medio Varianza e deviazione standard

(47)

Misure di variabilità: campo di variazione

Il campo di variazioneo gamma(di oscillazione) o range o intervallo (per SPSS) è la differenza fra il valore massimo e quello minimo

gamma = max − min per variabili a intervallo/rapporto

Esempio

valori campo var.

7 7 6 5 4 4 4 3 7-3=4 10 10 9 7 5 4 3 2 0 0 10-0=10

(48)

Varianza

Sempre a livello intervallo/rapporto

Gli scarti dalla media potrebbero essere una misura di variabilità, senonché...

la somma degli scarti dalla media è sempre pari a 0 (zero) la soluzione è

Varianza (Var, s²): elevare gli scarti a quadrato e fare la loro media

var = s² = DS²=

N

∑︁

i =1

(X_i− M)²

N = SS

N dove: X_i sono i punteggi delle singole unità statistiche M è la media della variabili

N è la numerosità

(49)

Varianza: formula alternativa

Calcolare gli scarti dalla media, nella maggior parte dei casi, produce valori decimali che possono generare imprecisioni nei calcoli. Esiste quindi una formula alternativa da usare con i dati grezzi:

X X − M (X − M)² X²

2 -0,8 0,64 4

3 0,2 0,04 9

4 1,2 1,44 16

Somma 14 0 2,8 42

Media 2,8 0,56 8,4

Var =

∑︀X²

N − M²

= 42

5 − 2.8²

= 8.4 − 7.84 =

= 0.56

(50)

Deviazione standard

La varianza minimizza le piccole differenze e massimizza le grandi differenze

Però la varianza è un quadrato (un’area) e quindi si introduce anche una versione lineare (che è una distanza), lo scarto quadratico medio Lo scarto quadratico medio (sqm)o deviazione standard (DS, s)è la radice quadrata della varianza

DS = s =

√

s²=√ var =

√︃

∑︀(Xi − M)² N

(51)

Varianza: esempi

Esempio

DS²(1,2,3,4,5) =

[(1 − 3)²+ (2 − 3)²+ (3 − 3)²+ (4 − 3)²+ (5 − 3)²]

5 =

[(−2)²+ (−1)²+ (0)²+ (1)²+ (2)²]

5 = 4 + 1 + 0 + 1 + 4

5 =

10 5 = 2 DS(1,2,3,4,5)=

√

2 = 1.41

(52)

Misure di variabilità

la varianza finora vista è stata calcolata su una piccola quantità di dati, che però vengono considerati come una popolazione

DS² =

∑︀N

i =1(Xi − M)²

N DS =

√︃

∑︀(Xi − M)² N

quando si calcola su un campione si effettua una correzione che tiene conto dell’ampiezza del campione stesso, in tal caso la formula diventa:

DS² =

∑︀N

i =1(X_i − M)²

N − 1 DS =

√︃

∑︀(X_i − M)² N − 1 dividere per N − 1 produce valori più grandi

con campioni grandi la divisione per N o per N − 1 non è molto diversa; per campioni piccoli, si.

(53)

Misure di variabilità: formula alternativa

Con N − 1 la formula alternativa non è così semplice, ma bisogna

“aggiustarla”

s²= N N − 1

(︃ ∑︀

X² N − M²

)︃

s =

√︃

N N − 1

(︂ ∑︀X² N − M²

)︂

(54)

Proprietà della varianza (e dev. st)

Esercizio

1 var(1,2,3,4,5)

2 var(3,4,5,6,7)

3 var(2,4,6,8,10)

Soluzione

1 5/4 * (55/5 − 3²) = 2.5, s = 1.58

2 5/4 * (135/5 − 5²) = 2.5, s = 1.58

3 5/4 * (220/5 − 6²) = 10, s = 3.16 (1.58 × 2)

1 i numeri da 1 a 5

Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza e (la DS) non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la varianza cambia ma la dev. st. subisce la stessa trasformazione

(55)

Proprietà della varianza (e dev. st)

Esercizio

1 var(1,2,3,4,5)

2 var(3,4,5,6,7)

3 var(2,4,6,8,10)

Soluzione

1 5/4 * (55/5 − 3²) = 2.5, s = 1.58

2 5/4 * (135/5 − 5²) = 2.5, s = 1.58

3 5/4 * (220/5 − 6²) = 10, s = 3.16 (1.58 × 2)

1 i numeri da 1 a 5

Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza e (la DS) non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la

(56)

Spss: Variabilità

Anche varianza e dev. st. sono visualizzate da Spss (sempre N-1) in molte procedure. Quelle specifiche sono:

(fra le varie statistiche vi è anche quelle di variabilità)

Analizza | Statistiche descrittive | Descrittive...

(è la procedura specifica per le statistiche descrittive) Analizza | Statistiche descrittive | Esplora...

(stampa le misure di variabilità come parte delle diverse statistiche per capire l’andamento e la distribuzione di una variabile)

Tutti gli esempi che seguono, usandoset15.sav

(57)

Spss: Variabilità con Frequenze...

Dopo aver scelto le variabili, click-are su Statistiche... e selezionare quelle che servono

Quindi, click-are su ^Continua Con variabili quantitative conviene de-selezionare anche

oppure in ^Formato...

attivare

Infine ^OK

(58)

Spss: Variabilità con Descrittive...

Dopo aver scelto le variabili, click-are su

Opzioni... Selezionare Varianza,

Deviazione stand. e Intervallo

Poi ^Continua e ^OK

(59)

Spss: Variabilità con Esplora...

Dopo aver scelto le variabili, click-are su Statistiche...

e selezionate Descrittive Fra le varie statistiche stampate, ci sono anche varianza, deviazione standard e intervallo

(60)

Indici di posizione - Quantili N

Gli indici di posizione si possono calcolare a partire dal livello ordinale Posso essere utilizzati come indici di variabilità a livello ordinale Dopo aver ordinato i valori di una distribuzione, possiamo suddividere l’intera distribuzione di frequenza in n parti uguali.

un quantile è il valore che cade in una certa posizione

Se divisa in 100 parti,Centili(C1, C2. . . , C99) oPercentili(P1, P2. . . ) se divisa in 10 parti,Decili (D1, D2. . . , D9)

se divisa in 4 parti,Quartili (Q1, Q2, Q3) se divisa in 3 parti,Terzili

Notate che

D1= P10, e così via Q1= P25,

Q2= P50= D5è anche chiamato “Mediana”,

(61)

Quartili N

I quartili suddividono la distribuzione in 4 parti uguali

Q1 Q2 Q3

Si usano solitamente il primo e il terzo quartile (Q1 e Q3) Q1 ha sotto di sé il 25% dei dati

25% 75%

Q2 ha sotto di sé il 50% dei dati

50% 50%

Q3 ha sotto di sé il 75% dei dati

75% 25%

(62)

Quartili: formule N

La posizione in cui cadono i quartili si trova con:

Q1 = 1

4(N + 1) = (N + 1) 4 Q₂ = 2

4(N + 1) = 2(N + 1)

4 = N + 1 2 Q3 = 3

4(N + 1) = 3(N + 1) 4

Se la posizione trovata non è un intero, si tronca (ovvero si usa l’intero inferiore)

Una volta trovata la posizione si identifica il valore del quartile (il valore che corrisponde alla posizione)

(63)

Quartili N

Esempio

2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 (N=15) Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8

Q2 = (15+1)/2 = 8 ⇒ Q2=16

Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24

Esercizio

2 4 5 9 10 12 (N=6)

1 Q1 = ?

2 Q2 = ?

Soluzione 2 4 5 9 10 12

1 pos=1.75; Q1=2

2 pos=3.5; Q2=5

3 pos=5.25; Q3=10

(64)

Quartili N

Esempio

2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 (N=15) Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8

Q2 = (15+1)/2 = 8 ⇒ Q2=16

Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24

Esercizio

2 4 5 9 10 12 (N=6)

1 Q1 = ?

2 Q2 = ?

3 Q3 = ?

Soluzione 2 4 5 9 10 12

1 pos=1.75; Q1=2

2 pos=3.5; Q2=5

3 pos=5.25; Q3=10

(65)

Quantili (utilizzo) N

A livello ordinale, con molte categorie, Q1 e Q3 possono essere usati come un indice di variabilità (poco informativo) sopra e sotto la mediana (Q₂)

i terzili possono essere usati per studiare un campione che presenti punteggi bassi (≤ T₁), medi (tra T₁ e T₂) o alti (>T₂) in altre variabili quantitative

i quintili potrebbero essere usati per escludere il 20% centrale (0-40%

e 60-100%) di un’altra variabile, usando il 2^o e 3^o quintile

i percentili sono usati nei test psicologici standardizzati come punteggi di riferimento in base a variabili come il genere e/o le fasce di età.

(66)

Spss: n-tili (Frequenze) N

In Statistiche...

Quartili calcola i quartili Punti di divisione divide in n parti uguali

Percentili: scrivete il percentile che volete e aggiungete

Qui abbiamo chiesto: i quartili, i terzili e il 45esimo percentile

(67)

Spss: Esplora... N

Dopo aver scelto le variabili, metterle in Variabili dipendenti

poi

click-are su

Statistiche... e scegliere Percentili Quindi, click-are su

Continua

Poi ^OK

(68)

Spss: Esplora... N

Esplora non permette di scegliere i percentili, ma fornisce alcuni n-tili notevoli

I tre quartili e i valori corrispondenti al 5^o e 10^o percentile su entrambi i lati.

Questi valori hanno particolarmente senso con variabili “normali”

(capiremo più avanti) e sono usati in molti test psicologici (in particolare nei manuali di riferimento).

(69)

Diagramma a scatola e baffi N

Le rappresentazioni grafiche (in senso lato) di solito utilizzano informazioni tratte da indici statistici.

Le tabelle di frequenza, usano frequenze, percentuali e percentuali cumulate

Grafico a barre e istogramma usano rispettivamente le frequenze e i punteggi

Il grafico a torta le frequenze o le percentuali I diagrammi ramo foglia i singoli valori quantitativi^*

Usando altri indici statistici possiamo fare altri tipi di rappresentazioni grafiche

Usando la differenza interquartilica si possono fare dei diagramma a scatola e baffi

(70)

Misure di variabilità: differenza interquartilica [I/R] N

Ladifferenza interquartilica(DI, IQR o interquartile range) è la differenza fra il terzo e il primo quartile

IQR = Q₃− Q₁

e corrisponde al 50% centrale dei valori della distribuzione Esempio

valori Q3-Q1 IQR

7 7 6 5 4 4 4 3 6-4 2

10 10 9 7 5 4 3 2 0 0 9-0 9

La semi-differenza interquartilica è la metà dell’IQR e corrisponde al 25% dei valori sopra o sotto la mediana

(71)

Diagramma a scatola e baffi N

Il diagramma a scatola e baffi (box-and-whiskers) è stato ideato da Tukey nell’ambito della EDA (Exploratory data analysis). È spesso chiamato

“box-plot”

La scatola è formata dai valori corrispondenti al primo e al terzo quartile

25303540455055

Tukey's Boxplot

min Q1 Mdn Q3 max

La linea spessa dentro la scatola corrisponde alla mediana

I baffi rappresentano cose diverse in base ai software: come primo approccio useremo i valori minimo e massimo

(72)

Grafico a scatola [Box-plot] (I/R) N

25303540455055

Tukey's Boxplot

min Q1 Mdn

Q3 max

variabile A ordinata: 22 22 24 24 24 24 24 27 27 27 27 30 30 31 31 32 33 33 33 3334 35 35 36 36 36 37 39 39 4142 42 42 44 45 45 45 46 46 54 54 N=41; min=22;

Q1(10)=27;

Mdn(21)=34;

Q3(31)=42; max=54 VariableA.sav

(73)

Grafico a scatola (I/R) N

In realtà i box-plot di SPSS ed R non visualizzano i valori minimo e massimo

Al loro posto viene usata la differenza interquartilica moltiplicata per 1,5; in una distribuzione normale, questo valore è quasi sempre oltre il massimo e oltre il minimo (quindi si visualizzano max e min)

inoltre visualizzano i singoli valori anomali (i valori oltre i baffi), evidenziando quindi le code asimmetriche

L’utilità dei box-plot è più evidente se si incrociano con una variabile categoriale, perché si possono fare confronti sulle distribuzioni dei sotto-campioni

(74)

Grafico a scatola (I/R) N

Variabile asimmetrica

●

●●

●

200300400500600

Vendita biglietti cinema

gross.sav

variabile Gross ordinata: 172 173 173 174 175 176 176 177 177 178 180 180 181 181 181 181 183 183 183184 184 184 185 188 190 191 192 194 197 199 199 202 202 205 206 207 211 213 215216217 218 219 226 228 229 233 234 235 239 241 242 242 246 250 251 256 257 260260262 268 286 290 294 306 309 311 313 318 329 330 339 357 404 431 435 461 601

IQR: (260 − 184) * 1.5 = 114 baffi: 70 e 374

(75)

Grafico a scatola (I/R) suddiviso (N/O) N

●

●●

●

50100150

Fondamentalismo

Per ogni valore della variabile di

raggruppamento, viene prodotto un box-plot In questo modo si possono vedere le differenze di distribuzione

(76)

Spss: Box-plot (Esplora) N

Spss produce i box-plot tramite Analizza | Statistiche descrittive | Esplora... e dal pulsante ^Grafici...

assicuratevi di aver attivato una delle prime due opzioni di Grafici a scatola

Se avete selezionato più variabili,

“Un grafico ogni dipendente”

produce grafici separati

”Dipendenti insieme” produce un unico grafico

(77)

Spss: Box-plot suddiviso N

Esempio di box-plot di Spss

(78)

Misure di variabilità: curtosi e asimmetria N

Curtosi: è il grado di piattezza della curva della densità delle frequenze rispetto ad una curva particolare che è la normale (valore di riferimento = 0);

Asimmetria: è il grado di asimmetria della curva della densità delle frequenze rispetto ad una curva particolare che è la normale (valore di riferimento = 0);

−4 −2 0 2 4

0.00.10.20.30.40.50.6

x

Probabilità

Curva normale con M=0 (sd=1)

(79)

Riepilogo

Frequenza: numero di comparsa di un valore

Proporzione, percentuale: rapporto fra frequenza e totale (eventualmente moltiplicato per 100)

cumulate: frequenze o percentuali del valore considerato sommati a tutti i precedenti

Tabelle di frequenza: tabella che riporta le frequenze, le percentuali o le percentuali cumulate dei valori di una variabile

Quantili: valori che corrispondono ad una particolare posizione Quartili: i valori che corrispondono alle posizioni 25%, 50% e 75%

Percentili: valori che corrispondono alle posizioni da 1% a 99%

Ranghi percentili: la percentuali di valori minori o uguali ad un valore

(80)

Riepilogo tendenza centrale

Moda (Nominale): la frequenza più elevata (è il peggior indice) Mediana (Ordinale): il valore in posizione centrale (non è per nulla sensibile ai valori estremi)

Media(Intervallo/Rapporto): valore di equilibrio di tutti i valori è il miglior indice di tendenza centrale

ma è molto sensibile ai valori estremi della distribuzione

In una distribuzione simmetrica normale, media, mediana e moda coincidono

Se la media è minore della mediana la distribuzione è asimmetrica a sinistra

Se la media è maggiore della mediana, la distribuzione è asimmetrica a destra

(81)

Riepilogo variabilità

Campo di variazione,Gamma di oscillazione,Intervallo (Intervallo/Rapporto): è l’indice più grossolano

Differenza interquartilica (Intervallo/Rapporto): poco usato in psicologia

Semi-differenza interquartilica (Intervallo/Rapporto): pochissimo usato in psicologia

Varianza(Intervallo/Rapporto): media degli scarti (dalla media) al quadrato

Deviazione standard (Intervallo/Rapporto): radice quadrata della varianza

Curtosi(Intervallo/Rapporto): per verificare la piattezza della distribuzione rispetto alla normale

(82)

Come si riportano le informazioni statistiche

Ci sono molti modi di riportare queste statistiche all’interno del contesto dell’articolo (o della tesi)

La grafica dev’essere selezionata con cura per rappresentare accuratamente e fedelmente le informazioni

In genere, quindi, nei report di ricerca (o nelle tesi) si possono trovare istogrammi a più entrare e box-plot; negli articoli, rappresentazioni grafiche più complesse di quelle studiate finora

le rappresentazioni grafiche più semplici (torte, poligoni di frequenza e simili) non vengono usate.

(83)

Come si riportano queste statistiche

Di solito si riportano numerosità, media e deviazione standard (preferibilmente con 2 decimali, arrotondando se necessario) 1) in una tabella riassuntiva delle varie variabili

2) all’interno del testo per una o più variabili specifiche Esempio

N M DS

Fondamentalismo 100 76,97 31,98 Autoritarismo 100 33,95 11,32 Intrinseco 100 23,57 6,40

“La variabile

Fondamentalismo (N=100) ha media 76,97 (DS=31,98)”

(84)

Come si riportano queste statistiche

Ovviamente la tabella si può adattare al contesto Se la numerosità è uguale per tutte le variabili si può riportarla una volta sola

il testo può essere sintetizzato in un altro modo

Esempio

N=100 M DS

Fondamentalismo 76,97 31,98 Autoritarismo 33,95 11,32 Intrinseco 23,57 6,40

“Le variabili Fondamentalismo e Autoritarismo (N=100) hanno rispettivamente media di 76,97±

31,98 e 33,95± 11,32.”