• Non ci sono risultati.

Antonio Azzollini antonio.azzollini@unibas.it Statistica

N/A
N/A
Protected

Academic year: 2021

Condividi "Antonio Azzollini antonio.azzollini@unibas.it Statistica"

Copied!
45
0
0

Testo completo

(1)

Statistica

Antonio Azzollini

antonio.azzollini@unibas.it

Anno accademico 2019/2020

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)

(2)

Quartili e distribuzioni di frequenze

Stanze Appartamenti Frequenze cumulate

1 300 300

2 500 800

3 2.000 2.800

4 3.000 5.800

5 150 5.950

6 100 6.050

7 300 6.350

Per calcolare : A. Rango:


B. Pertanto si colloca fra
 e


C.

Q1

Q1

x

(1587)

x

(1588)

x

(1587)

= x

(1588)

= 3 = Q1

Per calcolare : A. Rango:


B. Pertanto si colloca fra
 e


C.

Q3

Q3

x

(4763)

x

(4764)

x

(4763)

= x

(4764)

= 4 = Q3

Stanze

1 2 3 4 5 6 7

6350 +1

( )

× 0,25 = 1587,75

6350 +1

( )

× 0,75 = 4763,25

(3)

Modalità Frequenza Frequenza
 cumulata

1 1 1

2 2 3

3 3 6

4 4 10

5 5 15

6 6 21

7 7 28

Per calcolare : A. Rango:


B. Pertanto si colloca fra
 e


C.

Q1

x

( )7

x

( )8

Q1

x

( )7

= x

( )8

= 4 = Q1

28 +1

( )

× 0,25 = 7,25

Per calcolare : A. Rango:


B. Pertanto si colloca fra
 e


C.

Q3

Q3

x

( )21

x

( )22

x( )21 = 6, x( )22 = 7

Q3 = 6 + 7 − 6

( )

× 0,5 = 6,5 28 +1

( )

× 0,75 = 21,75

M = 5

x( )21 = 6, x( )22 = 7

Q3 = 6 + 7 − 6

( )

× 0,5 = 6,575

Quartili e distribuzioni di frequenze

28 +1 .

( )

× 0,75 = 21,75

(4)

Modalità Frequenza Frequenza
 cumulata

1 7 7

2 6 13

3 5 18

4 4 22

5 3 25

6 2 27

7 1 28

Per calcolare : A. Rango:


B. Pertanto si colloca fra
 e


C.

Q1

Q1

x

( )7

= 1 x

( )8

= 2

28 +1

( )

× 0,25 = 7,25

Per calcolare : A. Rango:


B. Pertanto si colloca fra
 e


C.

Q3

Q3

x

( )21

x

( )22

x

( )21

= x

( )22

= 4 = Q3

28 +1

( )

× 0,75 = 21,75

Q1 = 1+ 2 −1 ( ) × 0,5 = 1,5

M = 3

28 +1

( )

× 0,25 = 7,25=1,25

Quartili e distribuzioni di frequenze

(5)

4

1

Da 1 a 7 Da 7 a 1

7 6 5

3 2

Box-plot & simmetria

Asimmetria: A = max− M

( )

− M − min

( )

Per il box-plot rosso A = 7 − 5

( )

− 5 −1

( )

= −2

asimmetria negativa

Per il box-plot blu A = 7 − 3

( )

− 3−1

( )

= 2

asimmetria positiva

(6)

Percentili

Dopo una visita di controllo ad un bambino, il medico farà uso di un grafico come questo:

Quindi,dopo aver constatato che il soggetto in questione è al 95-esimo percentile, si preoccuperà un po’.

Cosa significa percentile?

Il percentile

x

è quel valore (non necessariamente

appartenente al campione) che lascia a sinistra l’

x%

dei dati.

E allora dire che un bambino ha un peso al 95-esimo percentile vuol dire che il 95%

della popolazione maschile di quell’età ha un peso inferiore.

(7)

Riprendiamo l’esempio della scuola…

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

p = 90 :

(

30 +1

)

× 0,90 = 27,9

Il 90-esimo percentile si colloca fra gli elementi di posizione 27 & 28, ossia fra 26,1 & 27,1:

26,1+ 27,1− 26,1

( )

× 0,9 = 27

Conclusione: il 90% degli intervistati dedica allo studio non più di 27 ore.

E se volessimo l’informazione inversa…

Percentili

(8)

Qual’è la percentuale di studenti che non studia più di 27 ore?

0 0,25 0,5 0,75 1

13 15 17 18 20 23 27

Percentili

0,9

27

Numero studenti che studiano non più di 27 ore = 27.

Taglia = 30

p = numero di ore ≤ 27

taglia = 27

30 = 0,90 p = numero di ore ≤ 27

taglia = 27

30 = 0,90

Calcolo la percentuale:

(9)

Percentili

In sintesi:

27 è il 90° percentile del campione

casuale perchè la percentuale di

studenti del campione che studia 27

ore o meno è il 90%.

(10)

Mediana per classi di modalità

[10;14) [14;18) )

[18;22) [22;26) [26;30) [30;34]

5 9 9 3 3 1

Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...

Estremi
 classi

Frequenze
 cumulate

10 0

14 5

18 14=5+9 22 23=14+9

26 26

30 29

34 30

}

In 18 la frequen- za cumulata è

mentre in 22 la frequenza cumulata è 23 > 30

2 = 15 Pertanto la classe [18;22) contiene la mediana.

, 0

5 10 15 20 25 30

10 20 30 40

23

14

18 ? 22 14 < 30

2 = 15,

(11)

Estremi
 classi

Frequenze
 relative cumulate

10 0

14 0,17

18 0,47

22 0,77

26 0,87

30 0,97

34 1

}

Fra gli estremi 18 e 22 si passa da un valore

inferiore a 0,50 ad uno superiore a 0,50.

Risolvere:

0,1 0,2 0,4 0,5 0,7 0,8 1,0

10 20 30 40

Mediana

y = 0,50

[10;14) [14;18) )

[18;22) [22;26) [26;30) [30;34]

5 9 9 3 3 1

Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...

Mediana per classi di modalità

Siccome non so come aumenta la frequenza all'interno della classe [18,22), assumo che l'incremento sia lineare (cioè quello della retta congiungente i punti P e Q)

P

Q

(12)

Estremi
 classi

Frequenze
 relative cumulate

10 0

14 0,17

18 0,47

22 0,77

26 0,87

30 0,97

34 1

}

Traccio una linea orizzontale in

corrispondenza della frequenza 0,50 ed individuo l'intersezione.

Risolviamo:

Mediana

y = 0,50

y

− 0,47

0, 77 − 0,47 =

x

−18 22 −18

y

= 0,50

⎨ ⎪

⎩⎪

x = 18 + 0,50 − 0,47

0, 77 − 0,47 × 22 −18

( )

= 18,4

[10;14) [14;18) )

[18;22) [22;26) [26;30) [30;34]

5 9 9 3 3 1

Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...

-0,1 0,1 0,2 0,4 0,5 0,7 0,8 1,0

0 10 20 30 40

Mediana per classi di modalità

Q

P

La mediana varrà

x = 18 + 0,50 − 0,47

0, 77 − 0,47 × 22 −18 ( ) = 18,4

(13)

Quartili per classi di modalità

Estremi
 classi

Frequenze
 relative cumulate

10 0

14 0,17

18 0,47

}

Per calcolare i quartili Q1 e Q3 è possibile considerare di nuovo la tabella delle frequenze cumulate relative.

Per Q1 : la frequenza cumulata relativa passa da un valore inferiore a 0,25 (ossia 0,17 in 14) ad un valore superiore a 0,25 (ossia 0,47 in 18).

A. la classe di riferimento per


B.

Q1 è [14;18)

Q1 = 14 + 0,25 − 0,17

0, 47 − 0,17 × 18 −14

( )

= 15,08.

(14)

Estremi
 classi

Frequenze
 relative cumulate

18 0,47

22 0,77

26 0,87

30 0,97

34 1

}

Quartili per classi di modalità

Per calcolare i quartili Q1 e Q3 è possibile considerare di nuovo la tabella delle frequenze cumulate relative.

Q3: la frequenza cumulata relativa passa da un valore inferiore a 0,87 (ossia 0,47 in 18) ad un valore superiore a 0,75 (ossia 0,77 in 22).

A. la classe di riferimento per


B.

Q3 è [18;22).

Q3 = 18 + 0, 75 − 0,47

0, 77 − 0,47 × 22 −18

( )

= 21, 72.

Per

(15)

Estremi
 classi

Frequenze
 relative cumulate

18 0,47

22 0,77

26 0,87

30 0,97

34 1

}

Quartili per classi di modalità

Per calcolare i quartili Q1 e Q3 è possibile considerare di nuovo la tabella delle frequenze cumulate relative.

Q3: la frequenza cumulata relativa passa da un valore inferiore a 0,87 (ossia 0,47 in 18) ad un valore superiore a 0,75 (ossia 0,77 in 22).

A. la classe di riferimento per


B.

Q3 è [18;22).

Q3 = 18 + 0, 75 − 0,47

0, 77 − 0,47 × 22 −18

( )

= 21, 72.

Per convenzione, poniamo il minimo della prima classe e

{ 1,2, 3

Q1

, 4,100 }

Per

il massimo Q1

CVar = 14 IQR = 2 s = 5,07

Q1

CVar = 14 IQR = 2 s = 5,07

dell’ultima. Dunque =10 e = 34.

{ 1,2, 3

Q1

, 4,100 }

(16)

Box-plot di distribuzioni in classi

Per costruire il box-plot della distribuzione in classi riportiamo come al solito i quartili per costruire la scatola ed all'interno disegniamo la linea della mediana.


I baffi li disegniamo in relazione ai nuovi valori dei capisaldi e del

campo di variazione interquartile

(17)

10 30 25 20 15

Box-plot di distribuzioni in classi

Per costruire il box-plot della distribuzione in classi riportiamo come al solito i quartili per costruire la scatola ed all'interno disegniamo la linea della mediana.


I baffi li disegniamo in relazione ai nuovi valori dei capisaldi e del campo di variazione interquartile

Box-plot dataset esatto

(18)

10 30 25 20 15

10 30 25 20 15

Box-plot di distribuzioni in classi

Per costruire il box-plot della distribuzione in classi riportiamo come al solito i quartili per costruire la scatola ed all'interno disegniamo la linea della mediana.


I baffi li disegniamo in relazione ai nuovi valori dei capisaldi e del campo di variazione interquartile

Box-plot dataset esatto Box-plot dataset per classi di modalità

(19)

Indici di dispersione

1. Campo di variazione:

2. Intervallo interquartile:

CVar = max− min IQR = Q3− Q1

Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.


Fra di essi riconosciamo:

(20)

Indici di dispersione

Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.


Fra di essi riconosciamo:

1. Campo di variazione:

2. Intervallo interquartile:

CVar = max− min IQR = Q3− Q1

Chiamiamo varianza (campionaria) il valore calcolato attraverso la formula

s

2

s

2

= 1

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = n 1 −1 ( x

i

− m )

2

i=1

n

s

2

= 1

X

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = 1

n −1 ( x

i

− m )

2

i=1

n

s

2

= 1

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = 1

n −1 ( x

i

− m )

2

i=1

n

s

2

= 1

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = 1

n −1 ( x

i

− m )

2

i=1

n

X X X

s

2

= 1

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = 1

n −1 ( x

i

− m )

2

i=1

n

dove X

Un ulteriore indice di dispersione che introduciamo è è la media aritmetica del campione casuale.

(21)

Indici di dispersione

1. Campo di variazione:

2. Intervallo interquartile:

CVar = max− min IQR = Q3− Q1

s = varianza (campionaria)

Chiamiamo varianza (campionaria) il valore calcolato attraverso la formula

s

2

X

3. Deviazione standard (campionaria):

dove è la media aritmetica del campione casuale.

Un ulteriore indice di dispersione che introduciamo è

s

s2

Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.


Fra di essi riconosciamo:

s

2

= 1

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = n 1 −1 ( x

i

− m )

2

i=1

n

s

2

= 1

X

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = 1

n −1 ( x

i

− m )

2

i=1

n

s

2

= 1

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = 1

n −1 ( x

i

− m )

2

i=1

n

s

2

= 1

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = 1

n −1 ( x

i

− m )

2

i=1

n

X X X

s

2

= 1

n −1 ( x

1

− m )

2

+ x (

2

− m )

2

+!+ x (

n

− m )

2

⎦ = 1

n −1 ( x

i

− m )

2

i=1

n

(22)

Indici di dispersione

Esempio

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

La media campionaria è =19,01

10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4

s2

= 1

29 ⎡⎣ ( 10, 3 −19,01 )

2

+ 2 12,9 −19,01 ( )

2

+

13,5 −19,01

( )

2

+!+ 33,8 −19,01 ( )

2

⎤⎦ = 28,7

La varianza vale

X

(23)

Indici di dispersione

Esempio

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

La media campionaria è =19,01

10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4

s2

= 1

29 ⎡⎣ ( 10, 3 −19,01 )

2

+ 2 12,9 −19,01 ( )

2

+

13,5 −19,01

( )

2

+!+ 33,8 −19,01 ( )

2

⎤⎦ = 28,7

La deviazione standard è la radice quadrata della varianza

s = 28,7 = 5,36

La varianza vale

X

.

(24)

Indici di dispersione

Esempio

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

La media campionaria è =19,01

10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4

s2

= 1

29 ⎡⎣ ( 10, 3 −19,01 )

2

+ 2 12,9 −19,01 ( )

2

+

13,5 −19,01

( )

2

+!+ 33,8 −19,01 ( )

2

⎤⎦ = 28,7

La deviazione standard è la radice quadrata della varianza

s = 28,7 = 5,36

La deviazione standard fornisce una misura della

“concentrazione” dei dati intorno alla media.

La varianza vale

X

.

(25)

Indici di dispersione

La deviazione standard non è una statistica robusta

1,2, 3 , 4,5

{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }

👇 👇 👇

CVar = 4 IQR = 2 s = 1,58

.

CVar = 99 IQR = 2 s = 43,62

CVar = 14 IQR = 2 s = 5,07

.

CVar = 4 IQR = 2 s = 1,58

CVar = 99 IQR = 2 s = 43,62

.

CVar = 14 IQR = 2 s = 5,07

CVar = 4 IQR = 2 s = 1,58

.

Proprietà della deviazione standard

(26)

Indici di dispersione

La deviazione standard non è una statistica robusta

1,2, 3 , 4,5

{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }

👇 👇 👇

Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.

Per il suo calcolo vengono utilizzati tutti i dati.

Un insieme di dati ha una sola deviazione standard.

Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:

È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.

CVar = 4 IQR = 2 s = 1,58

.

CVar = 99 IQR = 2 s = 43,62

CVar = 14 IQR = 2 s = 5,07

.

CVar = 4 IQR = 2 s = 1,58

CVar = 99 IQR = 2 s = 43,62

.

CVar = 14 IQR = 2 s = 5,07

CVar = 4 IQR = 2 s = 1,58

.

Proprietà della deviazione standard

(27)

Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.

Per il suo calcolo vengono utilizzati tutti i dati.

Un insieme di dati ha una sola deviazione standard.

Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:

È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.

Indici di dispersione

La deviazione standard non è una statistica robusta

1,2, 3 , 4,5

{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }

👇 👇 👇

CVar = 4 IQR = 2 s = 1,58

.

CVar = 99 IQR = 2 s = 43,62

CVar = 14 IQR = 2 s = 5,07

.

CVar = 4 IQR = 2 s = 1,58

CVar = 99 IQR = 2 s = 43,62

.

CVar = 14 IQR = 2 s = 5,07

CVar = 4 IQR = 2 s = 1,58

.

Proprietà della deviazione standard

(28)

Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.

Per il suo calcolo vengono utilizzati tutti i dati.

Un insieme di dati ha una sola deviazione standard.

Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:

È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.

Indici di dispersione

La deviazione standard non è una statistica robusta

1,2, 3 , 4,5

{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }

👇 👇 👇

CVar = 4 IQR = 2 s = 1,58

.

CVar = 99 IQR = 2 s = 43,62

CVar = 14 IQR = 2 s = 5,07

.

CVar = 4 IQR = 2 s = 1,58

CVar = 99 IQR = 2 s = 43,62

.

CVar = 14 IQR = 2 s = 5,07

CVar = 4 IQR = 2 s = 1,58

.

Proprietà della deviazione standard

(29)

Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.

Per il suo calcolo vengono utilizzati tutti i dati.

Un insieme di dati ha una sola deviazione standard.

Vale zero quando tutti i dati assumono lo stesso valore (variabile statistica degenere). [Esempio:

È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.

2,2,2

{ }

, µX. = 2, s = 0].

Indici di dispersione

La deviazione standard non è una statistica robusta

1,2, 3 , 4,5

{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }

👇 👇 👇

CVar = 4 IQR = 2 s = 1,58

.

CVar = 99 IQR = 2 s = 43,62

CVar = 14 IQR = 2 s = 5,07

.

CVar = 4 IQR = 2 s = 1,58

CVar = 99 IQR = 2 s = 43,62

.

CVar = 14 IQR = 2 s = 5,07

CVar = 4 IQR = 2 s = 1,58

.

Proprietà della deviazione standard

(30)

2, 3, 4 ,5,101

{ }

👇

Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.

Per il suo calcolo vengono utilizzati tutti i dati.

Un insieme di dati ha una sola deviazione standard.

Vale zero quando tutti i dati assumono lo stesso valore (variabile statistica degenere). [Esempio:

È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.

2,2,2

{ }

, µX. = 2, s = 0].

Indici di dispersione

La deviazione standard non è una statistica robusta

1,2, 3 , 4,5

{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }

👇 👇 👇

CVar = 4 IQR = 2 s = 1,58

.

CVar = 99 IQR = 2 s = 43,62

CVar = 14 IQR = 2 s = 5,07

.

CVar = 4 IQR = 2 s = 1,58

CVar = 99 IQR = 2 s = 43,62

.

CVar = 14 IQR = 2 s = 5,07

CVar = 4 IQR = 2 s = 1,58

.

CVar = 99 IQR = 2 s = 43,62

.

CVar = 14 IQR = 2 s = 5,07

CVar = 4 IQR = 2 s = 1,58

.

Proprietà della deviazione standard

(31)

Concentrazione dei valori

Assumendo in un campione casuale di taglia n la media aritmetica

X

come indice centrale, considerando la deviazione standard come

indice di dispersione dei dati, ci si pone la questione di stabilire a

priori una stima della percentuale di dati che si "concentrano" in

prossimità di . X

(32)

Concentrazione dei valori

come indice centrale, considerando la deviazione standard come indice di dispersione dei dati, ci si pone la questione di stabilire a priori una stima della percentuale di dati che si "concentrano" in prossimità di . X

Più precisamente:

che percentuale di dati si trova nell'intervallo ? Che percentuale nell'intervallo ?

E nell'intervallo ?

X X

[ - s, + s]

X X

[ - 2s, + 2s]

X X

[ - 3s, + 3s]

Assumendo in un campione casuale di taglia n la media aritmetica

X

(33)

Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:

La regola empirica vs

la regola di Čebyšëv

(34)

approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;

Approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard.

Approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.

Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:

La regola empirica vs

la regola di Čebyšëv

(35)

approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;

approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard;

Approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.

Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:

La regola empirica vs

la regola di Čebyšëv

(36)

approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;

approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard;

approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.

Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:

La regola empirica vs

la regola di Čebyšëv

(37)

La regola empirica vs

la regola di Čebyšëv

Quando siamo in presenza di una generica distribuzione

(anche asimmetrica), interviene la cosiddetta regola di

Čebyšëv:

(38)

La regola empirica vs

la regola di Čebyšëv

Quando siamo in presenza di una generica distribuzione (anche asimmetrica), interviene la cosiddetta regola di Čebyšëv:

"Detto k un numero intero maggiore o uguale a 2, la percentuale di valori che non si discosta dalla media (a destra o sinistra) più di k volte la deviazione standard è pari ALMENO a

S

k

n ≥ 1− 1 k

2

( )

X 100 % ".

(39)

La regola empirica

Consideriamo l'istogramma delle densità relativo alle ore di studio della I scuola

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

0 0,03 0,06 0,09 0,12

[10;14) [14;18) [18;22) [22;26) [26;30) [30,34]

Secondo la regola empirica, circa il 68% dei dati appartiene a

X - 2s + 2s

µ − s; µ + s

[

X. . X

]

= 13,65; 24,7

[ ]

+ s

X X

- s

X

. Nel nostro caso 2

30 = 0,07

22 73

👉

73%

Secondo la regola empirica, circa il 95% dei dati appartiene a . Nel nostro caso 2

30 = 0,07

28 93

👉

93%

37

]

µ − 2s; µ + 2s

[

. X . X

]

= 8,29; 29,72

[ ]

(40)

La regola di Čebyšëv

Consideriamo l'istogramma delle densità relativo alle ore di studio della I scuola

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

µ − 2s; µ + 2s

[

. X . X

]

= 8,29; 29,72

[ ]

Secondo la regola di Čebyšëv, non meno del 75% dei dati appartiene a

Nel nostro caso 2

30 = 0,07

28 93

👉

93%

. Infatti k =2

👉 S n

k

( ≥ 1− k 1

2

)

X 100 % =75%

(41)

0 2,5 5 7,5 10

[10;14) [14;18) [18;22) [22;26) [26;30) [30,34]

0 3 6 9 12

[10;14) [14;18) [18;22) [22;26) [26;30]

10,3; 12,9; 12,9; 13,5; 13,7;

14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3;

18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2;

23,7; 26,1; 27,1; 29,8; 33,8.

25,8; 23,2; 10,1; 24,2; 21,0;

22,3; 15,1; 22,4; 28,3; 25,7;

19,8; 21,4; 17,7; 19,3; 18,2;

21,5; 23,3; 24,3; 20,9; 27,0;

22,3; 20,9; 21,1; 25,1; 23,9;

21,1.

µ = 19,01, s = 5,36

µ = 21,77, s = 3,78

La deviazione standard del secondo dataset è inferiore a quella del primo.

Per avere una misura del grado di dispersione si può confrontare la deviazione standard con la metà della lunghezza dell’intervallo che contiene il 70% dei dati.

Concentrazione: uso dei percentili

. . X

X

(42)

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

70%

15% 15%

15-esimo percentile 85-esimo percentile

p = 0,15 :

(

30 +1

)

× 0,15 = 4,65

Il 15-esimo percentile si colloca fra gli elementi di posizione 4 e 5, ossia fra 13,5 e 13,7:

13,5 + 0,65 × 13,7 −13,5

( )

= 13,63

p = 0,85 :

(

30 +1

)

× 0,85 = 26,35 L’85-esimo percentile si colloca fra

gli elementi di posizione 26 e 27, ossia fra 23,7 e 26,1:

23, 7 + 0,35 × 26,1− 23,7

( )

= 24,54

👉

24,542−13,63 = 5,46 > 5,36

Concentrazione: uso dei percentili

(43)

70%

15% 15%

15-esimo percentile 85-esimo percentile

p = 0,15 :

(

26 +1

)

× 0,15 = 4,05

Il 15-esimo percentile si colloca fra gli elementi di posizione 4 e 5, ossia fra 18,2 e 19,3:

18,2 + 0,05 × 19,3−18,2

( )

= 18,26

p = 0,85 :

(

26 +1

)

× 0,85 = 22,95 l’85-esimo percentile si colloca fra

gli elementi di posizione 22 e 23, ossia fra 25,1 e 25,7:

25,1+ 0,95 × 25,7 − 25,1

( )

= 25,67

👉

25,67 2−18,26 = 3,71 < 3,78

10,1; 15,1; 17,7; 18,2; 19,3; 19;8; 20,9; 20,9; 21,0; 21,1;

21,1; 21,4; 21,5; 22,3; 22,3; 22,4; 23,2; 23,3; 23,9; 24,2;

24,3; 25,1; 25,7; 25,8; 27,0; 28,3.

Concentrazione: uso dei percentili

(44)

La deviazione standard per classi

Supponiamo che i dati relativi al numero di ore siano stati forniti in tabella secondo le classi di modalità già usate per l’istogramma.

Per il calcolo della varianza, e quindi della deviazione standard, si usa lo stesso procedimento visto per la media, ossia:

Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34]

Centri 12 16 20 24 28 32

Frequenze


assolute 5 9 9 3 3 1

s2 =

∑ (

centri delle classi − media

)

2 × frequenze assolute taglia −1

= 1

29 ⎡⎣

(

12 −19,1

)

2 × 5 +!+ 32 −19,1

( )

2 ×1⎤⎦ = 28,34

👉 s = 5,32

(45)

La deviazione standard

Un caso particolare: stessa media e stessa deviazione standard

s = 1

.

-3 -2 -1 0 1 2 3

0

-3 -2 -1 0 1 2 3

-3 -2 -1 1 2 3

µ = 0

. X

15

10 5

15

10 5

15 10 5

Riferimenti

Documenti correlati

Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti...

Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente

Le medie e le deviazioni standard delle quotazioni giornaliere dei titoli azionari Indesit &amp; De Longhi nell’arco del 2006 sono state:. Indesit: media = 9,89; deviazione standard

non solo la variazione intervenuta fra il tempo base e quello attuale, ma anche…. … la variazione a breve fra

Lo stesso indice di concentrazione può essere utilizzato per classi di modalità scegliendo come valori di riferimento i centri delle classi al posto delle

Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti...

Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade

come indice centrale, considerando la deviazione standard come indice di dispersione dei dati, ci si pone la questione di stabilire a priori una stima della percentuale di dati che