CORSO DI LAUREA IN OTTICA E OPTOMETRIA

(1)

C O R S O D I I N F O R M A T I C A E S T A T I S T I C A D A N I E L E . M O N T A N I N O @ U N I S A L E N T O . I T

CORSO DI LAUREA IN OTTICA E OPTOMETRIA

1

(2)

CONVENZIONE SULLE CIFRE SIGNIFICATIVE

• La convenzione usata sul troncamento delle cifre è

• troncare semplicemente le cifre non significative se la cifra successiva è <5

• Aumentare di una unità l’ultima cifra significativa se la cifra successiva è ≥5

esempio: troncare a 2 cifre significative i seguenti numeri 2,35471… = 2,35

3,45567… = 3,46 8,49735… = 8,50 1,99801… = 2,00

ricordare che bisogna sempre scrivere esplicitamente tutte le cifre significative anche se queste sono zeri (come nell’ultimo caso).

(3)

VARIABILI

• Variabili

•

Qualitative (esempio “colore degli occhi”, “visione “chiara o sfocata”)

•

Quantitative o numeriche (esempio “diottrie”, “distanza interpupillare”)

• Tipi di variabili quantitative

•

Discrete (esempio “voto”, “età di un paziente in anni”)

•

Continue (esempio “altezza di un soggetto”)

(4)

INSIEME DI VARIABILI

• Insieme di variabili

k=indice (o pedice). N=numerosità del campione

esempio: i voti di 5 studenti all’esame di “Informatica e Statistica”

x

₁

, x

₂

, …x

_N

{ } ^{≡ x} { }

^k _k=1,N

x

₁

, x

₂

, x

₃

, x

₄

, x

₅

{ } = 28, 22, 25, 21, 30 { }

(5)

SOMMA

• Somma (o sommatoria) di N numeri

Nell’esempio precedente

x

_k

k=1 N

∑ ^{= x}

¹

^{+ x}

²

^{+... + x}

^N

x

_k

= 28 + 22 + 25 + 21+ 30 = 126

k=1 5

∑

(6)

PROPRIETÀ DELLA SOMMA

•

La somma è un’operazione lineare

con A e B costanti; infatti

Per esempio nel caso precedente se moltiplichiamo per 10 e sommiamo 5 ad ogni numero abbiamo

che sommati danno 1285, cioè 10x126+5x5.

(Ax

_k

+ B) = A x

_k

+ NB

k=1 N

∑

k=1 N

∑

(Ax

_k

+ B) = (Ax

₁

+ B)…+ (Ax

_N

+ B) = A(x

₁

+…+ x

_N

k=1 N

∑ ) + (B +... + B)

N volte

    

10x

₁

+ 5,10x

₂

+ 5,10x

₃

+ 5,10x

₄

+ 5,10x

₅

+ 5

{ } = 285, 225, 255, 215, 305 { }

(7)

SOMMA

• Esercizio: provare con qualche esempio che

k = 1+ 2 +... + N = N(N +1)

k=1

2

N

∑

k

²

= 1+ 4 +... + N

²

= N(N +1)(2N +1)

k=1

6

N

∑

(8)

PRODOTTO

• Prodotto (o produttoria)di N numeri

• Fattoriale: è definito come

Questa funzione tornerà utile in seguito. Il fattoriale è un numero che cresce molto velocemente

0!=1 (per definizione); 1!=1; 2!=2; 3!=6; 4!=24; 5!=120;

x

_k

= x

₁

⋅ x

₂

k=1 N

∏ ^{⋅…⋅ x}

^N

N! = k = 1⋅ 2

k=1 N

∏ ^{⋅…⋅ N}

(9)

MEDIA DI UN CAMPIONE

• La media di un campione di dati è definita da

Esempio: nel caso precedente la media dei voti del campione dei cinque studenti sarà

X = 1

N x _k

k=1 N

∑

X = 1

5 x

_k

= 28 + 22 + 25 + 21+ 30

5 = 25, 2

k=1 5

∑

(10)

PROPRIETÀ DELLA MEDIA

• Usando le proprietà di linearità della somma è facile mostrare che la media è una operazione lineare

con A e B costanti e

In particolare la media degli scarti è zero

AX + B = AX + B

Ax + By + C = Ax + By + C

X − X = X − X = 0

(11)

MEDIANA DI UN CAMPIONE

• La mediana di un campione è quel valore che divide il campione in due sottoinsiemi, uno con valori tutti minori o uguali alla mediana, un altro con valori tutti maggiori o uguali.

• Esempio: prendiamo i voti dell’esempio precedente e li mettiamo in ordine crescente: 21 – 22 – 25 – 28 – 30. In questo caso il valore

mediano corrisponde a 25 poiché metà del campione ha valori minori di 25 (21 e 22) e l’altra metà maggiori (28 e 30).

• Operativamente: si mettono i valori in ordine crescente e si trova il valore corrispondente alla posizione (N+1)/2 (nel nostro caso

(5+1)/3=3). Nel caso in cui N+1 sia dispari si prende il valore medio tra i valori con posizioni N/2 e N/2+1.

• Esempio: trovare la mediana tra 2 – 5 – 8 – 12 – 14 – 17. In questo caso prendiamo la media tra i valori in 3° e 4° posizione, ovvero (8+12)/2 =10.

• Notare che mediana e media generalmente con coincidono.

(12)

QUARTILI E DECILI

• I quartili di un campione sono quei valori per cui il campione è diviso in quattro sottoinsiemi di dimensione uguale.

• Esempio: si è misurata la miopia di dieci individui ottenendo il seguente insieme (in diottrie):

{2,8 ÷ 7,2 ÷ 4,2 ÷ 4,2 ÷ 5,6 ÷ 3,9 ÷ 5,3 ÷ 6,7 ÷ 5,8 ÷ 7,1 ÷ 2,1 ÷ 3,3 ÷ 0,4 ÷ 0,6 ÷ 5,6 ÷ 3,8 ÷ 6,9 ÷ 5,2 ÷ 0,8 ÷ 5,7}

riscriviamo il campione in ordine crescente

{0,4 ÷ 0,6 ÷ 0,8 ÷ 2,1 ÷ 2,8 ÷ 3,3 ÷ 3,6 ÷ 3,9 ÷ 4,2 ÷ 4,2 ÷ 5,2 ÷ 5,3 ÷ 5,6 ÷ 5,6 ÷ 5,7 ÷ 5,8 ÷ 6,7 ÷ 6,9 ÷ 7,1 ÷ 7,2}

Il primo quartile corrisponde a (20+1)/4=5,25. Al 5° posto troviamo 2,8. Per essere più precisi però dobbiamo aggiungere lo 0,25 della distanza tra 2,8 e 3,3 (ovvero il valore al 6° posto) ovvero 2,8+0,25*(3,3-2,8)=2,925. Allo stesso modo il terzo quartile corrisponde alla posizione 3*(20+1)/4=15,75, per cui avremo che il valore del terzo quartile vale 5,7+0,75*(5,8-5,7)=5,775.

• Allo stesso modo è possibile definire i decili di un campione. Nell’esempio precedente il terzo decile corrisponde alla posizione (20+1)*3/10=6,3 per cui il valore cercato vale 3,3+0,3*(3,6-3,3)=3,39

(13)

RANGO QUARTILE E DECILE

• Il rango quartile Q_X di un valore X è il numero (anche non intero) per cui ci sono Q_X/4 valori dell’insieme di dati minori di X e (4-Q_x)/4

maggiori.

• Se p_x è la posizione del valore basta calcolare Q_X=4p_X/(N+1).

• Nell’esempio precedente vogliamo conoscere il rango quartile a cui appartiene il valore 3,9. Vediamo che 3,9 corrisponde all’8° posizione per ci calcoliamo Q_3,9=8*4/(20+1)=1,52. Ciò vuol dire che 1,52/4 valori sono minori di 3,9 e 2,48/4 valori maggiori di 3,9

• Allo stesso modo il rango decile è il numero per cui ci sono D_X/10 valori minori di X e (10-D_X)/10 valori maggiori di X. E’ possibile

calcolare il rango decile con la formula D_X=10p_X/(N+1).

• Per esempio il rango decile di 3,9 vale D_3,9=10*8/(20+1)=3,8.

(14)

MEDIA GEOMETRICA

• La media definita precedentemente è la

cosiddetta media lineare (o aritmetica). Esistono altri tipi di media. Vale la pena menzionare la

media geometrica

questa media è usata quando sia ha a che fare con variabili moltiplicative (ad esempio tassi di crescita o di interesse).

M

_g

= x

_k

k=1 N

∏

N

(15)

MEDIA GEOMETRICA

• Esempio: il numero di batteri in una colonia cresce del 120% nelle prima ora, del 140% nella seconda del 130% nella terza e del 110% nella quarta ora.

Qual è il tasso di crescita medio nelle quattro ore?

La risposta è

Infatti se la colonia crescesse del 124,5% ogni ora l’incremento totale finale sarebbe lo stesso.

R = 1, 2 ⋅1, 4 ⋅1.3⋅1,1

⁴

= 1, 2449 ≅ 124, 5%

(16)

FREQUENZE

• Le frequenze rappresentano il numero di

occorrenze di una variabile sia qualitativa che quantitativa

•

Esempio di variabile qualitativa: In un campione di 128 persone si verifica il loro colore degli occhi

La frequenza relativa è la frazione del numero rispetto al totale

Colore degli occhi Frequenza Assoluta Frequenza relativa

Neri 25 19,5%

Nocciola 32 25,0%

Blu 40 31,3%

Verdi 31 24,2%

Totale 128

(17)

FREQUENZA

• Vediamo il caso di una variabile quantitativa: voti di un campione di 300 studenti in un determinato

esame

Voto in trentesimi Studenti (frequenza)

18 2

19 6

20 11

21 24

22 35

23 38

24 49

25 35

26 33

27 31

28 19

29 12

30 5

(18)

DISTRIBUZIONE DI FREQUENZA

• La precedente tabella può essere tradotta in

istogramma. Questa sarà la distribuzione dei dati

10 20 30 40 50 60

Numero di studenti

(19)

CLASSI

• A volte è comodo o necessario “raggruppare” la variabile in esame in classi. Per esempio potremmo raggruppare la tabella dei voti precedenti in tre

“macroclassi”: da 18 a 22, da 23 a 27 e da 28 a 30

Questo raggruppamento diventa evidentemente

necessario quando si ha a che fare con variabili continue (esempio: l’altezza di un campione di persone).

Voti Numero di studenti

18-22 78

23-27 186

28-30 36

(20)

CUMULATIVA

• Dalla tabella precedente è possibile anche costruire la tabella delle “cumulative”

Voto Studenti Cumulativa

18 2 2

19 6 8

20 11 19

21 24 43

22 35 78

23 38 116

24 49 165

25 35 200

26 33 233

27 31 264

28 19 283

29 12 295

30 5 300

Totale 300

L’ultima colonna è costruita sommando via via le frequenze precedenti.

Per esempio nel caso precedente il numero di

studenti che hanno preso un voto ≤25 sarà 200

Ovviamente la distribuzione cumulativa ha senso solo se la variabile è di tipo numerico

(21)

DISTRIBUZIONE CUMULATIVA

0 50 100 150 200 250 300 350

18 19 20 21 22 23 24 25 26 27 28 29 30

Numero di studenti

Voto

(22)

CUMULATIVA RELATIVA

• Dividendo le cumulative per la numerosità totale del campione si ha la cumulativa relativa. Nell’esempio precedente si ha che, ad

esempio, il 38.7% degli studenti ha un voto inferiore o uguale al 23.

Voto Cum. relativa

18 0,7%

19 2,7%

20 6,3%

21 14,3%

22 26,0%

23 38,7%

24 55,0%

25 66,7%

26 77,7%

27 88,0%

28 94,3%

29 98,3%

30 100,0%

0,0%

20,0%

40,0%

60,0%

80,0%

100,0%

120,0%

18 19 20 21 22 23 24 25 26 27 28 29 30

Numero di studenti

Voto

(23)

RIASSUMENDO…

Variabile frequenza

assoluta frequenza

relativa cumulativa

assoluta cumulativa relativa

x₁ n₁ f₁ s₁ c₁

x₂ n₂ f₂ s₂ c₂

…

x_N n_n f_N s_N c_N

n = n

_k

k=1 N

∑ ^f

k

= n

_k

n ^s

^k

⁼

ⁱ⁼¹

ⁿ

ⁱ

k

∑ ^c

^k

⁼ ^s

^k

n

(24)

MEDIA PESATA (O PONDERATA)

• Quando si ha a che fare con una tabella di

frequenze la media di una variabile deve essere ovviamente “pesata” sulla frequenza della variabile

questo perché la variabile x

_k

appare n

_k

volte nella tabella (nell’esempio dei voti è come se dovessimo sommare 18 per 2 volte, 19 per 6 volte e così via e dividere per tutti e 300 gli studenti)

X = f

_k

⋅ x

_k

k=1 N

∑

o alternativamente

X = 1

n n

_k

⋅ x

_k

k=1 N

∑

(25)

MEDIA PESATA

Voto x_k Studenti n_k Frequenza relativa f_k f_k*x_k

18 2 0,7% 0,12

19 6 2,0% 0,38

20 11 3,7% 0,73

21 24 8,0% 1,68

22 35 11,7% 2,57

23 38 12,7% 2,91

24 49 16,3% 3,92

25 35 11,7% 2,92

26 33 11,0% 2,86

27 31 10,3% 2,79

28 19 6,3% 1,77

29 12 4,0% 1,16

30 5 1,7% 0,50

Totale studenti= 300 voto medio= 24,31

(26)

MEDIANA

• La mediana è quel valore per cui metà della distribuzione è inferiore e metà è superiore ad esso

• Esempio: si è misurata la miopia in un campione di studenti ottenendo la seguente distribuzione

Diottrie Persone Cumulativa relativa

0,0 302 5,7%

0,5 548 16,1%

1,0 815 31,6%

1,5 965 50,0%

2,0 860 66,3%

2,5 640 78,5%

3,0 360 85,3%

3,5 235 89,8%

4,0 115 91,9%

4,5 87 93,6%

5,0 91 95,3%

5,5 70 96,7%

6,0 74 98,1%

6,5 24 98,5%

7,0 21 98,9%

7,5 17 99,2%

8,0 18 99,6%

8,5 9 99,8%

9,0 7 99,9%

Osserviamo come il valore della

cumulativa relativa assume il valore 50%

in corrispondenza di 1,5 diottrie. Questa sarà il valore mediano poiché metà dei soggetti avrà una miopia inferiore a 1.5 diottrie e un’altra metà superiore. La classe corrispondente viene chiamata classe mediana

Si noti come il valore della mediana non necessariamente coincida con la

media (nel caso precedente vale 2

(27)

MEDIANA

• A volte la mediana non è ben definita.

Riprendendo l’esempio dei voti la mediana cade tra le classi 23 e 24. In tal caso per semplicità

potremmo prendere il valore intermedio tra le classi a cavallo del 50%. Per esempio nel caso

precedente il voto mediano sarebbe 23,5.

• Tuttavia possiamo procedere ad un calcolo più preciso tramite una interpolazione. Se la mediana è compresa tra xi e x_i+1la mediana si può calcolare come

• Nel nostro caso:

Voto

xi

Studenti

ni

Cumulativa

si

Cum. relativa

ci

18 2 2 1%

19 6 8 3%

20 11 19 6%

21 24 43 14%

22 35 78 26%

23 38 116 39%

24 49 165 55%

25 35 200 67%

26 33 233 78%

27 31 264 88%

28 19 283 94%

29 12 295 98%

30 5 300 100%

Totale 300

Mediana = 𝑥_! +

!

""#_#

$_#$% ⋅ (𝑥_!%&-𝑥_!)

Mediana = 23 +

&''

" " &&'

() ⋅ (24 − 23)=23.7

(28)

MEDIANA

Classi Classi ”contigue" Frequenza Cumulativa

3 - 7 3 - 7,5 1 1

8 - 12 7,5 - 12,5 4 5

13 - 17 12,5 - 17,5 2 7

18 - 22 17,5 - 22,5 6 13

23 - 27 22,5 - 27 4 17

Facciamo un altro esempio. Consideriamo la tabella precedente. Per prima cosa rendiamo le classi “contigue” (o a “limiti reali”) allargandole in modo che il valore superiore di una classe corrisponda col valore inferiore della successiva. In questo caso la mediana è quella la cui cumulativa corrisponde al valore 17/2 = 8,5. La classe mediana è quindi la 18 – 22, poiché 8,5 è > di 7 e < 16. La mediana si trova quindi tra 17,5 e 22,5. Possiamo supporre quindi che a 17,5 la cumulativa valga 7 e a 22,5 valga 13, per cui operando come prima avremo allora

Mediana=17,5+^*,,"-_' 4 22,5 − 17,5 =18,75

(29)

QUARTILI

• Allo stesso modo della mediana è possibile definire i quartili rappresentano i valori che dividono in quattro parti la distribuzione

Seguendo il criterio precedente potremmo grosso modo identificare il quartile inferiore con il valore 0,75 e quello superiore con 2,25. Tuttavia valori più precisi possono essere trovati tramite una interpolazione alla stessa maniera della mediana:

Il secondo quartile (Q₂) equivale ovviamente alla mediana che vale 1,5. I quartili sono quindi

1. 0,00 – 0,79 2. 0,79 – 1,50 3. 1,50 – 2,36

Diottrie Persone Cumulativa Cumulativa relativa

0,0 302 302 5,7%

0,5 548 850 16,1%

1,0 815 1665 31,6%

1,5 965 2630 50,0%

2,0 860 3490 66,3%

2,5 640 4130 78,5%

3,0 360 4490 85,3%

3,5 235 4725 89,8%

4,0 115 4840 91,9%

4,5 87 4927 93,6%

5,0 91 5018 95,3%

5,5 70 5088 96,7%

6,0 74 5162 98,1%

6,5 24 5186 98,5%

7,0 21 5207 98,9%

7,5 17 5224 99,2%

8,0 18 5242 99,6%

8,5 9 5251 99,8%

𝑄_& = 0, 5 +

14 ⋅ 5264 − 850

815 ⋅ (1,0 − 0,5) = 0,79 𝑄_. = 2, 0 +

34 ⋅ 5264 − 3490

640 ⋅ (2,5 − 2,0) = 2,36

(30)

PERCENTILI

• Un ulteriore raffinamento dei concetti precedenti sono i percentili. Per esempio il 90% percentile inferiore e superiore sono quei valori per cui al di sotto troviamo il 10% e il 90% della popolazione.

• nell’esempio della miopia all’incirca solo il 5% della popolazione ha meno di 0.25 diottrie mentre chi ha più di 3,5 diottrie è nel 95% percentile superiore.

• Per il calcolo esatto dei decili si possono usare le stesse formule di interpolazione per la media e i quartili

0,0%

10,0%

20,0%

30,0%

40,0%

50,0%

60,0%

70,0%

80,0%

90,0%

100,0%

1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0

12,0 13,0

14,0 15,0

16,0 17,0

18,0 19,0

20,0 21,0 x

90%

75%

50%

20%

10%

(31)

PERCENTILI

• Esempio: calcolare il terzo decile della tabella

il terzo decile evidentemente corrisponde ad una cumulativa del 30% e quindi appartiene alla classe 13 – 17. Il calcolo può essere fatto come prima

Classi Classi ”contigue" Frequenza Cumulativa Cum. Relativa

3 - 7 3 - 7,5 1 1 5,9%

8 - 12 7,5 - 12,5 4 5 29,4%

13 - 17 12,5 - 17,5 2 7 41,2%

18 - 22 18,5 - 22,5 6 13 76,5%

23 - 27 22,5 - 27 4 17 100,0%

𝐷_. = 12,5 +

10 ⋅ 17 − 53

2 ⋅ (17,5 − 12,5) = 12,75

(32)

RANGO PERCENTILE DI UN VALORE

• Data una tabella il rango percentile di un dato valore X è la percentuale di valori più piccoli di X.

Esempio: vogliamo stabilire a quale rango percentile corrisponde una diottria di 2,8. Dobbiamo fare una

interpolazione tra i valori 2,5 e 3,0 per trovare il percentile corrispondente (o rango percentile)

Questo significa che l’82,6% dei valori è minore di 2,8 e il restante 17,4% è maggiore.

Il rango decile corrispondente si trova moltiplicando 0,826*10=8,26

Analogamente, per trovare il rango quartile invece basta

Diottrie Persone Cumulativa Cumulativa relativa

0,0 302 302 5,7%

0,5 548 850 16,1%

1,0 815 1665 31,6%

1,5 965 2630 50,0%

2,0 860 3490 66,3%

2,5 640 4130 78,5%

3,0 360 4490 85,3%

3,5 235 4725 89,8%

4,0 115 4840 91,9%

4,5 87 4927 93,6%

5,0 91 5018 95,3%

5,5 70 5088 96,7%

6,0 74 5162 98,1%

6,5 24 5186 98,5%

7,0 21 5207 98,9%

7,5 17 5224 99,2%

8,0 18 5242 99,6%

8,5 9 5251 99,8%

P%=78,5%+2,8 − 2,5

3,0 − 2,5 4 85,3% − 78,5% = 82,6%

(33)

RANGO DECILE DI UN VALORE

• Allo stesso modo data la tabella

vogliamo calcolare il rango decile e quartile di 23,5. Poiché 23,5 appartiene alla classe 22,5-27, operando come nel caso precedente abbiamo

Ne deriva che in questo caso il rango decile è 8,17 mentre in rango quartile vale 3,27.

Classi Classi ”contigue" Frequenza Cumulativa Cum. Relativa

3 - 7 3 - 7,5 1 1 5,9%

8 - 12 7,5 - 12,5 4 5 29,4%

13 - 17 12,5 - 17,5 2 7 41,2%

18 - 22 18,5 - 22,5 6 13 76,5%

23 - 27 22,5 - 27 4 17 100,0%

P%=76,5%+23,5 − 22,5

27 − 22,5 4 100% − 76,5% = 81,7%

(34)

MODA

• La moda è il valore più comune in una distribuzione. Per esempio nell’esempio dei voti la moda è il 24 mentre nell’esempio della miopia la moda è 1,5 diottrie.

• Talvolta una distribuzione può avere due picchi distinti ben localizzati.

In tal caso la distribuzione si dice “bimodale” (più in generale possono esistere distribuzioni “multimodali”)

200,0 400,0 600,0 800,0 1000,0

1200,0 Una distribuzione del genere

può essere sintomo di due popolazioni “distinte” (per esempio se misurassimo la miopia ad un campione di persone in parte italiane e in parte giapponesi, popolo notoriamente più miope)

(35)

ESEMPIO

• Una fabbrica produce viti per occhiali attraverso tre macchine di lunghezza nominale 1,1mm. Si estrae un campione di 430 viti e si fa un istogramma della loro lunghezza reale

Lunghezza

(mm) Numero

0,85 0

0,90 2

0,95 8

1,00 25

1,05 40

1,10 136

1,15 90

1,20 31

1,25 7

1,30 1

1,35 2

1,40 4

1,45 22

1,50 40

1,55 18

1,60 2

1,65 1

1,70 1

0 20 40 60 80 100 120 140 160

0,85 0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80

Il fatto che vi è un secondo picco a 1.50 mm fa pensare che una delle macchine stia lavorando

“male” ovvero sta producendo viti sistematicamente più lunghe di quelle programmate.

(36)

MEDIA PESATA SU CLASSI

• Talvolta occorre calcolare la media su di una tabella di classi. Prendiamo ad esempio la tabella dei voti

suddivisa in classi

Poiché non conosciamo il numero relativo di studenti

relativo ad ogni voto, siamo costretti a scegliere un criterio per assegnare un voto “medio” ad ogni classe. La scelta più semplice è di considerare il valore centrale della

classe

Voti Numero di studenti

18-22 78

23-27 186

28-30 36

(37)

MEDIA PESATA SU CLASSI

La media pesata su questa tabella vale 24,18 che è solo leggermente diverso dal valore 24,31 calcolata con la tabella non suddivisa in classi. In ogni caso la suddivisione in classi provoca una “perdita di

informazioni” e quindi fornisce un valore meno accurato per le variabili statistiche.

Voti Voto medio Numero di

studenti

18-22 20 78

23-27 25 186

28-30 29 36

(38)

TABELLE A DOPPIA ENTRATA

• Un caso più generale avviene quando una tabella incrocia due (o più) variabili

Una tabella di questo tipo viene detta a doppia entrata, o bivariata. In principio possono esistere anche tabelle che incrociano più di due variabili (multivariate) ma la loro rappresentazione è più difficoltosa. Per semplicità ci limiteremo a tabelle a doppia entrata.

y₁ y₂ … y_M

x₁ n_1,1 n_2,1 … n_1,M

x₂ n_2,1 n_2,2 … n_2,M

… … … … …

x_N n_N,1 n_N,2 n_N,M

(39)

TABELLE A DOPPIA ENTRATA

• Esempio di tabella a doppia entrata. X=colore degli occhi, Y=colore dei capelli

• Se X e Y qualitativi la tabella si dice di “contingenza”, se entrambi quantitativi di “correlazione”, se uno qualitativo e uno

quantitativo si dice “tabella mista”.

Biondi Rossi Castani Σ

Azzurri 5 3 1 9

Verdi 2 4 6 12

Σ 7 7 7 21

Marginali di riga

Marginali di colonna Totale generale

(40)

MARGINALI

• Marginali di riga

• Marginali di colonna

• Totale generale

n

_i,•

= n

_{i, j}

j=1 M

∑

n

_{•, j}

= n

_{i, j}

i=1 N

∑

n = n

_i,•

=

N

∑ ⁿ

^{•, j}

⁼

M

∑ ⁿ

^{i, j}

M

∑

N

∑

(41)

ESEMPIO DI TABELLA A DOPPIA ENTRATA

• Per esempio si supponga di avere la seguente tabella in cui si è misurato il grado di astigmatismo residuo su due campioni di persone che hanno eseguito due tecniche di chirurgia refrattiva (PRK o LASIK)

L’ultima riga sono le persone che hanno effettuato un certo tipo di intervento, l’ultima colonna sono le persone che hanno un certo grado di astigmatismo

Asitig. (diottrie) PRK LASIK n_i*

0.0 2 1 3

0.1 5 2 7

0.2 7 5 12

0.3 11 4 15

0.4 9 7 16

0.5 4 8 12

0.6 2 6 8

0.7 1 4 5

0.8 0 1 1

0.9 1 1 2

1.0 0 1 1

n_*j 42 40 82

(42)

ISTOGRAMMA

• E’ possibile costruire un istogramma per entrambe le entrate e il marginale di riga

PRK LASIK

PRK+LASIK 0

2 4 6 8 10 12 14 16

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

0,9 1

PRK LASIK PRK+LASIK

(43)

MEDIE PARZIALI

• Le medie su di una riga o una colonna costituiscono le medie

parziali. Queste medie possono evidentemente essere effettuate se x e/o y sono variabili quantitative

per esempio nel caso della tabella precedente possiamo calcolare solo le medie di colonna poiché le variabili di riga sono qualitative.

Calcolando queste medie otteniamo separatamente l’astigmatismo medio per chi ha eseguito l’intervento con la PRK e la LASIK ottenendo (il calcolo è lasciato per esercizio):

• Media(PRK) = 0,32

• Media(LASIK) = 0,46

(attenzione: questo non induca alla facile conclusione che la LASIK è peggiore della PRK!)

X

_j

= 1

n

_{• j}

n

_{i, j}

x

_i

i=1 N

∑ Y

_i

= 1

n

_i•

n

_{i, j}

y

_j

j=1 M

∑

(44)

MEDIE GENERALI

•

Nelle tabelle a doppia entrata è anche possibile calcolare le medie generali delle variabili quantitative. Queste sono

calcolate attraverso le formule

ovvero come “media pesata delle medie parziali“ oppure

come una media delle variabili stesse pesata con i marginali di riga e di colonna (si può mostrare che si ha lo stesso risultato).

X = 1

n n

_{•, j}

X

_j

j=1 M

∑ ⁼ ¹ _n ⁿ

^i,•

^x

ⁱ

i=1 N

∑

Y = 1

n n

_i,•

Y

_i

i=1 N

∑ ⁼ ¹ _n ⁿ

^{•, j}

^y

^j

j=1 M

∑

(45)

ESEMPIO DI MEDIE GENERALI

• Riprendiamo l’esempio della tabella precedente: vogliamo calcolare l’astigmatismo medio su tutto il campione

Asitig.

(diottrie) PRK LASIK n_i*

0.0 2 1 3

0.1 5 2 7

0.2 7 5 12

0.3 11 4 15

0.4 9 7 16

0.5 4 8 12

0.6 2 6 8

0.7 1 4 5

0.8 0 1 1

0.9 1 1 2

1.0 0 1 1

n_*j 42 40 82

Media 0,32 0,46

Questo può essere effettuato in due modi 1) Calcoliamo la “medie delle medie”

pesando le medie sui marginali di colonna

2) Mediamo direttamente la variabile x usando come peso i marginali di riga

Il risultato è lo stesso ma avendo già le X = 42 × 0, 32 + 40 × 0, 46

82 = 0, 39

X = 0.0 × 3+ 0.1× 7 +... +1.0 ×1

82 = 0, 39

(46)

ESERCIZIO

Astigmatismo residuo

rrezione apportata (diottrie)

0.0 ÷ 0.2 0.2 ÷ 0.4 0.4 ÷ 0.6 0.6 ÷ 0.8 0.8 ÷ 1.0

0 ÷ 2 7 4 2 1 0

2 ÷ 4 3 5 4 2 1

4 ÷ 6 2 8 4 3 2

• In questa tabella un certo numero di pazienti trattati con PRK vengono

classificati in base all alla correzione apportata e all’astigmatismo residuo dopo l’operazione. Trovare le medie parziali di riga e di colonna e le medie generali.

Fare un istogramma delle medie parziali sia per le righe che per le colonne.

Cosa si potrebbe dedurne?

(47)

MEDIA QUADRATICA

• Un tipo ulteriore di media è la media quadratica, ovvero la radice quadrata della media dei

quadrati

Tale media è utile quando i vari quando i vari x

_k

sono talvolta positivi e talvolta negativi mentre a noi

interessa una media che non dipenda dal segno degli x

_k

M

_q

=

x

_k²

k=1 N

∑

N

(48)

INDICE DI VARIABILITÀ

• A volte a noi non interessa solo la media ma di un campione ma anche quanto questa si discosta

“mediamente” dalla media. Tuttavia, come detto in precedenza, la media degli scarti è sempre zero

poiché alcuni scarti sono positivi e altri negativi. Questa media non ci da quindi alcuna informazione sulla

variabilità. Una possibile soluzione sarebbe di prendere la media dei valori assoluti degli scarti. Tuttavia, per diverse ragioni, la scelta migliore è prendere la media quadratica degli scarti

1 N (x

_k

k=1 N

∑ ^{− X) = 0}

(49)

SCARTO QUADRATICO MEDIO

• Si definisce scarto quadratico medio quindi la media quadratica degli scarti

(la lettera s è il sigma greco minuscolo). Tuttavia questa definizione ha il problema che per N=1 si ha che lo scarto medio è zero mentre per un solo dato noi vorremmo che lo scarto rimanga non definito.

σ

^P_X

=

(x

_k

− X )

²

k=1 N

∑

N

(50)

DEVIAZIONE STANDARD

• Per la ragione precedente si preferisce definire la “deviazione standard” nella maniera seguente

un po’ più grande rispetto allo s.q.m.

• La deviazione standard è una misura della dispersione della popolazione intorno alla media.

• Lo scarto quadratico medio (quello cioè con N al denominatore) è talvolta definito come “deviazione standard di popolazione”.

Per N molto grande la differenza tra i due è minima.

• Il quadrato dello scarto quadratico medio è detto varianza

σ

_x

=

(x

_k

− X )

²

k=1 N

∑

N −1

(51)

DEVIAZIONE STANDARD

•

Facciamo un esempio. Si supponga che Laura e Marco abbiano preso abbia preso i seguenti voti in 10 esami

Laura={25,26,26,27,24,25,26,28,27,26}

Marco={30,22,24,28,27,30,18,24,30,27}

Come si vede entrambi hanno una media di 26. Però la

deviazione standard dei voti di Laura è di 1,15 mentre quella di Marco è 3,97. Ciò indica che Laura è stata più costante nello studio mentre Marco ha avuto periodi di alti e bassi…

•

Notare che se avessimo usato lo scarto quadratico medio

avremmo ottenuto 1,09 e 3,76, valori un poco più grandi dei

precedenti.

(52)

CALCOLO DELLA DEVIAZIONE STANDARD

•

Vediamo coma calcolare la deviazione standard (nel nostro caso N=10)

Voto (x_k) x_k-X (x_k-X)²

25 -1 1

26 0 0

27 1 1

24 -2 4

25 -1 1

26 0 0

28 2 4

27 1 1

26 0 0

X=26

∑(x_k-X)²= 12

∑(x_k-X)²/(N-1)= 12/9=1,33

-

- -

(53)

DEVIAZIONE STANDARD SU TABELLE

• Per calcolare la deviazione standard su una tabella di frequenze occorre fare la media ponderata

con n al solito la numerosità del campione

σ _X = 1

N −1 n _k (x _k − x ) ²

k=1 N

∑

N = n _k

k=1 N

∑

(54)

CALCOLO DELLA DEVIAZIONE STANDARD SU TABELLE

• Riprendiamo l’esempio della tabella dei voti

Voto (x_k) Studenti (n_k) n_k(x_k-X)²

18 2 79,72

19 6 169,39

20 11 204,65

21 24 263,48

22 35 187,30

23 38 65,54

24 49 4,81

25 35 16,50

26 33 93,88

27 31 223,76

28 19 258,24

29 12 263,58

30 5 161,69

-

(55)

COEFFICIENTE DI VARIAZIONE

• E’ definito come il rapporto tra la deviazione standard è la media

Esempio: la media dei tempi di percorrenza dei treni sulla tratta Milano- Roma vale 350 minuti con una deviazione standard di 12 minuti,

mentre sulla tratta Milano-Torino vale 280 minuti con una deviazione standard di 8 minuti. Quale delle due tratte è più affidabile?

E’ evidente che non è possibile confrontare direttamente i due tempi di percorrenza poiché si riferiscono a diverse tratte. Tramite l’indice di variabilità si ha che nel primo caso si ha CV=3,4% mentre nel secondo caso si ha CV=2,9%. I treni sulla tratta Milano-Torino sono più affidabili poiché hanno una variabilità minore rispetto all’altra tratta.

CV (X) = σ

_X

^{/ X}

(56)

INTERDIPENDENZA TRA VARIABILI DIVERSE

• A volte ci si chiede se ci può essere una qualche “relazione” tra due variabili X e Y. Per esempio se esiste una relazione tra ore passate al computer e problemi visivi (ad es. miopia). Si supponga per esempio di avere questa tabella in cui la miopia media di un campione di bambini viene messa in relazione alle ore giornaliere passate

mediamente a giocare con la playstation.

Di questi dati è sempre buona norma fare un grafico!

Ore passate a

giocare 0 1 2 3 4 5

Miopia media 0,8 1,3 1,2 2,4 2,7 3,2

(57)

GRAFICO A DISPERSIONE (SCATTER PLOT)

•

Apparentemente c’è una qualche dipendenza della miopia con il numero di ore passate a giocare ma come quantificare questa dipendenza?

Un primo possibile indicatore è il coefficiente di correlazione lineare

0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5

0,0 1,0 2,0 3,0 4,0 5,0 6,0

Miopia media

Numero di ore medie giornaliere passate a giocare

(58)

COVARIANZA

• La covarianza tra due serie di dati è definita da

con X e Y medie di x

_k

e y

_k

. Questo coefficiente è la media del prodotto degli scarti. Questo coefficiente è positivo se mediamente i segni degli scarti sono “concordi” (ovvero se quando uno è positivo lo è anche l’altro) e negativo quando sono discordi(cioè se uno è negativo, l’altro è positivo e viceversa.

Se non c’è relazione tra i due segni la covarianza tende ad annullarsi.

COV (X,Y ) =

(x

_k

− X)(y

_k

−Y )

k=1 N

∑

- N

-

(59)

COVARIANZA

•

Nel caso precedente per esempio si vede che c’è

concordanza, in effetti la covarianza è positiva e vale +0,77

0,5 1,0 1,5 2,0 2,5 3,0 3,5

Miopia Y=1,93

X=2,50-

-

“-”

“+”

(60)

CORRELAZIONE

• Detti xk e yk due serie di N dati con media X e Y si definisce coefficiente di correlazione tra X e Y la quantità

Questo coefficiente è sempre un numero compreso tra -1 e 1 e ha questo significato.

• Più R è vicino a 1 più vi è una “concordanza” tra le due variabili (al crescere di una cresce l’altra)

• Più R è vicino a -1 più vi è una “discordanza” tra le due variabili (al crescere di una decresce l’altra)

• Se R è vicino a zero vi è “indipendenza” tra le variabili.

R(X,Y ) = COV (X,Y ) σ

_X^P

σ

_Y^P

⁼

x

_k

− X

( ) ( ^y

^k

^−Y )

k=1 N

∑

x

_k

− X

( )

²

k=1 N

∑ ( ^y

^k

^−Y )

²

k=1 N

∑

- -

(61)

CALCOLO DEL COEFFICIENTE DI CORRELAZIONE

Ore passate

a giocare 0,0 1,0 2,0 3,0 4,0 5,0 Media=2,50

(x-X) -2,5 -1,5 -0,5 0,5 1,5 2,5

(x-X)² 6,3 2,3 0,3 0,3 2,3 6,3 ∑=17,50

Miopia media 0,8 1,3 1,2 2,4 2,7 3,2 Media=1,93

(y-Y) -1,1 -0,6 -0,7 0,5 0,8 1,3

(y-Y)² 1,3 0,4 0,5 0,2 0,6 1,6 ∑=4,6

(x-X)(y-Y) 2,8 0,9 0,4 0,2 1,2 3,2 ∑=8.7

--

-- - -

R = 8.7

17.5 × 4.6 = 0.97

Il coefficiente di correlazione vale quindi

il che indica che vi è un forte grado di relazione tra le ore passate a

(62)

CUM GRANO SALIS…

• Occorre sempre stare attenti però che non è detto che anche se c’è un grado di relazione tra le due variabili vi è necessariamente una relazione causa-effetto tra di esse! Si potrebbe giungere a conclusioni paradossali

come per esempio che l’aumento temperatura globale sulla terra è causata dalla diminuzione del numero di pirati…

R=-0,93

(63)

REGRESSIONE

•

Ci si chiede se tra le variabili X e Y esista una qualche

relazione funzionale, cioè se esista una espressione Y=f(X) dove f è una qualche funzione che in qualche maniera approssimi i dati. La ricerca di una tale funzione è detta

“regressione”

•

Questa relazione funzionale può essere nota a priori (per

esempio è noto che tra il peso di un corpo e il suo volume

esiste una relazione lineare) oppure no. In questo secondo

evidentemente non esiste una scelta univoca caso dallo

studio del grafico a dispersione si potrebbe dedurre qual è il

tipo di grafico più opportuno che approssima i dati.

(64)

REGRESSIONE

• In generale, quando si hanno a disposizione pochi punti è molto difficile stabilire qual è la funzione più opportuna

0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0

0,0 1,0 2,0 3,0 4,0 5,0 6,0

Miopia media

Numero di ore medie giornaliere passate a giocare

retta

esponenziale

polinomio

(65)

REGRESSIONE

•

Con un gran numero di dati è più facile inferire la forma funzionale: Per esempio nel caso seguente è abbastanza evidente che i dati sono ben interpolati da una retta.

5 10 15 20 25 30 35

(66)

REGRESSIONE LINEARE

• Qui noi ci occuperemo per semplicità del modello più semplice di regressione, ovvero quando i dati possono essere approssimati da una retta, ovvero da una relazione funzionale del tipo

con A e B variabili da determinare. Questo modello è detto di regressione lineare.

Y = A ⋅ X + B

(67)

PRINCIPIO DEI MINIMI QUADRATI

•

Per determinare i coefficienti A e B è possibile ricorrere al principio dei minimi quadrati (valido anche nel caso di regressioni non lineari).

•

Siano x

_k

e y

_k

sono i nostri dati. Il valore teorico di y associato al valore x

_k

è dato da ŷ

_k

=Ax

_k

+B.

0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5

Y

(x_k,y_k)

° (x_k, ŷ_k)

(68)

METODO DEI MINIMI QUADRATI

•

Possiamo calcolare la somma dei quadrati degli scarti tra gli y

_k

e i valori teorici ŷ

_k

=Ax

_k

+B.

questa quantità ci da una misura delle differenze tra i valori reali e quelli teorici delle y. Essa è una funzione delle variabili

incognite A e B. I valori di A e B cercati sono quelli che

minimizzano questa funzione, ovvero che rendono minima la differenza del quadrato degli scarti della relazione teorica con i dati reali.

Q(A, B) = ( y

_k

− ˆy

_k

)

²

k=1 N

∑ ⁼ ⁽ ^y

^k

^{− Ax}

^k

^{− B} ⁾

²

k=1 N

∑

(69)

METODO DEI MINIMI QUADRATI

•

La minimizzazione si effettua tramite le tecniche standard

dell’analisi, ovvero derivando la funzione Q(A,B) rispetto ad A e a B e ponendo le derivate uguali a zero. Viene qui omessa la dimostrazione e viene dato direttamente il risultato

dove R è il coefficiente di correlazione tra i dati. Come si vede il coefficiente angolare della retta e il coefficiente di correlazione sono legati tra di loro. In particolare se R>0 la retta è crescente, se R<0 decrescente (come ragionevole sia!)

A = R σ

_Y

σ

_X

B = Y − AX

(70)

ESEMPIO DI REGRESSIONE LINEARE

•

Riprendiamo l’esempio della miopia in funzione delle ore passate a giocare:

Ricordiamo che R=0,97. Usando le formule precedenti si ha

Media Dev. st.

Ore passate a

giocare 0,0 1,0 2,0 3,0 4,0 5,0 2,50 2,5 1,71

Miopia

media 0,8 1,3 1,2 2,4 2,7 3,2 1,93 1,9 0,88

A = 0, 97 0,88

1, 71 = 0, 50

B = 1, 9 − 0, 50 × 2, 5 = 0, 69

y = 0,50x + 0,69 R² = 0,93

0,5 1,0 1,5 2,0 2,5 3,0 3,5

Miopia

CORSO DI LAUREA IN OTTICA E OPTOMETRIA