C O R S O D I I N F O R M A T I C A E S T A T I S T I C A D A N I E L E . M O N T A N I N O @ U N I S A L E N T O . I T
CORSO DI LAUREA IN OTTICA E OPTOMETRIA
1
CONVENZIONE SULLE CIFRE SIGNIFICATIVE
• La convenzione usata sul troncamento delle cifre è
• troncare semplicemente le cifre non significative se la cifra successiva è <5
• Aumentare di una unità l’ultima cifra significativa se la cifra successiva è ≥5
esempio: troncare a 2 cifre significative i seguenti numeri 2,35471… = 2,35
3,45567… = 3,46 8,49735… = 8,50 1,99801… = 2,00
ricordare che bisogna sempre scrivere esplicitamente tutte le cifre significative anche se queste sono zeri (come nell’ultimo caso).
VARIABILI
• Variabili
•
Qualitative (esempio “colore degli occhi”, “visione “chiara o sfocata”)
•
Quantitative o numeriche (esempio “diottrie”, “distanza interpupillare”)
• Tipi di variabili quantitative
•
Discrete (esempio “voto”, “età di un paziente in anni”)
•
Continue (esempio “altezza di un soggetto”)
INSIEME DI VARIABILI
• Insieme di variabili
k=indice (o pedice). N=numerosità del campione
esempio: i voti di 5 studenti all’esame di “Informatica e Statistica”
x
1, x
2, …x
N{ } ≡ x { }
k k=1,Nx
1, x
2, x
3, x
4, x
5{ } = 28, 22, 25, 21, 30 { }
SOMMA
• Somma (o sommatoria) di N numeri
Nell’esempio precedente
x
kk=1 N
∑ = x
1+ x
2+... + x
Nx
k= 28 + 22 + 25 + 21+ 30 = 126
k=1 5
∑
PROPRIETÀ DELLA SOMMA
•
La somma è un’operazione lineare
con A e B costanti; infatti
Per esempio nel caso precedente se moltiplichiamo per 10 e sommiamo 5 ad ogni numero abbiamo
che sommati danno 1285, cioè 10x126+5x5.
(Ax
k+ B) = A x
k+ NB
k=1 N
∑
k=1 N
∑
(Ax
k+ B) = (Ax
1+ B)…+ (Ax
N+ B) = A(x
1+…+ x
Nk=1 N
∑ ) + (B +... + B)
N volte
10x
1+ 5,10x
2+ 5,10x
3+ 5,10x
4+ 5,10x
5+ 5
{ } = 285, 225, 255, 215, 305 { }
SOMMA
• Esercizio: provare con qualche esempio che
k = 1+ 2 +... + N = N(N +1)
k=1
2
N
∑
k
2= 1+ 4 +... + N
2= N(N +1)(2N +1)
k=1
6
N
∑
PRODOTTO
• Prodotto (o produttoria)di N numeri
• Fattoriale: è definito come
Questa funzione tornerà utile in seguito. Il fattoriale è un numero che cresce molto velocemente
0!=1 (per definizione); 1!=1; 2!=2; 3!=6; 4!=24; 5!=120;
x
k= x
1⋅ x
2k=1 N
∏ ⋅…⋅ x
NN! = k = 1⋅ 2
k=1 N
∏ ⋅…⋅ N
MEDIA DI UN CAMPIONE
• La media di un campione di dati è definita da
Esempio: nel caso precedente la media dei voti del campione dei cinque studenti sarà
X = 1
N x k
k=1 N
∑
X = 1
5 x
k= 28 + 22 + 25 + 21+ 30
5 = 25, 2
k=1 5
∑
PROPRIETÀ DELLA MEDIA
• Usando le proprietà di linearità della somma è facile mostrare che la media è una operazione lineare
con A e B costanti e
In particolare la media degli scarti è zero
AX + B = AX + B
Ax + By + C = Ax + By + C
X − X = X − X = 0
MEDIANA DI UN CAMPIONE
• La mediana di un campione è quel valore che divide il campione in due sottoinsiemi, uno con valori tutti minori o uguali alla mediana, un altro con valori tutti maggiori o uguali.
• Esempio: prendiamo i voti dell’esempio precedente e li mettiamo in ordine crescente: 21 – 22 – 25 – 28 – 30. In questo caso il valore
mediano corrisponde a 25 poiché metà del campione ha valori minori di 25 (21 e 22) e l’altra metà maggiori (28 e 30).
• Operativamente: si mettono i valori in ordine crescente e si trova il valore corrispondente alla posizione (N+1)/2 (nel nostro caso
(5+1)/3=3). Nel caso in cui N+1 sia dispari si prende il valore medio tra i valori con posizioni N/2 e N/2+1.
• Esempio: trovare la mediana tra 2 – 5 – 8 – 12 – 14 – 17. In questo caso prendiamo la media tra i valori in 3° e 4° posizione, ovvero (8+12)/2 =10.
• Notare che mediana e media generalmente con coincidono.
QUARTILI E DECILI
• I quartili di un campione sono quei valori per cui il campione è diviso in quattro sottoinsiemi di dimensione uguale.
• Esempio: si è misurata la miopia di dieci individui ottenendo il seguente insieme (in diottrie):
{2,8 ÷ 7,2 ÷ 4,2 ÷ 4,2 ÷ 5,6 ÷ 3,9 ÷ 5,3 ÷ 6,7 ÷ 5,8 ÷ 7,1 ÷ 2,1 ÷ 3,3 ÷ 0,4 ÷ 0,6 ÷ 5,6 ÷ 3,8 ÷ 6,9 ÷ 5,2 ÷ 0,8 ÷ 5,7}
riscriviamo il campione in ordine crescente
{0,4 ÷ 0,6 ÷ 0,8 ÷ 2,1 ÷ 2,8 ÷ 3,3 ÷ 3,6 ÷ 3,9 ÷ 4,2 ÷ 4,2 ÷ 5,2 ÷ 5,3 ÷ 5,6 ÷ 5,6 ÷ 5,7 ÷ 5,8 ÷ 6,7 ÷ 6,9 ÷ 7,1 ÷ 7,2}
Il primo quartile corrisponde a (20+1)/4=5,25. Al 5° posto troviamo 2,8. Per essere più precisi però dobbiamo aggiungere lo 0,25 della distanza tra 2,8 e 3,3 (ovvero il valore al 6° posto) ovvero 2,8+0,25*(3,3-2,8)=2,925. Allo stesso modo il terzo quartile corrisponde alla posizione 3*(20+1)/4=15,75, per cui avremo che il valore del terzo quartile vale 5,7+0,75*(5,8-5,7)=5,775.
• Allo stesso modo è possibile definire i decili di un campione. Nell’esempio precedente il terzo decile corrisponde alla posizione (20+1)*3/10=6,3 per cui il valore cercato vale 3,3+0,3*(3,6-3,3)=3,39
RANGO QUARTILE E DECILE
• Il rango quartile QX di un valore X è il numero (anche non intero) per cui ci sono QX/4 valori dell’insieme di dati minori di X e (4-Qx)/4
maggiori.
• Se px è la posizione del valore basta calcolare QX=4pX/(N+1).
• Nell’esempio precedente vogliamo conoscere il rango quartile a cui appartiene il valore 3,9. Vediamo che 3,9 corrisponde all’8° posizione per ci calcoliamo Q3,9=8*4/(20+1)=1,52. Ciò vuol dire che 1,52/4 valori sono minori di 3,9 e 2,48/4 valori maggiori di 3,9
• Allo stesso modo il rango decile è il numero per cui ci sono DX/10 valori minori di X e (10-DX)/10 valori maggiori di X. E’ possibile
calcolare il rango decile con la formula DX=10pX/(N+1).
• Per esempio il rango decile di 3,9 vale D3,9=10*8/(20+1)=3,8.
MEDIA GEOMETRICA
• La media definita precedentemente è la
cosiddetta media lineare (o aritmetica). Esistono altri tipi di media. Vale la pena menzionare la
media geometrica
questa media è usata quando sia ha a che fare con variabili moltiplicative (ad esempio tassi di crescita o di interesse).
M
g= x
kk=1 N
∏
N
MEDIA GEOMETRICA
• Esempio: il numero di batteri in una colonia cresce del 120% nelle prima ora, del 140% nella seconda del 130% nella terza e del 110% nella quarta ora.
Qual è il tasso di crescita medio nelle quattro ore?
La risposta è
Infatti se la colonia crescesse del 124,5% ogni ora l’incremento totale finale sarebbe lo stesso.
R = 1, 2 ⋅1, 4 ⋅1.3⋅1,1
4= 1, 2449 ≅ 124, 5%
FREQUENZE
• Le frequenze rappresentano il numero di
occorrenze di una variabile sia qualitativa che quantitativa
•
Esempio di variabile qualitativa: In un campione di 128 persone si verifica il loro colore degli occhi
La frequenza relativa è la frazione del numero rispetto al totale
Colore degli occhi Frequenza Assoluta Frequenza relativaNeri 25 19,5%
Nocciola 32 25,0%
Blu 40 31,3%
Verdi 31 24,2%
Totale 128
FREQUENZA
• Vediamo il caso di una variabile quantitativa: voti di un campione di 300 studenti in un determinato
esame
Voto in trentesimi Studenti (frequenza)
18 2
19 6
20 11
21 24
22 35
23 38
24 49
25 35
26 33
27 31
28 19
29 12
30 5
DISTRIBUZIONE DI FREQUENZA
• La precedente tabella può essere tradotta in
istogramma. Questa sarà la distribuzione dei dati
10 20 30 40 50 60
Numero di studenti
CLASSI
• A volte è comodo o necessario “raggruppare” la variabile in esame in classi. Per esempio potremmo raggruppare la tabella dei voti precedenti in tre
“macroclassi”: da 18 a 22, da 23 a 27 e da 28 a 30
Questo raggruppamento diventa evidentemente
necessario quando si ha a che fare con variabili continue (esempio: l’altezza di un campione di persone).
Voti Numero di studenti
18-22 78
23-27 186
28-30 36
CUMULATIVA
• Dalla tabella precedente è possibile anche costruire la tabella delle “cumulative”
Voto Studenti Cumulativa
18 2 2
19 6 8
20 11 19
21 24 43
22 35 78
23 38 116
24 49 165
25 35 200
26 33 233
27 31 264
28 19 283
29 12 295
30 5 300
Totale 300
L’ultima colonna è costruita sommando via via le frequenze precedenti.
Per esempio nel caso precedente il numero di
studenti che hanno preso un voto ≤25 sarà 200
Ovviamente la distribuzione cumulativa ha senso solo se la variabile è di tipo numerico
DISTRIBUZIONE CUMULATIVA
0 50 100 150 200 250 300 350
18 19 20 21 22 23 24 25 26 27 28 29 30
Numero di studenti
Voto
CUMULATIVA RELATIVA
• Dividendo le cumulative per la numerosità totale del campione si ha la cumulativa relativa. Nell’esempio precedente si ha che, ad
esempio, il 38.7% degli studenti ha un voto inferiore o uguale al 23.
Voto Cum. relativa
18 0,7%
19 2,7%
20 6,3%
21 14,3%
22 26,0%
23 38,7%
24 55,0%
25 66,7%
26 77,7%
27 88,0%
28 94,3%
29 98,3%
30 100,0%
0,0%
20,0%
40,0%
60,0%
80,0%
100,0%
120,0%
18 19 20 21 22 23 24 25 26 27 28 29 30
Numero di studenti
Voto
RIASSUMENDO…
Variabile frequenza
assoluta frequenza
relativa cumulativa
assoluta cumulativa relativa
x1 n1 f1 s1 c1
x2 n2 f2 s2 c2
…
xN nn fN sN cN
n = n
kk=1 N
∑ f
k= n
kn s
k=
i=1n
ik
∑ c
k= s
kn
MEDIA PESATA (O PONDERATA)
• Quando si ha a che fare con una tabella di
frequenze la media di una variabile deve essere ovviamente “pesata” sulla frequenza della variabile
questo perché la variabile x
kappare n
kvolte nella tabella (nell’esempio dei voti è come se dovessimo sommare 18 per 2 volte, 19 per 6 volte e così via e dividere per tutti e 300 gli studenti)
X = f
k⋅ x
kk=1 N
∑
o alternativamente
X = 1
n n
k⋅ x
kk=1 N
∑
MEDIA PESATA
Voto xk Studenti nk Frequenza relativa fk fk*xk
18 2 0,7% 0,12
19 6 2,0% 0,38
20 11 3,7% 0,73
21 24 8,0% 1,68
22 35 11,7% 2,57
23 38 12,7% 2,91
24 49 16,3% 3,92
25 35 11,7% 2,92
26 33 11,0% 2,86
27 31 10,3% 2,79
28 19 6,3% 1,77
29 12 4,0% 1,16
30 5 1,7% 0,50
Totale studenti= 300 voto medio= 24,31
MEDIANA
• La mediana è quel valore per cui metà della distribuzione è inferiore e metà è superiore ad esso
• Esempio: si è misurata la miopia in un campione di studenti ottenendo la seguente distribuzione
Diottrie Persone Cumulativa relativa
0,0 302 5,7%
0,5 548 16,1%
1,0 815 31,6%
1,5 965 50,0%
2,0 860 66,3%
2,5 640 78,5%
3,0 360 85,3%
3,5 235 89,8%
4,0 115 91,9%
4,5 87 93,6%
5,0 91 95,3%
5,5 70 96,7%
6,0 74 98,1%
6,5 24 98,5%
7,0 21 98,9%
7,5 17 99,2%
8,0 18 99,6%
8,5 9 99,8%
9,0 7 99,9%
Osserviamo come il valore della
cumulativa relativa assume il valore 50%
in corrispondenza di 1,5 diottrie. Questa sarà il valore mediano poiché metà dei soggetti avrà una miopia inferiore a 1.5 diottrie e un’altra metà superiore. La classe corrispondente viene chiamata classe mediana
Si noti come il valore della mediana non necessariamente coincida con la
media (nel caso precedente vale 2
MEDIANA
• A volte la mediana non è ben definita.
Riprendendo l’esempio dei voti la mediana cade tra le classi 23 e 24. In tal caso per semplicità
potremmo prendere il valore intermedio tra le classi a cavallo del 50%. Per esempio nel caso
precedente il voto mediano sarebbe 23,5.
• Tuttavia possiamo procedere ad un calcolo più preciso tramite una interpolazione. Se la mediana è compresa tra xi e xi+1la mediana si può calcolare come
• Nel nostro caso:
Voto
xi
Studenti
ni
Cumulativa
si
Cum. relativa
ci
18 2 2 1%
19 6 8 3%
20 11 19 6%
21 24 43 14%
22 35 78 26%
23 38 116 39%
24 49 165 55%
25 35 200 67%
26 33 233 78%
27 31 264 88%
28 19 283 94%
29 12 295 98%
30 5 300 100%
Totale 300
Mediana = 𝑥! +
!
""##
$#$% ⋅ (𝑥!%&-𝑥!)
Mediana = 23 +
&''
" " &&'
() ⋅ (24 − 23)=23.7
MEDIANA
Classi Classi ”contigue" Frequenza Cumulativa
3 - 7 3 - 7,5 1 1
8 - 12 7,5 - 12,5 4 5
13 - 17 12,5 - 17,5 2 7
18 - 22 17,5 - 22,5 6 13
23 - 27 22,5 - 27 4 17
Facciamo un altro esempio. Consideriamo la tabella precedente. Per prima cosa rendiamo le classi “contigue” (o a “limiti reali”) allargandole in modo che il valore superiore di una classe corrisponda col valore inferiore della successiva. In questo caso la mediana è quella la cui cumulativa corrisponde al valore 17/2 = 8,5. La classe mediana è quindi la 18 – 22, poiché 8,5 è > di 7 e < 16. La mediana si trova quindi tra 17,5 e 22,5. Possiamo supporre quindi che a 17,5 la cumulativa valga 7 e a 22,5 valga 13, per cui operando come prima avremo allora
Mediana=17,5+*,,"-' 4 22,5 − 17,5 =18,75
QUARTILI
• Allo stesso modo della mediana è possibile definire i quartili rappresentano i valori che dividono in quattro parti la distribuzione
Seguendo il criterio precedente potremmo grosso modo identificare il quartile inferiore con il valore 0,75 e quello superiore con 2,25. Tuttavia valori più precisi possono essere trovati tramite una interpolazione alla stessa maniera della mediana:
Il secondo quartile (Q2) equivale ovviamente alla mediana che vale 1,5. I quartili sono quindi
1. 0,00 – 0,79 2. 0,79 – 1,50 3. 1,50 – 2,36
Diottrie Persone Cumulativa Cumulativa relativa
0,0 302 302 5,7%
0,5 548 850 16,1%
1,0 815 1665 31,6%
1,5 965 2630 50,0%
2,0 860 3490 66,3%
2,5 640 4130 78,5%
3,0 360 4490 85,3%
3,5 235 4725 89,8%
4,0 115 4840 91,9%
4,5 87 4927 93,6%
5,0 91 5018 95,3%
5,5 70 5088 96,7%
6,0 74 5162 98,1%
6,5 24 5186 98,5%
7,0 21 5207 98,9%
7,5 17 5224 99,2%
8,0 18 5242 99,6%
8,5 9 5251 99,8%
𝑄& = 0, 5 +
14 ⋅ 5264 − 850
815 ⋅ (1,0 − 0,5) = 0,79 𝑄. = 2, 0 +
34 ⋅ 5264 − 3490
640 ⋅ (2,5 − 2,0) = 2,36
PERCENTILI
• Un ulteriore raffinamento dei concetti precedenti sono i percentili. Per esempio il 90% percentile inferiore e superiore sono quei valori per cui al di sotto troviamo il 10% e il 90% della popolazione.
• nell’esempio della miopia all’incirca solo il 5% della popolazione ha meno di 0.25 diottrie mentre chi ha più di 3,5 diottrie è nel 95% percentile superiore.
• Per il calcolo esatto dei decili si possono usare le stesse formule di interpolazione per la media e i quartili
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
80,0%
90,0%
100,0%
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0
12,0 13,0
14,0 15,0
16,0 17,0
18,0 19,0
20,0 21,0 x
90%
75%
50%
20%
10%
PERCENTILI
• Esempio: calcolare il terzo decile della tabella
il terzo decile evidentemente corrisponde ad una cumulativa del 30% e quindi appartiene alla classe 13 – 17. Il calcolo può essere fatto come prima
Classi Classi ”contigue" Frequenza Cumulativa Cum. Relativa
3 - 7 3 - 7,5 1 1 5,9%
8 - 12 7,5 - 12,5 4 5 29,4%
13 - 17 12,5 - 17,5 2 7 41,2%
18 - 22 18,5 - 22,5 6 13 76,5%
23 - 27 22,5 - 27 4 17 100,0%
𝐷. = 12,5 +
10 ⋅ 17 − 53
2 ⋅ (17,5 − 12,5) = 12,75
RANGO PERCENTILE DI UN VALORE
• Data una tabella il rango percentile di un dato valore X è la percentuale di valori più piccoli di X.
Esempio: vogliamo stabilire a quale rango percentile corrisponde una diottria di 2,8. Dobbiamo fare una
interpolazione tra i valori 2,5 e 3,0 per trovare il percentile corrispondente (o rango percentile)
Questo significa che l’82,6% dei valori è minore di 2,8 e il restante 17,4% è maggiore.
Il rango decile corrispondente si trova moltiplicando 0,826*10=8,26
Analogamente, per trovare il rango quartile invece basta
Diottrie Persone Cumulativa Cumulativa relativa
0,0 302 302 5,7%
0,5 548 850 16,1%
1,0 815 1665 31,6%
1,5 965 2630 50,0%
2,0 860 3490 66,3%
2,5 640 4130 78,5%
3,0 360 4490 85,3%
3,5 235 4725 89,8%
4,0 115 4840 91,9%
4,5 87 4927 93,6%
5,0 91 5018 95,3%
5,5 70 5088 96,7%
6,0 74 5162 98,1%
6,5 24 5186 98,5%
7,0 21 5207 98,9%
7,5 17 5224 99,2%
8,0 18 5242 99,6%
8,5 9 5251 99,8%
P%=78,5%+2,8 − 2,5
3,0 − 2,5 4 85,3% − 78,5% = 82,6%
RANGO DECILE DI UN VALORE
• Allo stesso modo data la tabella
vogliamo calcolare il rango decile e quartile di 23,5. Poiché 23,5 appartiene alla classe 22,5-27, operando come nel caso precedente abbiamo
Ne deriva che in questo caso il rango decile è 8,17 mentre in rango quartile vale 3,27.
Classi Classi ”contigue" Frequenza Cumulativa Cum. Relativa
3 - 7 3 - 7,5 1 1 5,9%
8 - 12 7,5 - 12,5 4 5 29,4%
13 - 17 12,5 - 17,5 2 7 41,2%
18 - 22 18,5 - 22,5 6 13 76,5%
23 - 27 22,5 - 27 4 17 100,0%
P%=76,5%+23,5 − 22,5
27 − 22,5 4 100% − 76,5% = 81,7%
MODA
• La moda è il valore più comune in una distribuzione. Per esempio nell’esempio dei voti la moda è il 24 mentre nell’esempio della miopia la moda è 1,5 diottrie.
• Talvolta una distribuzione può avere due picchi distinti ben localizzati.
In tal caso la distribuzione si dice “bimodale” (più in generale possono esistere distribuzioni “multimodali”)
200,0 400,0 600,0 800,0 1000,0
1200,0 Una distribuzione del genere
può essere sintomo di due popolazioni “distinte” (per esempio se misurassimo la miopia ad un campione di persone in parte italiane e in parte giapponesi, popolo notoriamente più miope)
ESEMPIO
• Una fabbrica produce viti per occhiali attraverso tre macchine di lunghezza nominale 1,1mm. Si estrae un campione di 430 viti e si fa un istogramma della loro lunghezza reale
Lunghezza
(mm) Numero
0,85 0
0,90 2
0,95 8
1,00 25
1,05 40
1,10 136
1,15 90
1,20 31
1,25 7
1,30 1
1,35 2
1,40 4
1,45 22
1,50 40
1,55 18
1,60 2
1,65 1
1,70 1
0 20 40 60 80 100 120 140 160
0,85 0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80
Il fatto che vi è un secondo picco a 1.50 mm fa pensare che una delle macchine stia lavorando
“male” ovvero sta producendo viti sistematicamente più lunghe di quelle programmate.
MEDIA PESATA SU CLASSI
• Talvolta occorre calcolare la media su di una tabella di classi. Prendiamo ad esempio la tabella dei voti
suddivisa in classi
Poiché non conosciamo il numero relativo di studenti
relativo ad ogni voto, siamo costretti a scegliere un criterio per assegnare un voto “medio” ad ogni classe. La scelta più semplice è di considerare il valore centrale della
classe
Voti Numero di studenti
18-22 78
23-27 186
28-30 36
MEDIA PESATA SU CLASSI
La media pesata su questa tabella vale 24,18 che è solo leggermente diverso dal valore 24,31 calcolata con la tabella non suddivisa in classi. In ogni caso la suddivisione in classi provoca una “perdita di
informazioni” e quindi fornisce un valore meno accurato per le variabili statistiche.
Voti Voto medio Numero di
studenti
18-22 20 78
23-27 25 186
28-30 29 36
TABELLE A DOPPIA ENTRATA
• Un caso più generale avviene quando una tabella incrocia due (o più) variabili
Una tabella di questo tipo viene detta a doppia entrata, o bivariata. In principio possono esistere anche tabelle che incrociano più di due variabili (multivariate) ma la loro rappresentazione è più difficoltosa. Per semplicità ci limiteremo a tabelle a doppia entrata.
y1 y2 … yM
x1 n1,1 n2,1 … n1,M
x2 n2,1 n2,2 … n2,M
… … … … …
xN nN,1 nN,2 nN,M
TABELLE A DOPPIA ENTRATA
• Esempio di tabella a doppia entrata. X=colore degli occhi, Y=colore dei capelli
• Se X e Y qualitativi la tabella si dice di “contingenza”, se entrambi quantitativi di “correlazione”, se uno qualitativo e uno
quantitativo si dice “tabella mista”.
Biondi Rossi Castani Σ
Azzurri 5 3 1 9
Verdi 2 4 6 12
Σ 7 7 7 21
Marginali di riga
Marginali di colonna Totale generale
MARGINALI
• Marginali di riga
• Marginali di colonna
• Totale generale
n
i,•= n
i, jj=1 M
∑
n
•, j= n
i, ji=1 N
∑
n = n
i,•=
N
∑ n
•, j=
M
∑ n
i, jM
∑
N
∑
ESEMPIO DI TABELLA A DOPPIA ENTRATA
• Per esempio si supponga di avere la seguente tabella in cui si è misurato il grado di astigmatismo residuo su due campioni di persone che hanno eseguito due tecniche di chirurgia refrattiva (PRK o LASIK)
L’ultima riga sono le persone che hanno effettuato un certo tipo di intervento, l’ultima colonna sono le persone che hanno un certo grado di astigmatismo
Asitig. (diottrie) PRK LASIK ni*
0.0 2 1 3
0.1 5 2 7
0.2 7 5 12
0.3 11 4 15
0.4 9 7 16
0.5 4 8 12
0.6 2 6 8
0.7 1 4 5
0.8 0 1 1
0.9 1 1 2
1.0 0 1 1
n*j 42 40 82
ISTOGRAMMA
• E’ possibile costruire un istogramma per entrambe le entrate e il marginale di riga
PRK LASIK
PRK+LASIK 0
2 4 6 8 10 12 14 16
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
0,9 1
PRK LASIK PRK+LASIK
MEDIE PARZIALI
• Le medie su di una riga o una colonna costituiscono le medie
parziali. Queste medie possono evidentemente essere effettuate se x e/o y sono variabili quantitative
per esempio nel caso della tabella precedente possiamo calcolare solo le medie di colonna poiché le variabili di riga sono qualitative.
Calcolando queste medie otteniamo separatamente l’astigmatismo medio per chi ha eseguito l’intervento con la PRK e la LASIK ottenendo (il calcolo è lasciato per esercizio):
• Media(PRK) = 0,32
• Media(LASIK) = 0,46
(attenzione: questo non induca alla facile conclusione che la LASIK è peggiore della PRK!)
X
j= 1
n
• jn
i, jx
ii=1 N
∑ Y
i= 1
n
i•n
i, jy
jj=1 M
∑
MEDIE GENERALI
•
Nelle tabelle a doppia entrata è anche possibile calcolare le medie generali delle variabili quantitative. Queste sono
calcolate attraverso le formule
ovvero come “media pesata delle medie parziali“ oppure
come una media delle variabili stesse pesata con i marginali di riga e di colonna (si può mostrare che si ha lo stesso risultato).
X = 1
n n
•, jX
jj=1 M
∑ = 1 n n
i,•x
ii=1 N
∑
Y = 1
n n
i,•Y
ii=1 N
∑ = 1 n n
•, jy
jj=1 M
∑
ESEMPIO DI MEDIE GENERALI
• Riprendiamo l’esempio della tabella precedente: vogliamo calcolare l’astigmatismo medio su tutto il campione
Asitig.
(diottrie) PRK LASIK ni*
0.0 2 1 3
0.1 5 2 7
0.2 7 5 12
0.3 11 4 15
0.4 9 7 16
0.5 4 8 12
0.6 2 6 8
0.7 1 4 5
0.8 0 1 1
0.9 1 1 2
1.0 0 1 1
n*j 42 40 82
Media 0,32 0,46
Questo può essere effettuato in due modi 1) Calcoliamo la “medie delle medie”
pesando le medie sui marginali di colonna
2) Mediamo direttamente la variabile x usando come peso i marginali di riga
Il risultato è lo stesso ma avendo già le X = 42 × 0, 32 + 40 × 0, 46
82 = 0, 39
X = 0.0 × 3+ 0.1× 7 +... +1.0 ×1
82 = 0, 39
ESERCIZIO
Astigmatismo residuo
rrezione apportata (diottrie)
0.0 ÷ 0.2 0.2 ÷ 0.4 0.4 ÷ 0.6 0.6 ÷ 0.8 0.8 ÷ 1.0
0 ÷ 2 7 4 2 1 0
2 ÷ 4 3 5 4 2 1
4 ÷ 6 2 8 4 3 2
• In questa tabella un certo numero di pazienti trattati con PRK vengono
classificati in base all alla correzione apportata e all’astigmatismo residuo dopo l’operazione. Trovare le medie parziali di riga e di colonna e le medie generali.
Fare un istogramma delle medie parziali sia per le righe che per le colonne.
Cosa si potrebbe dedurne?
MEDIA QUADRATICA
• Un tipo ulteriore di media è la media quadratica, ovvero la radice quadrata della media dei
quadrati
Tale media è utile quando i vari quando i vari x
ksono talvolta positivi e talvolta negativi mentre a noi
interessa una media che non dipenda dal segno degli x
kM
q=
x
k2k=1 N
∑
N
INDICE DI VARIABILITÀ
• A volte a noi non interessa solo la media ma di un campione ma anche quanto questa si discosta
“mediamente” dalla media. Tuttavia, come detto in precedenza, la media degli scarti è sempre zero
poiché alcuni scarti sono positivi e altri negativi. Questa media non ci da quindi alcuna informazione sulla
variabilità. Una possibile soluzione sarebbe di prendere la media dei valori assoluti degli scarti. Tuttavia, per diverse ragioni, la scelta migliore è prendere la media quadratica degli scarti
1
N (x
kk=1 N
∑ − X) = 0
SCARTO QUADRATICO MEDIO
• Si definisce scarto quadratico medio quindi la media quadratica degli scarti
(la lettera s è il sigma greco minuscolo). Tuttavia questa definizione ha il problema che per N=1 si ha che lo scarto medio è zero mentre per un solo dato noi vorremmo che lo scarto rimanga non definito.
σ
PX=
(x
k− X )
2k=1 N
∑
N
DEVIAZIONE STANDARD
• Per la ragione precedente si preferisce definire la “deviazione standard” nella maniera seguente
un po’ più grande rispetto allo s.q.m.
• La deviazione standard è una misura della dispersione della popolazione intorno alla media.
• Lo scarto quadratico medio (quello cioè con N al denominatore) è talvolta definito come “deviazione standard di popolazione”.
Per N molto grande la differenza tra i due è minima.
• Il quadrato dello scarto quadratico medio è detto varianza
σ
x=
(x
k− X )
2k=1 N
∑
N −1
DEVIAZIONE STANDARD
•
Facciamo un esempio. Si supponga che Laura e Marco abbiano preso abbia preso i seguenti voti in 10 esami
Laura={25,26,26,27,24,25,26,28,27,26}
Marco={30,22,24,28,27,30,18,24,30,27}
Come si vede entrambi hanno una media di 26. Però la
deviazione standard dei voti di Laura è di 1,15 mentre quella di Marco è 3,97. Ciò indica che Laura è stata più costante nello studio mentre Marco ha avuto periodi di alti e bassi…
•
Notare che se avessimo usato lo scarto quadratico medio
avremmo ottenuto 1,09 e 3,76, valori un poco più grandi dei
precedenti.
CALCOLO DELLA DEVIAZIONE STANDARD
•
Vediamo coma calcolare la deviazione standard (nel nostro caso N=10)
Voto (xk) xk-X (xk-X)2
25 -1 1
26 0 0
26 0 0
27 1 1
24 -2 4
25 -1 1
26 0 0
28 2 4
27 1 1
26 0 0
X=26
∑(xk-X)2= 12
∑(xk-X)2/(N-1)= 12/9=1,33
-
- -
- -
DEVIAZIONE STANDARD SU TABELLE
• Per calcolare la deviazione standard su una tabella di frequenze occorre fare la media ponderata
con n al solito la numerosità del campione
σ X = 1
N −1 n k (x k − x ) 2
k=1 N
∑
N = n k
k=1 N
∑
CALCOLO DELLA DEVIAZIONE STANDARD SU TABELLE
• Riprendiamo l’esempio della tabella dei voti
Voto (xk) Studenti (nk) nk(xk-X)2
18 2 79,72
19 6 169,39
20 11 204,65
21 24 263,48
22 35 187,30
23 38 65,54
24 49 4,81
25 35 16,50
26 33 93,88
27 31 223,76
28 19 258,24
29 12 263,58
30 5 161,69
-
-
COEFFICIENTE DI VARIAZIONE
• E’ definito come il rapporto tra la deviazione standard è la media
Esempio: la media dei tempi di percorrenza dei treni sulla tratta Milano- Roma vale 350 minuti con una deviazione standard di 12 minuti,
mentre sulla tratta Milano-Torino vale 280 minuti con una deviazione standard di 8 minuti. Quale delle due tratte è più affidabile?
E’ evidente che non è possibile confrontare direttamente i due tempi di percorrenza poiché si riferiscono a diverse tratte. Tramite l’indice di variabilità si ha che nel primo caso si ha CV=3,4% mentre nel secondo caso si ha CV=2,9%. I treni sulla tratta Milano-Torino sono più affidabili poiché hanno una variabilità minore rispetto all’altra tratta.
CV (X) = σ
X/ X
INTERDIPENDENZA TRA VARIABILI DIVERSE
• A volte ci si chiede se ci può essere una qualche “relazione” tra due variabili X e Y. Per esempio se esiste una relazione tra ore passate al computer e problemi visivi (ad es. miopia). Si supponga per esempio di avere questa tabella in cui la miopia media di un campione di bambini viene messa in relazione alle ore giornaliere passate
mediamente a giocare con la playstation.
Di questi dati è sempre buona norma fare un grafico!
Ore passate a
giocare 0 1 2 3 4 5
Miopia media 0,8 1,3 1,2 2,4 2,7 3,2
GRAFICO A DISPERSIONE (SCATTER PLOT)
•
Apparentemente c’è una qualche dipendenza della miopia con il numero di ore passate a giocare ma come quantificare questa dipendenza?
Un primo possibile indicatore è il coefficiente di correlazione lineare
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5
0,0 1,0 2,0 3,0 4,0 5,0 6,0
Miopia media
Numero di ore medie giornaliere passate a giocare
COVARIANZA
• La covarianza tra due serie di dati è definita da
con X e Y medie di x
ke y
k. Questo coefficiente è la media del prodotto degli scarti. Questo coefficiente è positivo se mediamente i segni degli scarti sono “concordi” (ovvero se quando uno è positivo lo è anche l’altro) e negativo quando sono discordi(cioè se uno è negativo, l’altro è positivo e viceversa.
Se non c’è relazione tra i due segni la covarianza tende ad annullarsi.
COV (X,Y ) =
(x
k− X)(y
k−Y )
k=1 N
∑
- N
-
COVARIANZA
•
Nel caso precedente per esempio si vede che c’è
concordanza, in effetti la covarianza è positiva e vale +0,77
0,5 1,0 1,5 2,0 2,5 3,0 3,5
Miopia Y=1,93
X=2,50-
-
“-”
“-”
“+”
“+”
CORRELAZIONE
• Detti xk e yk due serie di N dati con media X e Y si definisce coefficiente di correlazione tra X e Y la quantità
Questo coefficiente è sempre un numero compreso tra -1 e 1 e ha questo significato.
• Più R è vicino a 1 più vi è una “concordanza” tra le due variabili (al crescere di una cresce l’altra)
• Più R è vicino a -1 più vi è una “discordanza” tra le due variabili (al crescere di una decresce l’altra)
• Se R è vicino a zero vi è “indipendenza” tra le variabili.
R(X,Y ) = COV (X,Y ) σ
XPσ
YP=
x
k− X
( ) ( y
k−Y )
k=1 N
∑
x
k− X
( )
2k=1 N
∑ ( y
k−Y )
2k=1 N
∑
- -
CALCOLO DEL COEFFICIENTE DI CORRELAZIONE
Ore passate
a giocare 0,0 1,0 2,0 3,0 4,0 5,0 Media=2,50
(x-X) -2,5 -1,5 -0,5 0,5 1,5 2,5
(x-X)2 6,3 2,3 0,3 0,3 2,3 6,3 ∑=17,50
Miopia media 0,8 1,3 1,2 2,4 2,7 3,2 Media=1,93
(y-Y) -1,1 -0,6 -0,7 0,5 0,8 1,3
(y-Y)2 1,3 0,4 0,5 0,2 0,6 1,6 ∑=4,6
(x-X)(y-Y) 2,8 0,9 0,4 0,2 1,2 3,2 ∑=8.7
--
-- - -
R = 8.7
17.5 × 4.6 = 0.97
Il coefficiente di correlazione vale quindi
il che indica che vi è un forte grado di relazione tra le ore passate a
CUM GRANO SALIS…
• Occorre sempre stare attenti però che non è detto che anche se c’è un grado di relazione tra le due variabili vi è necessariamente una relazione causa-effetto tra di esse! Si potrebbe giungere a conclusioni paradossali
come per esempio che l’aumento temperatura globale sulla terra è causata dalla diminuzione del numero di pirati…
R=-0,93
REGRESSIONE
•
Ci si chiede se tra le variabili X e Y esista una qualche
relazione funzionale, cioè se esista una espressione Y=f(X) dove f è una qualche funzione che in qualche maniera approssimi i dati. La ricerca di una tale funzione è detta
“regressione”
•
Questa relazione funzionale può essere nota a priori (per
esempio è noto che tra il peso di un corpo e il suo volume
esiste una relazione lineare) oppure no. In questo secondo
evidentemente non esiste una scelta univoca caso dallo
studio del grafico a dispersione si potrebbe dedurre qual è il
tipo di grafico più opportuno che approssima i dati.
REGRESSIONE
• In generale, quando si hanno a disposizione pochi punti è molto difficile stabilire qual è la funzione più opportuna
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0
0,0 1,0 2,0 3,0 4,0 5,0 6,0
Miopia media
Numero di ore medie giornaliere passate a giocare
retta
esponenziale
polinomio
REGRESSIONE
•
Con un gran numero di dati è più facile inferire la forma funzionale: Per esempio nel caso seguente è abbastanza evidente che i dati sono ben interpolati da una retta.
5 10 15 20 25 30 35
REGRESSIONE LINEARE
• Qui noi ci occuperemo per semplicità del modello più semplice di regressione, ovvero quando i dati possono essere approssimati da una retta, ovvero da una relazione funzionale del tipo
con A e B variabili da determinare. Questo modello è detto di regressione lineare.
Y = A ⋅ X + B
PRINCIPIO DEI MINIMI QUADRATI
•
Per determinare i coefficienti A e B è possibile ricorrere al principio dei minimi quadrati (valido anche nel caso di regressioni non lineari).
•
Siano x
ke y
ksono i nostri dati. Il valore teorico di y associato al valore x
kè dato da ŷ
k=Ax
k+B.
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5
Y
(xk,yk)
° (xk, ŷk)
METODO DEI MINIMI QUADRATI
•
Possiamo calcolare la somma dei quadrati degli scarti tra gli y
ke i valori teorici ŷ
k=Ax
k+B.
questa quantità ci da una misura delle differenze tra i valori reali e quelli teorici delle y. Essa è una funzione delle variabili
incognite A e B. I valori di A e B cercati sono quelli che
minimizzano questa funzione, ovvero che rendono minima la differenza del quadrato degli scarti della relazione teorica con i dati reali.
Q(A, B) = ( y
k− ˆy
k)
2k=1 N
∑ = ( y
k− Ax
k− B )
2k=1 N
∑
METODO DEI MINIMI QUADRATI
•
La minimizzazione si effettua tramite le tecniche standard
dell’analisi, ovvero derivando la funzione Q(A,B) rispetto ad A e a B e ponendo le derivate uguali a zero. Viene qui omessa la dimostrazione e viene dato direttamente il risultato
dove R è il coefficiente di correlazione tra i dati. Come si vede il coefficiente angolare della retta e il coefficiente di correlazione sono legati tra di loro. In particolare se R>0 la retta è crescente, se R<0 decrescente (come ragionevole sia!)
A = R σ
Yσ
XB = Y − AX
ESEMPIO DI REGRESSIONE LINEARE
•
Riprendiamo l’esempio della miopia in funzione delle ore passate a giocare:
Ricordiamo che R=0,97. Usando le formule precedenti si ha
Media Dev. st.
Ore passate a
giocare 0,0 1,0 2,0 3,0 4,0 5,0 2,50 2,5 1,71
Miopia
media 0,8 1,3 1,2 2,4 2,7 3,2 1,93 1,9 0,88
A = 0, 97 0,88
1, 71 = 0, 50
B = 1, 9 − 0, 50 × 2, 5 = 0, 69
y = 0,50x + 0,69 R² = 0,93
0,5 1,0 1,5 2,0 2,5 3,0 3,5
Miopia