Francesco Caravenna
E-mail: francesco.caravenna@math.unipd.it
Web: http://www.math.unipd.it/∼fcaraven/didattica Indirizzo: Dipartimento di Matematica, Torre Archimede
studio 527 (V piano corridoio A-D)
Ricevimento: mercoled`ı ore 16.30–17.30 o su appuntamento
1 / 13
Statistica descrittiva: i concetti di base
Gli oggetti fondamentali sono:
• Variabile: quantit`a che possiamo “misurare” (es.: reddito, durata della vita, tempo di guarigione da una malattia, . . . )
• Campione: sequenza x1, . . . , xn di valori misurati
Il campione di dati viene organizzato secondo i valori assunti (eventualmente raggruppati in classi).
Le frequenze (assolute, relative o percentuali) vengono rappresentate mediante:
• Tabella delle frequenze
• Grafico
• istogramma delle frequenze
• istogramma delle frequenze cumulative
2 / 13
Un esempio concreto: le eruzioni di un geyser
Abbiamo a disposizione un campione di misurazioni su due grandezze:
• la durata dell’eruzione (D) di un geyser
• il tempo di attesa (T) per l’eruzione successiva.
Ampiezza del campione: n = 222.
(dati analizzabili con software come Excel, R, ...) Per il momento ci interessiamo solo alla variabile T:
cominciamo calcolando la tabella delle frequenze prendendo come classi i singoli valori della variabile.
D(min) T(min)
4,4 78
3,9 74
4 68
4 76
3,5 80
4,1 84
2,3 50
4,7 93
1,7 55
4,9 76
1,7 58
4,6 74
3,4 75
4,3 80
1,7 56
3,9 80
3,7 69
3,1 57
4 90
1,8 42
4,1 91
1,8 51
3,2 79
1,9 53
. . . . . .
3 / 13
Un esempio concreto: le eruzioni di un geyser
Tabella delle frequenze (classi = singoli valori della variabile T).
Un esempio concreto: le eruzioni di un geyser
Tabella delle frequenze (classi = singoli valori della variabile
T).Classe Frequenza
42 1
43 1
44 1
45 2
46 0
47 1
48 2
49 3
50 2
51 14
52 3
53 5
54 4
55 4
56 3
57 4
58 3
59 1
Classe Frequenza
60 4
61 5
62 3
63 1
64 0
65 0
66 3
67 3
68 2
69 3
70 5
71 5
72 5
73 9
74 5
75 15
76 10
77 8
Classe Frequenza
78 7
79 4
80 13
81 9
82 10
83 8
84 9
85 1
86 6
87 1
88 3
89 2
90 3
91 3
92 0
93 1
94 1
95 1
Istogramma delle frequenze e grafico delle frequenze cumulative
CLASSI DI AMPIEZZA 1
0 2 4 6 8 10 12 14 16
42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94
,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
Frequenza % cumulativa
5 / 13
Un esempio concreto: le eruzioni di un geyser
Aspetto dell’istogramma un po’ disordinato (frequenza varia molto tra classi contigue)
• Aumentare ampiezza delle classi (1 → 3)
CLASSI Frequenza Frequenza % cumulativa
42-44 3 1,35%
45-47 3 2,70%
48-50 7 5,86%
51-53 22 15,77%
54-56 11 20,72%
57-59 8 24,32%
60-62 12 29,73%
63-65 1 30,18%
66-68 8 33,78%
69-71 13 39,64%
72-74 19 48,20%
75-77 33 63,06%
78-80 24 73,87%
81-83 27 86,04%
84-86 16 93,24%
87-89 6 95,95%
90-92 6 98,65%
93-95 3 100,00%
6 / 13
Un esempio concreto: le eruzioni di un geyser
Istogramma delle frequenze e grafico delle frequenze cumulative
CLASSI DI AMPIEZZA ,
- . 1- 1.
0- 0.
,- ,.
11 12 .- ., .3 .4 30 3. 35 21 21 22 5- 5, 53 54 40 4.
6--7 1-6--7 0-6--7 ,-6--7 1-6--7 .-6--7 3-6--7 2-6--7 5-6--7 4-6--7 1--6--7
89:;<:=>? 7 @<A<B?CDE?
7 / 13
Gli indici numerici
Per sintetizzare le informazioni salienti di un campione di dati x1, . . . , xn si calcolano gli indici numerici.
INDICI DI POSIZIONE
• Media campionaria: x := 1 n
n
X
i =1
xi
• Mediana campionaria: disposti i dati in ordine crescente, `e il dato in posizione centrale.
• Percentili campionari: dato k ∈ [0, 100] e disposti i dati in ordine crescente, il k-esimo percentile e’ quel dato tale che:
• ci sono k% dati alla sua sinistra
• ci sono (100 − k)% dati alla sua destra Si noti che mediana = 50◦ percentile.
INDICI DI DISPERSIONE
• Varianza campionaria:
sx2 := 1 n − 1
n
X
i =1
(xi − x)2
Una misura della “larghezza” dell’istogramma `e data dalla deviazione standard campionaria sx := psx2.
• Differenza interquartile:
Q3 − Q1 Q1 `e il primo quartile = 25◦ percentile Q3 `e il terzo quartile = 75◦ percentile.
9 / 13
Calcolo degli indici per la variabile T
Con l’ausilio della tabella delle frequenze si calcolano:
• Media campionaria x = 71, 009
x = 1
222
95
X
j =42
j · fj (fj = frequenza ass. del valore j )
• Mediana campionaria (= Q2) = 75
• Q1 = 60 Q3 = 81
• Q3 − Q1 = 21
• Varianza campionaria sx2 = 163, 819 Dev. standard campionaria sx = 12, 799
10 / 13
Correlazione tra due variabili
In presenza di due campioni di dati x1, . . . , xn y1, . . . , yn
vogliamo evidenziare un’eventuale correlazione tra le due variabili.
• Qualitativamente: diagramma di dispersione:
disegnare i punti (xi, yi) in un piano cartesiano e osservare se tendono ad allinearsi lungo una retta (non orizzontale)
• Quantitativamente: coefficiente di correlazione campionaria
r :=
1 n−1
Pn
i =1(xi − x) · (yi − y ) sx · sy
11 / 13
Diagramma di dispersione per le variabili (D,T)
D"#$%#&&# (" (")*+%)",-+
25 35 45 55 65 75 85 95 105
0 1 2 3 4 5 6
D.%#/# +%.0",-+ D 1&"-2
3+&*, #//+)# 3 1&"-2
Utilizzando la serie completa di dati si ottiene r = 0, 877
Dunque le variabili sono positivamente correlate e la correlazione `e abbastanza forte (|r | vicino a 1).
Osservazione finale: il diagramma di dispersione mostra che i dati sono all’incirca concentrati in due blocchi.
Un’indice di questo fatto si poteva gi`a leggere
nell’istogramma della variabile T analizzato in precedenza (distribuzione non unimodale).
13 / 13