Statistica
Antonio Azzollini
antonio.azzollini@unibas.it
Anno accademico 2019/2020
Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)
Diagramma delle frequenze relative
Si chiama diagramma delle frequenze relative un diagramma cartesiano costruito con i punti medi delle classi di modalità e le frequenze relative.
(10,14) (14,18) (18,22) (22,26) (26,30) (30,34)
12 16 20 24 28 32
0,17 0,30 0,30 0,10 0,10 0,03
0 0,088 0,175 0,263 0,35
(10,14) (14,18) (18,22) (22,26) (26,30) (30,34)
Modello teorico
Criticità: al crescere del numero delle classi le frequenze relative si abbassano e laddove non sono nulle, si avvicinano al valore 1/30 (fanno eccezione la classe contenente la modalità 12,9 e quella contenente la modalità 18,3:
perchè
?)Effetto dell'aumento delle classi
Regola empirica
In una distribuzione di frequenza, le frequenze assolute non devono essere tutte troppo piccole!
Linea guida: mai considerare raggruppamenti con
frequenze assolute tutte al di sotto di 5!
Istogramma delle densità
Si definisce densità il rapporto fra la frequenza relativa e l’ampiezza della classe di modalità
[10.14) [14.18) [18.22) [22.26) [26.30) [30.34]
0,04 0,08 0,08 0,03 0,03 0,01
0,17 / 4 = 0,04
Vantaggi:
A. Stessa forma dell’istogramma costruito con le frequenze assolute B. La somma delle aree dei rettangoli è 1.
4 × 5
30 × 4 + 9
30 × 4 +!+ 1 30 × 4
⎛ ⎝⎜ ⎞
⎠⎟ = 1
0 0,023 0,045 0,068 0,09
[10;14) [14;18) [18;22) [22;26) [26;30) [30;34]
Al crescere del numero delle classi (decrescere della ampiezza h) il profilo del diagramma non si “schiaccia”
Alla ricerca di un modello teorico
Alla ricerca di un modello teorico
Allo scopo di costruire un modello teorico, capace di
esprimere le densità di frequenze di intervalli di ampiezza
arbitrariamente piccola, i grafici che stiamo costruendo
costituiscono una approssimazione.
Alla ricerca di un modello teorico
Allo scopo di costruire un modello teorico, capace di esprimere le densità di frequenze di intervalli di ampiezza arbitrariamente piccola, i grafici che stiamo costruendo costituiscono una approssimazione.
A tale scopo, sarà necessario:
Alla ricerca di un modello teorico
Allo scopo di costruire un modello teorico, capace di esprimere le densità di frequenze di intervalli di ampiezza arbitrariamente piccola, i grafici che stiamo costruendo costituiscono una approssimazione.
A tale scopo, sarà necessario:
1. considerare classi sempre più numerose e di ampiezza sempre minore
2. "riempire i buchi" laddove l'istogramma delle densità
presenta densità nulle
Alla ricerca di un modello teorico
Allo scopo di costruire un modello teorico, capace di esprimere le densità di frequenze di intervalli di ampiezza arbitrariamente piccola, i grafici che stiamo costruendo costituiscono una approssimazione.
A tale scopo, sarà necessario:
1. considerare classi sempre più numerose e di ampiezza sempre minore
2. "riempire i buchi" laddove l'istogramma delle densità
presenta densità nulle aumentare la taglia 👉
Confronti
Gli istogrammi di densità permettono di confrontare insiemi di dati diversi
Esempio: si vuole confrontare il risultato della prima scuola con quello di un’altra in cui i dati sono forniti mediante un campione di 26 studenti.
25,8; 23,2; 10,1; 24,2; 21,0; 22,3; 15,1; 22,4; 28,3; 25,7;
19,8; 21,4; 17,7; 19,3; 18,2; 21,5; 23,3; 24,3; 20,9; 27,0;
22,3; 20,9; 21,1; 25,1; 23,9; 21,1.
[10;14) [14;18) [18;22) [22;26) [26;30]
1 2 10 11 2
Confronti
A. Si riferiscono a taglie diverse.
B. Le classi di modalità hanno ampiezza diversa.
C. Gli assi sono tarati diversamente.
In generale il confronto non si riesce a fare perché
Confronti
Il modo corretto di confrontare i due insiemi di dati è:
A. costruire un istogramma delle densità per ciascuna scuola;
B. uniformare asse x e asse y.
Conclusioni: nella II scuola si studia in generale di più
anche se nella prima ci sono degli "sgobboni"!
Diagramma delle frequenze cumulate
Nella scuola del Signor X quale percentuale di studenti intervistati trascorre meno di 15 ore a studiare?
Un primo diagramma associa a ciascun elemento del campione la percentuale di dati che assume un valore uguale o inferiore ad esso.
Proprietà:
1) È funzione non decrescente.
2) Assume valori tra 0 e 1.
Come si calcola?
Frequenza relativa cumulata
Diagramma delle frequenze cumulate
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
1. Gli elementi del campione vanno ordinati.
2. Agli elementi (senza ripetizioni) vanno associate le frequenze cumulate.
Dati ordinati Frequenze cumulate
10,3 1/30
12,9 3/30
13,5 4/30
13,7 5/30
⋮ ⋮
18,3 16/30
⋮ ⋮
A cosa serve?
Nella scuola del Signor X quale percentuale di studenti intervistati trascorre meno di 15 ore a studiare?
Per rispondere al quesito iniziale:
Si traccia una linea verticale in corrispondenza di 15 ore fino ad incontrare il grafico (rosso) e poi si traccia una linea orizzontale fino ad incontrare l’asse delle y.
0,26
Frequenza relativa cumulata
A cosa serve? Ma si può rispondere anche al quesito inverso:
Nella scuola del Signor X quante ore (al più) trascorre a studiare il 50% degli studenti meno volenterosi?
Circa 18 ore.
Possiamo essere più precisi?
0,50
Si traccia una linea orizzontale in corrispondenza di 0,5 fino ad incontrare il grafico (rosso) e poi si traccia una linea verticale in basso fino ad incontrare l’asse delle x.
Ispezionando il campione casuale e determinando quel valore che divide il campione casuale in due parti.
(si veda capitolo successivo) 0,50
Frequenza relativa cumulata
Le medie
Le medie si applicano ai caratteri quantitativi.
Esse sono misure sintetiche che consentono il passaggio da una pluralità di informazioni ad una sola modalità.
Fra tutti i tipi di medie si distinguono:
• medie lasche o di posizione determinate in base alla frequenza o alla posizione occupata nella graduatoria delle osservazioni individuali.
(Esempi: Mediana, Quartili, Moda).
• medie analitiche calcolate con operazioni algebriche sui valori del carattere (Esempi: Media aritmetica, media geometrica, media
armonica).
Essa si applica solo ai caratteri quantitativi. Stabilisce l’indice centrale dei dati: si calcola dalla somma di valori numerici presi in considerazione diviso la loro numerosità.
Le medie
La media aritmetica
La media aritmetica insieme di una distribuzione statistica
X = x {
1, x
2, …, x
n}
di un carattere quantitativo considerato su una popolazione è data dalla seguente formula
µ = 1
n ( x
1+ x
2+!+ x
n) = 1
n x
ii=1
∑
nN N
N
N
N
Per la media aritmetica si usa la notazione X quando è riferita ad un campione della popolazione.
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
X = 1,2,3,4,5
{ }
Le medie
La media aritmetica
µ
= 3👉
X = 1,2,3,4,15{ } 👉 µ
= 15X = 1,2,3,4,100
{ } 👉 µ
= 22 X = 1,2,3,4,1000{ } 👉 µ
= 202La media aritmetica non è una statistica robusta!
µ
= 15•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
Le medie
La media aritmetica
Esempio: per i dati (3,4,8) la media è 5 Esempio: aggiungendo il valore 2, i dati diventano (5,6,10) e la media è 5+2=7
Esempio: calcolando la somma delle differenze fra ciascun valore e la media si ha
(3-5)+(4-5)+(8-5)=0
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
•
La somma delle differenze fra ciascun valore osservato e la media è nulla (ossia la somma degli scarti è nulla)
Osserviamo che:
µ = 1
n
(
x1 + x2 +!+ xn)
= 1n xi
i=1
∑
Nn ( - )=0µ = 1n(
x1 + x2 +!+ xn)
= 1n xi i=1∑
n.
Le medie
La media aritmetica
Esempio: per i dati (3,4,8) la media è 5
Esempio: calcolando la somma delle differenze fra ciascun valore e la media si ha
(3-5)+(4-5)+(8-5)=0
Le medie
La media aritmetica
In riferimento ad un carattere trasferibile, si dice ammontare del carattere la somma dei valori individuali (che quindi non varia al
trasferirsi di una modalità da una unità individuale all'altra).
La media aritmetica è quella costante che, sostituita a ciascun valore individuale della distribuzione , lascia invariato l’ammontare
µ = 1
n x
ii=1
∑
n👉 ∑1=1n x
i = n µ
del carattere. Infatti
N N
X = x {
1, x
2, …, x
nN}
A m m o n t a r e d e l l a distribuzione originale
A m m o n t a r e d e l l a
distribuzione di sole µ = 1
n xi
i=1
∑
nN N
,
Supponendo che un dato x
isi ripeta con frequenza n
iX = x {
1, x
2, …, x
k} , 1 ≤ k ≤ n, n
jj=1
∑
k= n
Le medie
La media aritmetica
X = x {
1, x
2, …, x
k} , 1 ≤ k ≤ n, n
jj=1
∑
k= n
X = x {
1, x
2, …, x
k} , 1 ≤ k ≤ n, n
jj=1
∑
k= n
N N
, ,
µ = 1
n n
ix
ii=1
∑
kN
La media aritmetica si ottiene attraverso la formula
N
N
N
Le medie
La media aritmetica
Popolazione in esame: 88 studenti iscritti al corso di Economia Carattere osservato: voto conseguito all’esame di statistica
X
=
29,29,24,20,22,28,19,19,21,26,20,24,21,19,25, 25,23,28,22,29,26,23,28,30,20,27,22,27,20,24, 25,18,26,29,29,23,23,24,22,25,27,26,23,18,19, 26,22,25,20,26,22,24,20,22,21,29,30,19,24,24, 26,26,29,30,29,25,28,26,22,27,27,29,26,26,22, 27,24,29,30,20,24,24,21,18,22,28,23,21
⎧
⎨
⎪ ⎪
⎪
⎩
⎪ ⎪
⎪
⎫
⎬
⎪ ⎪
⎪
⎭
⎪ ⎪
⎪
µ = 29 + 29 + 24 +!+ 28 + 23+ 21
88 = 24,32
Le medie
Media aritmetica per una distribuzione di frequenze
1 18 3 54
2 19 5 95
3 20 7 140
4 21 5 105
5 22 10 220
6 23 6 138
7 24 10 240
8 25 6 150
9 26 11 286
10 27 6 162
11 28 5 140
12 29 10 290
13 30 4 120
Totale 88 2.140
n
ix
in
ix
iX = x {
i1 ≤ i ≤ n } con n = 88
µ = T
n = 1
n n
jx
j= 2.140
j=1
88
∑
88= 24,32
(con gli elementi ripetuti)
T = x
ii=1
∑
nX = x
jn
j≤ n volte, n
j= n
j=i
∑
k⎧ ⎨
⎩⎪
⎫ ⎬
⎭⎪
elementi distinti)
k
(con
La media aritmetica
N N=88
N N
X = x
jn
j≤ n volte, n
j= n
j=i
∑
k⎧ ⎨
⎩⎪
⎫ ⎬ µ = T ⎭⎪
n = 1
n n
jx
j= 2.140
j=1
88
∑
88= 24,32
N N
N
N
N
La media aritmetica per classi di modalità
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Le medie
Ricordate la distribuzione statistica relativa al numero di ore settimanali
trascorse a studiare?
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Le medie
Ricordate la distribuzione statistica relativa al numero di ore settimanali trascorse a studiare?
La media è
(15,0+23,7+19,7+...+27,1+16,6)/30=19
µ = T
n = 1
n n
jx
j= 2.140
j=1
88
∑
88= 24,32
La media aritmetica per classi di modalità
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Le medie
Ricordate la distribuzione statistica relativa al numero di ore settimanali trascorse a studiare?
La media è
(15,0+23,7+19,7+...+27,1+16,6)/30=19
Come calcoleremmo la media se i dati ci fossero forniti attraverso una distribuzione per classi di frequenza?
µ = T
n = 1
n n
jx
j= 2.140
j=1
88
∑
88= 24,32
La media aritmetica per classi di modalità
Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34]
Centri
Classi 12 16 20 24 28 32
Frequ
enze 5 9 9 3 3 1
Prima scuola
µ =
∑
centri delle classi× frequenze assolute tagliaLe medie
µ =
(
12,5 × 5)
+ 16,5 × 9( )
+!+ 32,530 = 19,6
(12x5)+(16x9)+(20x9)+...+(32x1)
19,1
La media aritmetica per classi di modalità
Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34]
Centri
Classi 12 16 20 24 28 32
Frequ
enze 5 9 9 3 3 1
Prima scuola
µ =
∑
centri delle classi× frequenze assolute tagliaLe medie
µ =
(
12,5 × 5)
+ 16,5 × 9( )
+!+ 32,530 = 19,6
(12x5)+(16x9)+(20x9)+...+(32x1)
19,1
Osserviamo che la media è pressappoco la stessa: è un caso?
La media aritmetica per classi di modalità
Le medie
La media pesata
La media pesata (o ponderata) di un insieme di numeri a ciascuno dei quali sia assegnato un coefficiente (peso) è data dalla seguente formula:
π =
∑
numeri × pesi∑
pesiMateria CFU Voto Materia CFU Voto Materia CFU voto
Matematica
generale 6 21 Diritto
privato 10 26 Economia
aziendale 10 27
Economia
politica 10 25 Economia e Gestione
delle imprese
10 23 Geografia
economica 6 27
π = 1
52
(
6 × 21+10 × 25 +10 × 26 +10 × 23+10 × 27 + 6 × 27)
= 24,96Voto medio di uno studente alla fine del primo anno del corso di economia
µ = 1
6
(
21+ 25 + 26 + 23+ 27 + 27)
= 24,83Le medie
La media pesata
#Stanze #Appartamenti
1 300
2 500
3 2.000
4 3.000
5 150
6 100
7 300
π
= 16350
(
1× 300 + 2 × 500 +!+ 7 × 300)
= 3,58µ
= 17
(
1+ 2 + 3+ 4 + 5 + 6 + 7)
= 4Rientra nel caso della media pesata la media di una distribuzione di frequenze del tipo:
L a f r e q u e n z a assoluta con la quale si presenta ciascuna modalità p u ò e s s e r e interpretata come peso.
Le medie
La media geometrica
La media geometrica di un insieme di numeri è la radice
n
-esima del loro prodotto:σ = x
n 1x
2!x
nViene utilizzata quando si vuole analizzare il variare di un fenomeno nel tempo, come ad esempio il tasso di variazione dei prezzi o i tassi di rendimento di capitali.
La media geometrica è tale che
σ × σ ×!× σ = x
1× x
2×!× x
nn volte
Le medie
La media geometrica
Esempio. Un impiegato ha ricevuto un 5% di aumento di stipendio nel 2014 e un 15% di aumento nell’anno successivo. Quant’è la percentuale di crescita media?
5% di aumento ⇒ da 100 a 105
15% di aumento ⇒ da 100 a 115
👉 parametri: 1,05 e 1,15
σ = 1,15 ×1,05
2= 1,09886 👉 L’aumento medio è del 9,89%
L’impiegato che alla fine del 2013 riceveva
1,05 ×1,15 = 1,21€
,dall’inizio del 2014 riceve1,05€
mentre a partire dal 2015 riceve
1€
σ × σ = 1,05 ×1,15
Le medie
La media armonica
La media armonica di un insieme di numeri è l’inverso della media aritmetica degli inversi. Serve per esempio a ricavare un valore centrale sulla velocità per dati che si riferiscono ad intervalli temporali diversi.
δ = n 1 x
ii=1
∑
nLa media armonica è tale che
1 δ +
1
δ +!+
1 δ =
1
x
1+ 1
x
2+!+ 1 x
n.
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le velocità medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le velocità medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che
VM = spazio totale/tempo totale.
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le velocità medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le velocità medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Dunque
VM =
π =
∑
numeri × pesi∑
4x100pesiT1+T2+T3 +T4
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le velocità medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Dunque
VM =
π =
∑
numeri × pesi∑
4x100pesiT1+T2+T3 π+T=4
numeri × pesi
∑
∑
pesi4x100 T1+T2+Tr 3 +T4 1
δ + 1
δ +!+
1 δ =
1
x1 + 1
x2 +!+ 1 xn V1 V2
1 δ +
1
δ +!+
1 δ =
1
x1 + 1
x2 +!+ 1 xn V3 V4
100 1001 100 100
δ + 1
δ +!+
1 δ =
1
x1 + 1
x2 +!+ 1 xn V1 V2
1 δ +
1
δ +!+
1 δ =
1
x1 + 1
x2 +!+ 1 xn V3 V4
= π==
∑
numeri × pesi∑
pesi4—
—
——
Le medie
La media armonica vs la media aritmetica
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media questa volta si calcola attraverso la media aritmetica, si osservi che
VM = spazio totale/tempo totale.
Il tempo totale è 4x2=8, mentre gli spazi sono
S1=V1T1=9,60 x 2, S2=V2T2=10,05 x 2, S3=V3T3=10,00 x 2, S4=V4T4=10,10 x 2
Dunque
VM =
π
=∑
numeri × pesi∑
pesiS1+S2+S3+S4 4x2
= =
π = ∑ numeri × pesi
∑ pesi
Esempio. Si determini la velocità media di quattro persone che, una dopo l’altra, corrono per 2 secondi rispettivamente con velocità medie, in m/s
π = ∑ numeri × pesi
∑ pesi
V1 x2+ V2 x2+ V3 x2+ V4 x2
4x2
π = ∑ numeri × pesi
∑ pesi
V1 + V2 + V3 + V4