∆ ∆
Unità 2
L’organizzazione dei dati
e sintesi in forma tabellare
∆
Matrici di dati
• E’ una rappresentazione tabellare mediante la quale si schematizzano le informazioni (misure, risposte, ecc.) raccolte su ciascuna unità statistica, in rapporto ad un insieme di variabili.
• Ogni riga della matrice contiene le informazioni relative ad una unità statistica.
• Ogni colonna contiene le informazioni relative ad una variabile o mutabile, per tutte le unità statistiche.
STATISTICA - Università di Salerno 2
∆
Esempio
STATISTICA - Università di Salerno
SESSO = sesso degli studenti (= 1 Femmine, = 0 Maschi);
PROVINCIA = provincia di residenza
ETA' = età degli studenti (in anni compiuti);
DIPLOMA = tipo di diploma
DISTANZA = distanza in km del luogo di residenza dall’università COMPONENTI = numero componenti del nucleo familiare
TV = ore medie settimanali trascorse davanti alla TV SPORT = ore medie settimanali di attività sportiva VEGETARIANO = variabile booleana (si/no) IN
……
Popolazione: Studenti di Statistica del corso di laurea in EM/EGI – anno 2015/2016
3
∆
Matrice di dati
STATISTICA - Università di Salerno 4
STATISTICA - Università di Salerno
∆
5SERIE STORICHE
Tabella 1. Indici generali delle retribuzioni contrattuali (base dicembre 2010 = 100)
Retribuzioni contrattuali orarie Retribuzioni contrattuali per dipendente
Variazioni percentuali Variazioni percentuali
Periodo Indici Rispetto Rispetto al Indici Rispetto Rispetto al
al periodo corrispondente al periodo corrispondente
precedente periodo dell'anno precedente periodo dell'anno
precedente precedente
2011 101,1 1,7 101,1 1,7
2012 102,6 1,5 102,6 1,5
2013 104,0 1,4 104,1 1,5
2011 I trim. 100,8 0,9 2,0 100,8 0,9 2,0
II trim. 101,1 0,3 1,8 101,1 0,3 1,8
III trim. 101,2 0,1 1,6 101,2 0,1 1,6
IV trim 101,4 0,2 1,5 101,4 0,2 1,5
2012 I trim. 102,2 0,8 1,4 102,2 0,8 1,4
II trim. 102,5 0,3 1,4 102,5 0,3 1,4
III trim. 102,7 0,2 1,5 102,8 0,3 1,6
IV trim 103,1 0,4 1,7 103,1 0,3 1,7
2013 I trim. 103,6 0,5 1,4 103,6 0,5 1,4
II trim. 104,0 0,4 1,5 104,0 0,4 1,5
III trim. 104,2 0,2 1,5 104,2 0,2 1,4
IV trim. 104,4 0,2 1,3 104,5 0,3 1,4
2014 I trim. 105,1 0,7 1,4 105,1 0,6 1,4
II trim. 105,2 0,1 1,2 105,2 0,1 1,2
∆
Serie territoriali
• Esprimono la distribuzione di un fenomeno rispetto al territorio
• Se l’analisi è condotta anche rispetto al tempo si parla di analisi spazio-temporale
• Esempio
– La densità di inquinanti chimici misurata lungo la costa Sorrentina in 150 punti equi-spaziati
– Se queste misure vengono ripetute a fissate scadenze temporali (ogni mese, ogni anno) si da luogo ad una serie spazio-temporale
STATISTICA - Università di Salerno 6
STATISTICA - Università di Salerno
∆
7STATISTICA - Università di Salerno
∆
Considerazioni sui tipi di dati
• Matrici di dati: si è interessati ad evidenziare connessioni, similitudini, legami spuri tra le variabili e/o tra le unità statistiche.
• Serie storica: l’attenzione è sui legami esistenti tra osservazioni in tempi successivi.
• Serie territoriali: l’attenzione è rivolta sulla evoluzione del fenomeno nello spazio.
• N.B.: dati complessi possono essere strutturati come combinazioni delle precedenti tipologie
8
∆
Serie storiche
• Esprimono la dinamica di un fenomeno nel tempo.
• Esempi:
– popolazione italiana negli anni – retribuzioni orarie per mese – ….
STATISTICA - Università di Salerno 9
∆
Distribuzioni di frequenza
• E’ una organizzazione dei dati, in forma tabellare, in cui ad ogni modalità del carattere (qualitativo o
quantitativo) si fa corrispondere la rispettiva frequenza.
• Esempio: Genere={M, F, M, F, F, … , F }
STATISTICA - Università di Salerno
Genere Frequenza
M 1079
F 1680
Totale 2759
10
∆
Distribuzioni di frequenza
• Costruzione di distribuzioni di frequenza nel caso di:
– Mutabili (sconnesse o ordinabili) – Variabili discrete
– Variabili continue
STATISTICA - Università di Salerno 11
∆
Mutabili: esempio
STATISTICA - Università di Salerno
Popolazione residente in Italia al 1° gennaio 2000
Fonte: Annuario Statistico Italiano 2000 - Istat
Regione Popolazione
Nord 25.713.406
Centro 11.096.946
Mezzogiorno 20.869.543
Italia 57.679.895
12
∆
Variabili discrete: esempio
STATISTICA - Università di Salerno
Composizione nucleo familiare studenti SP (1988-1995)
Fonte: Elaborazione su dati Piccolo (1999)
Componenti Frequenza
1 14
2 55
3 332
4 1057
5 874
6 o più 427
Totale 2759
13
∆
Distribuzione di frequenza
STATISTICA - Università di Salerno
1 2 k
N = + + n n L + n
X n i
x 1 n 1 x 2 n 2
… …
x k n k totale N
1 2 k
se ordinabile
x < x < < L x X
N.B.: il totale delle frequenze rappresenta la numerosità delle unità statistiche. Quindi, esso sarà indicato con N, se trattasi di un censimento, oppure con n, se trattasi di una indagine
campionaria. Per semplicità, in questi lucidi utilizzeremo per lo più il simbolo N,
presupponendo un censimento della popolazione.
14
∆
Variabili continue
• Nel caso di variabili continue tra due modalità
successive esistono infiniti valori e, pertanto, non è possibile associare ad ogni modalità la rispettiva frequenza.
• Esempio. Altezza in metri
STATISTICA - Università di Salerno
1.50 1.67 1.74 1.84 2.10
15
∆
Variabili continue
• L’intervallo di definizione della variabile viene suddiviso in classi di modalità (sotto-intervalli dell’insieme di definizione).
• La frequenza si riferisce al numero di osservazioni che cadono in ciascun intervallo
STATISTICA - Università di Salerno
1.50 1.60 1.70 1.80 1.90 2.00 2.10
16
∆
Esempio
STATISTICA - Università di Salerno
Altezza Frequenza
140 -| 150 12
150 -| 160 513
160 -| 170 1198
170 -| 180 789
180 -| 190 232
190 -| 200 15
Totale 2759
Fonte: Elaborazione su dati Piccolo (1999)
Altezza (in cm) studenti Scienze Politiche (anno accademico 1988 – 1995)
17
∆
Distribuzione di frequenza per classi
Si utilizza quando il numero di modalità distinte, presenti nel collettivo, è elevato.
STATISTICA - Università di Salerno
X n i
x 0 -| x 1 n 1 x 1 -| x 2 n 2
… …
x k-1 -| x k n k Totale N
1 2 k
N = + + n n L + n
18
∆
Esempio
STATISTICA - Università di Salerno
Aziende classificate per numero di dipendenti
Dipendenti Aziende
1 |-| 5 340
5 -| 10 190
10 -| 20 84
20 -| 50 32
50 –| 100 21
100 -|200 7
Totale 674
19
∆
Esempio: aspettativa di vita (in anni)
Paese Aspettativa
Japan 80.63
Hong Kong 79.74
Switzerland 79.56
Sweden 79.27
Iceland 79.23
Canada 79.03
Australia 78.78
Paese Aspettativa Sier. Leone 37.41
Zambia 38.49
Botswana 39.40
Malawi 39.49
Rwanda 39.99
Zimbabwe 40.41
Burundi 42.10
STATISTICA - Università di Salerno 20
∆
Esempio: aspettativa di vita
Aspettativa di vita Paesi
35 -| 40 5
40 -| 50 28
50 -| 60 19
60 -|70 43
70 -| 80 96
80 -| 85 1
Totale 192
STATISTICA - Università di Salerno 21
∆
Scelta del numero di classi
• Il numero di classi non dovrebbe mai essere:
– troppo basso – troppo alto.
• Nella maggior parte dei casi un numero compreso tra 5 e 15 risulta adeguato.
• Si procede per tentativi.
STATISTICA - Università di Salerno 22
∆
Numero e ampiezza classi
• Scelta del numero di classi
STATISTICA - Università di Salerno
oppure guida pratica del libro
1 3.322 log ( )
10k = + ⋅ N
• Scelta dell’ampiezza degli intervalli
1
x
kx Ampiezza Intervallo
k
= −
23
∆
Ampiezza delle classi e densità di frequenza
• Ampiezza delle classi
STATISTICA - Università di Salerno
1
, 1, 2, ,
i i i
d = − x x
−i = K k
• Densità di frequenza
, 1, 2, ,
i i
i
h n i k
= d = K
24
∆
Esempio
STATISTICA - Università di Salerno
Aziende classificate per numero di dipendenti Dipendenti Aziende
1 |-| 5 340
5 -| 10 190
10 -| 20 84
20 -| 50 32
50 –| 100 21
100 -| 200 7
Totale 674
d
i5 5 10 30 50 100
h
i68 38 8.4 1.07 0.42 0.07
25
∆
Frequenze relative
STATISTICA - Università di Salerno
i i
f n
= N
1 2 k
1
f + + f L + = f 0 ≤ ≤ f
i1 i = 1, 2, L k
X n i
x 1 n 1 x 2 n 2
… …
x k n k N
f i n 1 /N n 2 /N
… n k /N
1
f i f 1 f 2
… f k 1
1, 2,
i = L k
Proprietà
26
∆
Esempio: frequenze relative
STATISTICA - Università di Salerno
Regione Popolazione
Nord 25,713,406
Centro 11,096,946
Mezzogiorno 20,869,543
Italia 57,679,895
Popolazione 0.45
0.19 0.36
1.00
27
∆
Esempio: numero componenti famiglie
STATISTICA - Università di Salerno
Calabria FA 105.823 132.552 111.192 129.278
79.952 63.516 622.313 FR
0,19 0,24 0,24 0,22 0,08 0,03 1,00
FR 0,17 0,21 0,18 0,21 0,13 0,10 1,00 Lombardia
Componenti FA
1 591.927
2 743.032
3 747.740
4 665.163
5 233.871
6 o più 100.054 Totale 3.081.787
28
∆
Frequenze cumulate
STATISTICA - Università di Salerno
X n i
x 1 n 1 x 2 n 2 x 3 n 3
… …
x k n k totale N
N i n 1 n 1 +n 2 n 1 +n 2 +n 3
…
n 1 +n 2 + … +n k
N i N 1 N 2 N 3
… N k
29
∆
Frequenze cumulate
1 i
i j j
N = ∑
=n i = 1, 2, 3, L k
STATISTICA - Università di Salerno
1 2
i i
N = + + n n L + n i = 1, 2, 3, L k
1
i i i
N = N
−+ n i = 1, 2, 3, L k
1 2 3 k
N ≤ N ≤ N ≤ ≤ L N = N
X N i
x 1 N 1 x 2 N 2
… …
x k N k
Proprietà
30
∆
Esempio
STATISTICA - Università di Salerno
Aziende classificate per numero di dipendenti Dipendenti Aziende
1 |-| 5 340
5 -| 10 190
10 -| 20 84
20 -| 50 32
50 –| 100 21
100 -| 200 7
Totale 674
N
i340 340+190 340+190+84 340+190+84+32 340+190+84+32+21 340+190+84+32+21+7
N
i340 530 614 646 667 674
31
∆
Frequenze relative cumulate
STATISTICA - Università di Salerno
X f i x 1 f 1 x 2 f 2 x 3 f 3
… …
x k f k 1
F i f 1 f 1 +f 2 f 1 +f 2 +f 3
…
f 1 +f 2 + … +f k
F i F 1 F 2 F 3
… F k
32
∆
Frequenze relative cumulate
STATISTICA - Università di Salerno
1 2
i i
F = + + f f L + f i = 1, 2, 3, L k
1
i i i
F = F
−+ f i = 1, 2, 3, L k
1 2 3 k
1
F ≤ F ≤ F ≤ ≤ L F =
X F i
x 1 F 1 x 2 F 2
… …
x k F k
Proprietà
1 i
i j j
F = ∑
=f i = 1, 2, 3, L k
33
∆
Esempio: numero componenti famiglie
STATISTICA - Università di Salerno
Lombardia Componenti FA
1 591.927
2 743.032
3 747.740
4 665.163
5 233.871
6 o più 100.054 Totale 3.081.787
FR 0,19 0,24 0,24 0,22 0,08 0,03 1,00
Calabria FA 105.823 132.552 111.192 129.278
79.952 63.516 622.313
FR 0,17 0,21 0,18 0,21 0,13 0,10 1,00 FRC
0,19 0,43 0,67 0,89 0,97 1,00
FRC 0,17 0,38 0,56 0,77 0,90 1,00
34