• Non ci sono risultati.

L’organizzazione dei dati

N/A
N/A
Protected

Academic year: 2021

Condividi "L’organizzazione dei dati"

Copied!
34
0
0

Testo completo

(1)

∆ ∆

Unità 2

L’organizzazione dei dati

e sintesi in forma tabellare

(2)

Matrici di dati

• E’ una rappresentazione tabellare mediante la quale si schematizzano le informazioni (misure, risposte, ecc.) raccolte su ciascuna unità statistica, in rapporto ad un insieme di variabili.

Ogni riga della matrice contiene le informazioni relative ad una unità statistica.

Ogni colonna contiene le informazioni relative ad una variabile o mutabile, per tutte le unità statistiche.

STATISTICA - Università di Salerno 2

(3)

Esempio

STATISTICA - Università di Salerno

SESSO = sesso degli studenti (= 1 Femmine, = 0 Maschi);

PROVINCIA = provincia di residenza

ETA' = età degli studenti (in anni compiuti);

DIPLOMA = tipo di diploma

DISTANZA = distanza in km del luogo di residenza dall’università COMPONENTI = numero componenti del nucleo familiare

TV = ore medie settimanali trascorse davanti alla TV SPORT = ore medie settimanali di attività sportiva VEGETARIANO = variabile booleana (si/no) IN

……

Popolazione: Studenti di Statistica del corso di laurea in EM/EGI – anno 2015/2016

3

(4)

Matrice di dati

STATISTICA - Università di Salerno 4

(5)

STATISTICA - Università di Salerno

5

SERIE STORICHE

Tabella 1. Indici generali delle retribuzioni contrattuali (base dicembre 2010 = 100)

Retribuzioni contrattuali orarie Retribuzioni contrattuali per dipendente

Variazioni percentuali Variazioni percentuali

Periodo Indici Rispetto Rispetto al Indici Rispetto Rispetto al

al periodo corrispondente al periodo corrispondente

precedente periodo dell'anno precedente periodo dell'anno

precedente precedente

2011 101,1 1,7 101,1 1,7

2012 102,6 1,5 102,6 1,5

2013 104,0 1,4 104,1 1,5

2011 I trim. 100,8 0,9 2,0 100,8 0,9 2,0

II trim. 101,1 0,3 1,8 101,1 0,3 1,8

III trim. 101,2 0,1 1,6 101,2 0,1 1,6

IV trim 101,4 0,2 1,5 101,4 0,2 1,5

2012 I trim. 102,2 0,8 1,4 102,2 0,8 1,4

II trim. 102,5 0,3 1,4 102,5 0,3 1,4

III trim. 102,7 0,2 1,5 102,8 0,3 1,6

IV trim 103,1 0,4 1,7 103,1 0,3 1,7

2013 I trim. 103,6 0,5 1,4 103,6 0,5 1,4

II trim. 104,0 0,4 1,5 104,0 0,4 1,5

III trim. 104,2 0,2 1,5 104,2 0,2 1,4

IV trim. 104,4 0,2 1,3 104,5 0,3 1,4

2014 I trim. 105,1 0,7 1,4 105,1 0,6 1,4

II trim. 105,2 0,1 1,2 105,2 0,1 1,2

(6)

Serie territoriali

• Esprimono la distribuzione di un fenomeno rispetto al territorio

• Se l’analisi è condotta anche rispetto al tempo si parla di analisi spazio-temporale

Esempio

– La densità di inquinanti chimici misurata lungo la costa Sorrentina in 150 punti equi-spaziati

– Se queste misure vengono ripetute a fissate scadenze temporali (ogni mese, ogni anno) si da luogo ad una serie spazio-temporale

STATISTICA - Università di Salerno 6

(7)

STATISTICA - Università di Salerno

7

(8)

STATISTICA - Università di Salerno

Considerazioni sui tipi di dati

Matrici di dati: si è interessati ad evidenziare connessioni, similitudini, legami spuri tra le variabili e/o tra le unità statistiche.

Serie storica: l’attenzione è sui legami esistenti tra osservazioni in tempi successivi.

Serie territoriali: l’attenzione è rivolta sulla evoluzione del fenomeno nello spazio.

• N.B.: dati complessi possono essere strutturati come combinazioni delle precedenti tipologie

8

(9)

Serie storiche

• Esprimono la dinamica di un fenomeno nel tempo.

Esempi:

– popolazione italiana negli anni – retribuzioni orarie per mese – ….

STATISTICA - Università di Salerno 9

(10)

Distribuzioni di frequenza

E’ una organizzazione dei dati, in forma tabellare, in cui ad ogni modalità del carattere (qualitativo o

quantitativo) si fa corrispondere la rispettiva frequenza.

Esempio: Genere={M, F, M, F, F, … , F }

STATISTICA - Università di Salerno

Genere Frequenza

M 1079

F 1680

Totale 2759

10

(11)

Distribuzioni di frequenza

• Costruzione di distribuzioni di frequenza nel caso di:

– Mutabili (sconnesse o ordinabili) – Variabili discrete

– Variabili continue

STATISTICA - Università di Salerno 11

(12)

Mutabili: esempio

STATISTICA - Università di Salerno

Popolazione residente in Italia al 1° gennaio 2000

Fonte: Annuario Statistico Italiano 2000 - Istat

Regione Popolazione

Nord 25.713.406

Centro 11.096.946

Mezzogiorno 20.869.543

Italia 57.679.895

12

(13)

Variabili discrete: esempio

STATISTICA - Università di Salerno

Composizione nucleo familiare studenti SP (1988-1995)

Fonte: Elaborazione su dati Piccolo (1999)

Componenti Frequenza

1 14

2 55

3 332

4 1057

5 874

6 o più 427

Totale 2759

13

(14)

Distribuzione di frequenza

STATISTICA - Università di Salerno

1 2 k

N = + + n n L + n

X n i

x 1 n 1 x 2 n 2

… …

x k n k totale N

1 2 k

se ordinabile

x < x < < L x X

N.B.: il totale delle frequenze rappresenta la numerosità delle unità statistiche. Quindi, esso sarà indicato con N, se trattasi di un censimento, oppure con n, se trattasi di una indagine

campionaria. Per semplicità, in questi lucidi utilizzeremo per lo più il simbolo N,

presupponendo un censimento della popolazione.

14

(15)

Variabili continue

• Nel caso di variabili continue tra due modalità

successive esistono infiniti valori e, pertanto, non è possibile associare ad ogni modalità la rispettiva frequenza.

Esempio. Altezza in metri

STATISTICA - Università di Salerno

1.50 1.67 1.74 1.84 2.10

15

(16)

Variabili continue

• L’intervallo di definizione della variabile viene suddiviso in classi di modalità (sotto-intervalli dell’insieme di definizione).

• La frequenza si riferisce al numero di osservazioni che cadono in ciascun intervallo

STATISTICA - Università di Salerno

1.50 1.60 1.70 1.80 1.90 2.00 2.10

16

(17)

Esempio

STATISTICA - Università di Salerno

Altezza Frequenza

140 -| 150 12

150 -| 160 513

160 -| 170 1198

170 -| 180 789

180 -| 190 232

190 -| 200 15

Totale 2759

Fonte: Elaborazione su dati Piccolo (1999)

Altezza (in cm) studenti Scienze Politiche (anno accademico 1988 – 1995)

17

(18)

Distribuzione di frequenza per classi

Si utilizza quando il numero di modalità distinte, presenti nel collettivo, è elevato.

STATISTICA - Università di Salerno

X n i

x 0 -| x 1 n 1 x 1 -| x 2 n 2

… …

x k-1 -| x k n k Totale N

1 2 k

N = + + n n L + n

18

(19)

Esempio

STATISTICA - Università di Salerno

Aziende classificate per numero di dipendenti

Dipendenti Aziende

1 |-| 5 340

5 -| 10 190

10 -| 20 84

20 -| 50 32

50 –| 100 21

100 -|200 7

Totale 674

19

(20)

Esempio: aspettativa di vita (in anni)

Paese Aspettativa

Japan 80.63

Hong Kong 79.74

Switzerland 79.56

Sweden 79.27

Iceland 79.23

Canada 79.03

Australia 78.78

Paese Aspettativa Sier. Leone 37.41

Zambia 38.49

Botswana 39.40

Malawi 39.49

Rwanda 39.99

Zimbabwe 40.41

Burundi 42.10

STATISTICA - Università di Salerno 20

(21)

Esempio: aspettativa di vita

Aspettativa di vita Paesi

35 -| 40 5

40 -| 50 28

50 -| 60 19

60 -|70 43

70 -| 80 96

80 -| 85 1

Totale 192

STATISTICA - Università di Salerno 21

(22)

Scelta del numero di classi

• Il numero di classi non dovrebbe mai essere:

– troppo basso – troppo alto.

• Nella maggior parte dei casi un numero compreso tra 5 e 15 risulta adeguato.

Si procede per tentativi.

STATISTICA - Università di Salerno 22

(23)

Numero e ampiezza classi

• Scelta del numero di classi

STATISTICA - Università di Salerno

oppure guida pratica del libro

1 3.322 log ( )

10

k = + ⋅ N

• Scelta dell’ampiezza degli intervalli

1

x

k

x Ampiezza Intervallo

k

= −

23

(24)

Ampiezza delle classi e densità di frequenza

• Ampiezza delle classi

STATISTICA - Università di Salerno

1

, 1, 2, ,

i i i

d = − x x

i = K k

• Densità di frequenza

, 1, 2, ,

i i

i

h n i k

= d = K

24

(25)

Esempio

STATISTICA - Università di Salerno

Aziende classificate per numero di dipendenti Dipendenti Aziende

1 |-| 5 340

5 -| 10 190

10 -| 20 84

20 -| 50 32

50 –| 100 21

100 -| 200 7

Totale 674

d

i

5 5 10 30 50 100

h

i

68 38 8.4 1.07 0.42 0.07

25

(26)

Frequenze relative

STATISTICA - Università di Salerno

i i

f n

= N

1 2 k

1

f + + f L + = f 0 ≤ ≤ f

i

1 i = 1, 2, L k

X n i

x 1 n 1 x 2 n 2

… …

x k n k N

f i n 1 /N n 2 /N

n k /N

1

f i f 1 f 2

f k 1

1, 2,

i = L k

Proprietà

26

(27)

Esempio: frequenze relative

STATISTICA - Università di Salerno

Regione Popolazione

Nord 25,713,406

Centro 11,096,946

Mezzogiorno 20,869,543

Italia 57,679,895

Popolazione 0.45

0.19 0.36

1.00

27

(28)

Esempio: numero componenti famiglie

STATISTICA - Università di Salerno

Calabria FA 105.823 132.552 111.192 129.278

79.952 63.516 622.313 FR

0,19 0,24 0,24 0,22 0,08 0,03 1,00

FR 0,17 0,21 0,18 0,21 0,13 0,10 1,00 Lombardia

Componenti FA

1 591.927

2 743.032

3 747.740

4 665.163

5 233.871

6 o più 100.054 Totale 3.081.787

28

(29)

Frequenze cumulate

STATISTICA - Università di Salerno

X n i

x 1 n 1 x 2 n 2 x 3 n 3

… …

x k n k totale N

N i n 1 n 1 +n 2 n 1 +n 2 +n 3

n 1 +n 2 + … +n k

N i N 1 N 2 N 3

N k

29

(30)

Frequenze cumulate

1 i

i j j

N = ∑

=

n i = 1, 2, 3, L k

STATISTICA - Università di Salerno

1 2

i i

N = + + n n L + n i = 1, 2, 3, L k

1

i i i

N = N

+ n i = 1, 2, 3, L k

1 2 3 k

NNN ≤ ≤ L N = N

X N i

x 1 N 1 x 2 N 2

… …

x k N k

Proprietà

30

(31)

Esempio

STATISTICA - Università di Salerno

Aziende classificate per numero di dipendenti Dipendenti Aziende

1 |-| 5 340

5 -| 10 190

10 -| 20 84

20 -| 50 32

50 –| 100 21

100 -| 200 7

Totale 674

N

i

340 340+190 340+190+84 340+190+84+32 340+190+84+32+21 340+190+84+32+21+7

N

i

340 530 614 646 667 674

31

(32)

Frequenze relative cumulate

STATISTICA - Università di Salerno

X f i x 1 f 1 x 2 f 2 x 3 f 3

… …

x k f k 1

F i f 1 f 1 +f 2 f 1 +f 2 +f 3

f 1 +f 2 + … +f k

F i F 1 F 2 F 3

F k

32

(33)

Frequenze relative cumulate

STATISTICA - Università di Salerno

1 2

i i

F = + + f f L + f i = 1, 2, 3, L k

1

i i i

F = F

+ f i = 1, 2, 3, L k

1 2 3 k

1

FFF ≤ ≤ L F =

X F i

x 1 F 1 x 2 F 2

… …

x k F k

Proprietà

1 i

i j j

F = ∑

=

f i = 1, 2, 3, L k

33

(34)

Esempio: numero componenti famiglie

STATISTICA - Università di Salerno

Lombardia Componenti FA

1 591.927

2 743.032

3 747.740

4 665.163

5 233.871

6 o più 100.054 Totale 3.081.787

FR 0,19 0,24 0,24 0,22 0,08 0,03 1,00

Calabria FA 105.823 132.552 111.192 129.278

79.952 63.516 622.313

FR 0,17 0,21 0,18 0,21 0,13 0,10 1,00 FRC

0,19 0,43 0,67 0,89 0,97 1,00

FRC 0,17 0,38 0,56 0,77 0,90 1,00

34

Riferimenti

Documenti correlati

Fornitura di energia elettrica sul mercato libero per un periodo di 24 mesi, dal 1.4.2020 al 31.3.2022 con opzione fino al 31.3.2023 presso i punti di prelievo alimentati in media

(mozzarella, pomodoro, funghi, carciofi, olive, wurstel, asparagi, cipolla, peperoni, salamino piccante, capperi, acciughe e prosciutto cotto). Emozione

• a parità di requisiti la scelta avverrà a discrezione del Coordinatore della Rete CLIL Lunardi, prof. Per iscrizioni comunicare nome-cognome-materia insegnata tramite e-mail a

La presente informativa è resa ai sensi del Regolamento Europeo 679/2016, dettato in materia di protezione delle persone fisiche, con riguardo al trattamento dei dati personali e

b) comunicazione dei Dati relativi alla carriera universitaria e degli altri Dati personali pertinenti, ad esclusione di quelli appartenenti alle categorie particolari

Viale Ezio Vanoni 32 70019 Triggiano tel./fax. Il trattamento dei dati personali sarà improntato al rispetto della normativa sulla protezione dei dati personali e, in particolare,

v è un vettore di puntatori, cioè è l'indirizzo di memoria (“puntatore”) di un puntatore, quindi v+1 è l'indirizzo del secondo puntatore del vettore v (ossia è pari a

In questo campo deve essere definito il codice del magazzino da utilizzare per la generazione delle Proposte di Acquisto nel caso siano presenti articoli la cui esistenza è al di