C C O O R R S S O O D D I I B B A A S S E E I I N N
S S T T A A T T I I S S T T I I C C A A
aa ccururaa ddi i
PPaaoolloo PPaannddoollffii ee GGiiuulliiaa CCaavvrriinnii
Una possibile definizione di “statistica” (data da Giuseppe Leti, professore di Istituzioni di statistica presso la Facoltà di Scienze statistiche dell’Università di Roma) è la seguente:
statistica è la tecnica che ha come scopo la conoscenza quantitativa dei fenomeni collettivi.
In altre parole, la statistica analizza in termini quantitativi i fenomeni collettivi, ossia i fenomeni il cui studio richiede l’osservazione di un insieme di manifestazioni individuali.
(Sono fenomeni collettivi il consumo di un determinato bene in un periodo fissato, il reddito di un insieme di individui, il peso di un gruppo di oggetti o di persone, ecc.).
Esempio:
CARATTERE MODALITA’
Sesso maschio, femmina
Età da 0 a ….?….
Stato civile celibe/nubile, sposato/a, separato/a, divorziato/a, vedovo/a;
Voto all’esame di maturità i numeri interi da 36 a 60 (da 60 a 100) Uso di antibiotici in ospedale sì, no
Temperatura corporea (°C) i numeri reali tra 0°C e 42°C?
I caratteri che possono costituire oggetto di studio della statistica sono classificabili sulla base delle caratteristiche delle loro modalità.
2
Un carattere può assumere modalità differenti in corrispondenza delle diverse unità statistiche del collettivo. Le modalità del carattere debbono essere esaustive e non sovrapposte
Per esaustive si intende che le modalità elencate debbano rappresentare tutti i modi di essere del carattere.
Le modalità si definiscono non sovrapposte se a ogni unità si può associare una sola modalità.
Un carattere qualitativo viene distinto in:
•
Carattere sconnesso (o con scalanominale): se date due sue modalità è possibile solo affermare se queste sono uguali o diverse.
•
Carattere ordinato (o con scala ordinale):se date due sue modalità è possibile solo dare un ordine, specificando che una precede l’altra.
I caratteri quantitativi (o variabili) vengono a volte distinti in caratteri quantitativi con scala a intervalli o con scala di rapporti:
In un carattere quantitativo con scala a intervalli non esiste uno zero assoluto, naturale e non arbitrario, il quale deve invece esistere in un carattere quantitativo con scala di rapporti.
Per un carattere con scala a intervalli ha senso considerare la differenza tra le modalità del
4
I caratteri quantitativi vengono anche distinti in discreti e continui:
•
In un carattere quantitativo discreto l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri interi.•
In un carattere quantitativo continuo l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri reali.NON ORDINATA o SCONNESSA:
* Esempi: sesso, stato civile, religione
* Operazioni possibili: = o NO
MUTABILE STATISTICA: gli attributi ammettono un ordine di successione?
il carattere MUTA
simboli A, B, C, …. SI’
ATTRIBUTI ORDINATA: gli attributi presentano
(stati di grandezza QUALITATIVI) un primo e un ultimo termine (non
convenzionale).
CARATTERE : le sue modalità sono (oggetto di studio)
NUMERI CARDINALI DISCRETA
(stati di grandezza QUANTITATIVI) in N (insieme Numeri Naturali)
VARIABILE STATISTICA: i numeri cardinali possono variare
il carattere VARIA IN R (insieme Numeri Reali)
simboli X, Y, Z, …. CONTINUA
6
Una variabile può assumere qualunque valore entro un determinato insieme di valore, detto DOMINIO della variabile.
Un solo valore COSTANTE
Qualunque valore fra due valori VARIABILE CONTINUA
Altrimenti VARIABILE DISCRETA
Variabile continua
Dati continui
Variabile discreta
Dati discreti
insieme statistico
cardinalità carattere modalità tipo di carattere protocollo
elementare
I gruppo Gruppo
sanguigno
0, A, B, AB mutabile statistica sconnessa
{....……...……….}
II gruppo Segno zodiacale Ariete; Toro; Gemelli;
Cancro; Leone;
Vergine; Bilancia;
Scorpione; Sagittario;
Capricorno; Acquario;
Pesci
mutabile statistica ordinata ciclica
{...…...………..}
III gruppo Giudizio finale
all’esame di scuola media inferiore
sufficiente discreto buono distinto ottimo
mutabile statistica ordinata
rettilineare
{...…….…….}
IV gruppo Numero di
componenti della famiglia
numeri interi compresi tra 1 ed un massimo non noto a priori (cambia in funzione dell’insieme statistico)
variabile statistica discreta (enumerabile)
{...……….…}
V gruppo Statura (in cm) numeri reali compresi tra un minimo ed un massimo non noti a priori (cambiano in funzione dell’insieme statistico)
variabile statistica continua (misurabile)
{...………...…….}
8
Esempi di Tipi di dati:
QUANTITATIVI
Continue Discrete
Pressione del sangue Statura
Peso Età
Numero di bambini
Numero di attacchi di asma per settimana
QUALITATIVI
Ordinali (Categorie ordinate) Nominali (Categorie non ordinate) Grado di gravità del tumore al polmone
Ottimo, Buono, Sufficiente, Scarso, Insufficiente
Migliore, uguale, peggiore
Sesso (maschio/femmina) Vivo o morto
Gruppo sanguigno 0, A, B, AB
Definizione di UNITA’ STATISTICA:
Si definisce unità statistica l’unità elementare su cui vengono osservati i caratteri oggetto di studio.
Definizione di COLLETTIVO:
Un insieme di unità statistiche omogenee rispetto a una o più caratteristiche costituiscono un collettivo statistico o una popolazione.
Sono esempi di collettivo statistico: la popolazione residente a Roma al censimento del 1991, le automobili vendute in Italia in un certo periodo, gli esercizi commerciali a Milano il 1/1/94 alle ore 24.
La popolazione residente a Roma e gli esercizi commerciali di Milano costituiscono dei collettivi di stato, in quanto sono individuabili in maniera esatta solo se si fissa un preciso istante di tempo. Viceversa, le automobili vendute in Italia in un dato periodo costituiscono dei collettivi di movimento.
Se tutte le unità che costituiscono la popolazione sono effettivamente osservabili, il collettivo viene detto empirico, altrimenti viene detto teorico.
Se l’insieme è costituito da un numero finito di unità statistiche viene detto finito, altrimenti viene detto infinito.
10
CCriritteeriri ddii ffoorrmmaazziioonnee ddeellllee cclalassssii ppeerr llee vvaarriiaabbiillii
Se il carattere è una variabile continua, le classi saranno necessariamente eterograde, ovvero definite da intervalli.
Come fissare gli intervalli?
Non esistono regole generali, criteri-guida assoluti.
Si possono però dare delle indicazioni di larga massima:
i) se si vogliono confrontare direttamente le frequenze di classi diverse, gli intervalli devono avere uguale ampiezza;
ii) se si vogliono identificare con le classi delle “tipologie” allora gli intervalli potranno avere ampiezza diversa, fissata in funzione delle diverse tipologie che si desidera identificare.
(esempio dei comuni: la classe dei 6 comuni con oltre 500.000 abitanti identifica i “grandi centri abitati”; la classe dei 1959 comuni con meno di 1.000 abitanti individua il “piccolo aggregato umano”; ecc...)
E’E’ bubuoonn ccrriitteerriioo aaddoottttaarree iinntteerrvvaallllii bbrerevvii,, ssaallvvoo ppoioi rriiuunniriree llee uuninittàà inin inintteerrvvaallllii pipiùù aampmpii,, a a ssececoonnddaa dedellllee esesiiggeennzeze dedessccrriittttiivvee eded iinnvveessttiiggaattiivvee..
PPasasssaaggggiioo ddaa uunnaa ssccaallaa aallll’’aallttrraa
1° caso: da quantitativo a qualitativo ordinato rettilineo.
Consideriamo il carattere X=statura (in cm). Possibili insiemi di modalità:
1°: 168, 169, 170, 171, 172,... (approssimando la statura a valori interi)
2°: (non mi interessa conoscere le stature con la precedente approssimazione): raggruppo le stature in intervalli, ad esempio:
168-|170, 170-|172,...
3°: gli intervalli potrebbero essere invece solo 3: fino a 165, da 165 a 175, oltre 175
4°: potrei addirittura identificare le 3 modalità precedenti con degli aggettivi: “bassa”, “media”, “alta”.
In questo modo si passa da un carattere quantitativo ad un carattere qualitativo ordinato rettilineo.
Cosa comporta questo passaggio? PePerrddiittaa ddii iinnfoforrmmaazziioonni!i!
12
E’E’ ppoossssiibbiillee rreeaalliizzzzaarree aanncchhee iill ppaassssaaggggiioo iinnvveerrssoo ?? NNonon sseemmpprree..
Esempio: il livello di istruzione (mutabile ordinata rettilinea) può essere quantificato facendo corrispondere ad ogni titolo di studio conseguito il numero di anni di istruzione necessari di norma per conseguire quel titolo. Ma ciò implica delle ipotesi sottostanti che non sono sempre accettabili (uguale rendimento ad ogni anno di studio).
Questo secondo passaggio è quindi molto complesso e spesso arbitrario, e non sempre possibile.
ClClaassssiiffiiccaazziioonnee ddeeii ccaarratattteerrii ssttaattiissttiiccii sseeccoonnddoo iill lliivveelllloo ddii mmisisuurraazziioonnee..
CARATTERI CARATTERISTICHE ELABORAZIONI CONSENTITE
CaCarraatttteerrii QQuualaliittaattiivvi i (M(Muuttaabbiillii))
1.1. ScScaallaa NNomomiinnaallee Operazioni consentite: =, .
Nessun ordinamento delle modalità (qualitative)
Frequenze assolute; frequenze relative;
percentuali; altri rapporti statistici, ecc.
Misure di tendenza centrale: moda.
Misure di mutabilità: indici di eterogenità, entropia, ecc.
2.2. ScScaallaa OOrrddiinnaallee Operazioni consentite: =, , >, <.
Le modalità (qualitative) possiedono un ordinamento semplice
Frequenze assolute; frequenze relative;
percentuali; altri rapporti statistici, ecc.
Misure di tendenza centrale: moda.
Misure di mutabilità: indici di eterogenità, entropia, ecc.
14
CARATTERI CARATTERISTICHE ELABORAZIONI CONSENTITE
CaCarraatttteerrii QQuuananttiittaatitivvii (V(Vaarriiaabbiillii))
3.3. ScScaallaa aa IIntnteerrvvaallllii Operazioni consentite: +, -.
Esiste un’unità di misura costante, quindi una distanza tra le modalità (quantitative)
Frequenze assolute, relative, percentuali, cumulate; altri rapporti statistici, ecc.
Misure di tendenza centrale: medie analitiche (aritmetica, geometrica, ecc.).
Misure di variabilità: scostamenti semplici medi, scarto quadratico medio, varianza, campo di variazione, coefficiente di variazione, ecc.
4.4. ScScaallaa ddi i RRapapppoorrttii Operazioni consentite: *,:.
Esiste uno zero naturale (assoluto)
Frequenze: come sopra.
Misure di tendenza centrale: come sopra.
Misure di variabilità: come sopra..
Una tabella è forse il modo più semplice per sintetizzare una serie di osservazioni e può essere utilizzata per tutti i tipi di dati.
Le tabelle forniscono maggiori informazioni quando non sono troppo complesse. Come regola generale, le tabelle e le colonne al loro interno devono essere sempre definite con chiarezza.
Se sono utilizzate delle unità di misura, esse devono essere specificate.
Si consideri la distribuzione di uno stesso carattere in due situazioni (luoghi o tempi) diverse.
Esempio:
Distribuzione dei livelli di colesterolo sierico in 2.294 soggetti della popolazione maschile degli Stati Uniti, 1976-1980.
Età 25-34 Età 55-64
Livello di colesterolo (mg/100 ml)
Numero di soggetti Numero di soggetti
80-119 13 5
120-159 150 48
160-199 442 265
200-239 299 458
240-279 115 281
280-319 34 128
320-359 9 35
360-399 5 7
Totale 1067 1227
Supponiamo di volere confrontare i due gruppi di soggetti per valutare
16
Poiché i soggetti più anziani sono più numerosi, non è corretto confrontare le colonne delle frequenze assolute dei due gruppi.
Al contrario, il confronto delle frequenze relative ha un significato.
MA: il confronto tra le composizioni dei due collettivi è condizionato dal fatto che essi hanno numerosità diversa.
Occorre quindi ridurre la numerosità dei due collettivi allo stesso valore, senza però alterare la composizione interna dei collettivi stessi.
Questo può avvenire calcolando le frequenze relative, con le quali le numerosità dei due collettivi vengono rese pari all’unità.
Calcoliamo quindi le frequenze relative e quelle percentuali.
In che modo?
i i
i i n f
n
f n 1,..., è detta FREQUENZA RELATIVA
i i
i f* p
p 100 è detta FREQUENZA PERCENTUALE i n
n n f n n
i
fi 1 per 1,..., infatti i i e 0 i per ogni
0
% 100
1
1 1
m
j j m
j
j p
f
La frequenza relativa di un intervallo è la percentuale del numero di osservazioni che appare nell’intervallo stesso.
Le frequenze relative sono utili per confrontare serie di dati che contengono numeri diversi di osservazioni.
Età 25-34 Età 55-64 Livello di colesterolo
(mg/100 ml)
Numero di soggetti Frequenza relativa (%)
Numero di soggetti Frequenza relativa (%)
80-119 13 1.2 5 0.4
120-159 150 14.1 48 3.9
160-199 442 41.4 265 21.6
200-239 299 28.0 458 37.3
240-279 115 10.8 281 22.9
280-319 34 3.2 128 10.4
320-359 9 0.8 35 2.9
360-399 5 0.5 7 0.6
Totale 1067 100.0 1227 100.0
i n
n n f n n
i
fi 1 per 1,..., infatti i i e 0 i per ogni
0
1
1
n i
fi
18
Sulle distribuzioni delle frequenze relative e/o percentuali diventa possibile effettuare confronti. Si può dire ad esempio che:
* i soggetti più anziani presentano livelli di colesterolo sierico più elevati rispetto ai più giovani;
* i soggetti più giovani hanno una proporzione più elevata di osservazioni al di sotto di 200 mg/100ml, mentre i più anziani presentano una proporzione più elevata al di sopra di questo valore.
Osservazioni
1. La distribuzione delle frequenze relative e quella delle frequenze percentuali permettono i confronti, ma nel passaggio dalla distribuzione di frequenza ad esse si perde un’informazione importante: la numerosità complessiva del collettivo a cui la distribuzione si riferisce. E’ quindi buona norma riportare, a fianco della distribuzione delle frequenze relative¸ anche la distribuzione di frequenza (o almeno la numerosità del collettivo di riferimento).
2. La frequenza relativa di una classe ci dà il peso statistico di quella classe sul totale.
3. Dalla distribuzione di frequenza posso sempre ricavare la distribuzione delle frequenze relative (o %), qualunque sia il carattere (mutabile o variabile).
4. Dalla distribuzione delle frequenze relative posso risalire alla distribuzione di frequenza solo se conosco la numerosità n del collettivo statistico.
5. Il numero di cifre decimali da considerare quando si calcolano le frequenze relative deve essere:
* il minimo possibile e tale che ogni cifra dia informazioni significative (è inutile riportare ad esempio 10 decimali...).
DEFINIZIONE:
Date n unità statistiche di cui nj presentano la j-esima modalità, si definisce FREQUENZA RELATIVA j-esima il rapporto
n fj nj
e
FREQUENZA PERCENTUALE il rapporto
100
* 100
* n
f n
pj j j
La somma di tutte le frequenze relative è uguale a 1; mentre la somma delle frequenze percentuali è uguale a 100.
20
DEFINIZIONE:
Dato un carattere X con m modalità ordinate in senso crescente, si indica con
j
j n n n
N 1 2 ...
la FREQUENZA ASSOLUTA CUMULATA,
con
j
j f f f
F 1 2 ...
la FREQUENZA RELATIVA CUMULATA,
e con
j
j p p p
P 1 2 ...
la FREQUENZA PERCENTUALE CUMULATA corrispondente alla j-esima classe.
Frequenze assolute e relative dei livelli di colesterolo sierico in 2294 soggetti della popolazione maschile degli Stati Uniti, 1976-1980
Età 25-34 Età 55-64
Livello di colesterolo (mg/100 ml)
Numero di soggetti
Frequenza relativa
(%)
Frequenza relat.
cumulata crescente
Numero di soggetti
Frequenza relativa (%)
Frequenza relat.
cumulata decrescente
80-119 13 1.2 1.2 5 0.4 100.0
120-159 150 14.1 15.3 48 3.9 99.6
160-199 442 41.4 56.7 265 21.6 95.7
200-239 299 28.0 84.7 458 37.3 74.1
240-279 115 10.8 95.5 281 22.9 36.8
280-319 34 3.2 98.7 128 10.4 13.9
320-359 9 0.8 99.5 35 2.9 3.5
360-399 5 0.5 100.0 7 0.6 0.6
Totale 1067 100.0 1227 100.0
ESEMPIO:
Supponiamo di voler studiare le conseguenze del basso peso alla nascita tra i neonati. Allo scopo di analizzare le dimensioni del problema, esaminiamo prima di tutto la distribuzione del peso alla nascita di tutti i bambini nati negli Stati Uniti nel 1986.
Separiamo queste osservazioni in intervalli di uguale ampiezza; le frequenze corrispondenti sono illustrate nella Tabella seguente:
Peso alla nascita (in grammi)
N° neonati Frequenza relativa (%)
0-499 4.843 0.13
500-999 17.487 0.47
1000-1499 23.139 0.62
1500-1999 49.112 1.31
2000-2499 160.919 4.29
2500-2999 597.738 15.93
3000-3499 1.376.008 36.68
3500-3999 1.106.634 29.50
4000-4499 344.390 9.18
4500-4999 62.769 1.67
5000-5500 8.236 0.22
Totale 3.751.275 100.00
24
Peso alla nascita (in grammi)
Frequenza relativa
(%)
Freq. relativa cumulata crescente
Freq. relativa cumulata decrescente
0-499 0.13 0.13 100.00
500-999 0.47 0.60 99.87
1000-1499 0.62 1.21 99.40
1500-1999 1.31 2.52 98.79
2000-2499 4.29 6.81 97.48
2500-2999 15.93 22.75 93.19
3000-3499 36.68 59.43 77.25
3500-3999 29.50 88.93 40.57
4000-4499 9.18 98.11 11.07
4500-4999 1.67 99.78 1.89
5000-5500 0.22 100.00 0.22
Totale 100.00
RARAPPPPRERESSEENNTATAZIZIOONNII GGRRAAFFIICCHHEE
Da una distribuzione statistica non si possono sempre cogliere con immediatezza e facilità tutte le informazioni in essa contenute.
A questo problema si può ovviare utilizzando particolari rappresentazioni grafiche, ottenute istituendo un’opportuna corrispondenza tra enti geometrici ed enti numerici.
Una rappresentazione grafica è, rispetto alla corrispondente distribuzione statistica:
Più immediata da “leggere”, interpretare, sintetizzare e memorizzare;
Meno “ricca” quanto a contenuto informativo.
Per questo è opportuno, in generale, riportare entrambe.
Le possibili rappresentazioni grafiche di una distribuzione statistica dipendono dal tipo di carattere. In linea generale è possibile rappresentare una distribuzione in un sistema di assi cartesiani ortogonali solo se il carattere è una variabile.
Gli esempi che seguono illustrano alcune delle possibili rappresentazioni grafiche di una distribuzione statistica, distinte sulla base del tipo di carattere.
26
1. Grafici a barre (a nastri e a colonne) per mutabili
Diagramma a nastri verticali o a colonne: è composto da una successione di tanti nastri (rettangoli verticali) quante sono le modalità della mutabile. I nastri sono equidistanti; la loro lunghezza è uguale o proporzionale alla frequenza della modalità corrispondente. Le frequenze sono riportate sull’asse Y.
Decessi per infortunio in 100 bambini di età compresa tra 5 e 9 anni, USA, 1980-1985.
Causa Numero di decessi
Incidente stradale 48
Annegamento 14
Incidente domestico 12
Omicidio 7
Altro 19
TOTALE 100
48
19
7 14 12
0 10 20 30 40 50 60
Incidente stradale
Annegamento Incidente domestico
Omicidio Altro
Causa del decesso
Numero di decessi
Diagramma a nastri orizzontali: è composto da una successione di tanti nastri orizzontali quante sono le modalità della mutabile. Le righe sono equidistanti; la loro lunghezza è uguale o proporzionale alla frequenza della modalità corrispondente. Le frequenze sono riportate sull’asse X.
Decessi per infortunio in 100 bambini di età compresa tra 5 e 9 anni, USA, 1980-1985.
Causa Numero di decessi
Incidente stradale 48
Annegamento 14
Incidente domestico 12
Omicidio 7
Altro 19
TOTALE 100
14 12 7
19
48
0 10 20 30 40 50 60
Incidente stradale Annegamento Incidente domestico Omicidio Altro
Causa del decesso
Numero di decessi
28
Considerazioni generali sui diagrammi a nastri.
I grafici a barre hanno un solo asse (verticale nel caso dei grafici a nastri verticali o a colonne, orizzontale nel caso dei grafici a nastri orizzontali) sul quale sono riportate le frequenze.
L’asse in questione è in scala graduata secondo l’unità di misura che si è scelta per rappresentare le frequenze. Sull’altro asse sono riportate le modalità qualitative della mutabile che per convenzione sono equidistanti.
Se la mutabile è sconnessa, le modalità possono essere riportate in un ordine qualunque; se è ordinata, le modalità vanno riportate rispettando tale ordine.
Diagramma a nastri multipli: si pongono a confronto due insiemi statistici classificati secondo il medesimo carattere. Ogni nastro viene affiancato, a scopo comparativo, al nastro che corrisponde alla medesima modalità nell’altro insieme.
Numero di suicidi (%) per classi di età e sesso – ISTAT, Anno 1995
Anni Maschi Femmine
Fino a 17 1.2 1.0
18 - 24 6.7 5.8
25 - 44 27.1 24.2
45 - 64 30.3 30.4
65 e oltre 34.7 38.6
TOTALE 100.0 100.0
0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0
Fino a 17 18 - 24 25 - 44 45 - 64 65 e oltre Età
Percentuali
Maschi Femmine
30
Diagramma a nastri suddivisi: per ogni classe della distribuzione vengono fornite due frequenze, di cui una è parte dell’altra.
Ogni nastro viene segmentato per mettere in evidenza la composizione interna di ciascuna classe.
Numero di suicidi (%) per regione e sesso - ISTAT, 1995
Regioni Maschi Femmine
Piemonte 74.0 26.0
Valle d'Aosta 80.0 20.0
Lombardia 72.3 27.7
Trentino-Alto Adige 78.9 21.1
Veneto 72.3 27.7
Friuli-Venezia Giulia 72.8 27.2
Liguria 71.4 28.6
Emilia-Romagna 74.2 25.8
Toscana 74.7 25.3
Umbria 77.4 22.6
Marche 79.6 20.4
Lazio 83.3 16.7
Abruzzo 74.9 25.1
Molise 65.5 34.5
Campania 75.4 24.6
Puglia 83.8 16.2
Basilicata 87.5 12.5
Calabria 86.6 13.4
Sicilia 67.8 32.2
Sardegna 79.1 20.9
0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0
P i e m o n t e
V a l l e
d ' A o s t a
L o m b a r d i a
T r e n t i n o -
A l t o
A d i g e
V e n e t o
F r i u l i -
V e n e z i a
G i u l i a
L i g u r i a
E m i l i a -
R o m a g n a
T o s c a n a
U m b r i a
M a r c h e
L a z i o
A b r u z z o
M o l i s e
C a m p a n i a
P u g l i a
B a s i l i c a t
a C
a l a b r i a
S i c i l i a
S a r d e g n a
Età
Percentuali
Femmine Maschi
32
Grafico a torta (areogramma circolare) per mutabili: è un diagramma circolare a settori con angoli al centro proporzionali alle frequenze delle singole modalità della mutabile. se la mutabile è ordinata, i settori devono susseguirsi rispettando tale ordine.
Con questo tipo di grafico si pone maggiormente in evidenza, rispetto ai tipi di grafici precedenti, l’importanza relativa delle frequenze delle singole modalità rispetto alla frequenza totale del carattere.
Pensioni erogate per tipo (%) – ISTAT, Anno 1995 Tipo di pensione Percentuale
Invalidità 89.7
Indennitarie 4.0
Assistenziali 6.2
Benemerenza 0.1
TOTALE 100.0
89.7
4.0 6.2 0.1 Invalidità
Indennitarie Assistenziali Benemerenza
Cartogrammi per serie geografiche - territoriali: I cartogrammi sono particolari rappresentazioni grafiche adatte alle serie territoriali.
Per la loro costruzione occorre disporre di una carta geografica in cui siano chiaramente delimitate le diverse ripartizioni geografiche (es. stati, regioni, province, …) considerate nella serie.
Cartogramma a ripartizioni colorate: Le ripartizioni geografiche sono le regioni. Il colore associato a ciascuna classe di valori cresce di intensità al crescere della frequenza. Le frequenze percentuali sono i morti per tumore ogni 100.000 abitanti.
Morti per tumore ogni 100.000 abitanti. Anno 1983 Regione Morti per tumore
Piemonte 265.6
Valle d'Aosta 257.4
Lombardia 275.3
Trentino-Alto Adige 234.1
Veneto 252.4
Friuli-Venezia Giulia 346.1
Liguria 337.8
Emilia-Romagna 307.3
Toscana 299.5
Umbria 244.9
Marche 246.9
Lazio 216.4
Abruzzi 189.3
Molise 169.7
Campania 140.6
Puglia 149.5
Basilicata 124.3
Calabria 128.0
Sicilia 149.0
Sardegna 160.0
34 Regioni italiane
300 a 347 (3) 252 a 300 (5) 216 a 252 (4) 150 a 216 (3) 124 a 150 (5)
Regioni italiane - Morti per tumore
Cartogramma a colonne (cartodiagramma): Le ripartizioni geografiche sono le regioni. Le frequenze (assolute o percentuali) sono rappresentate attraverso colonne di altezza proporzionale ai valori relativi a ciascuna regione.
Regioni italiane - Morti per tumore
36
Diagramma cartesiano a canne d’organo (ad aste, a denti di pettine): Si utilizza per distribuzioni con classi omograde.
Sull’asse X si riportano i valori puntuali della variabile;
sull’asse Y le frequenze corrispondenti. Si ottiene un insieme di m punti nel piano (m = numero di modalità della variabile). Per rendere maggiormente visibili tali punti si tracciano dei segmenti verticali congiungenti l’ascissa con il punto del piano corrispondente.
N.B.: non è corretto congiungere i punti con una spezzata poiché la variabile è discreta, e non ammette valori intermedi a quelli indicati sull’asse X .
Il grafico seguente è caratterizzato da un sistema dimetrico: questo significa che l’unità di misura degli assi X e Y è diversa (se invece coincide, allora si dirà monometrico). La scelta tutta convenzionale dell’unità di misura dei 2 assi condiziona fortemente la rappresentazione.
Famiglie italiane per numero di componenti (anno 1990)
(Fonte: ISTAT, Compendio statistico italiano, edizione 1993).
numero di componenti xi
numero di famiglie (dati in migliaia)
ni
frequenze relative fi = ni / n
1 4.106 0,2022
2 4.857 0,2393
3 4.666 0,2298
4 4.648 0,2289
5 1.542 0,0759
6 368 0,0181
7 78 0,0038
8 o più (*) 40 0,0020
20.305 1,0000
(*) si è scelto 8,5 come valore rappresentativo
F a m ig lie ita lia n e p e r n u m e r o d i c o m p o n e n ti (a n n o 1 9 9 0 )
0 5 1 0 1 5 2 0 2 5 3 0
0 1 2 3 4 5 6 7 8 9 1 0
N u m e r o d i c o m p o n e n t i
Famiglie (frequenze %)
38
Nonostante non sia corretto congiungere i punti con una spezzata, poiché la variabile è discreta e la spezzata descrive una continuità irreale, a volte può essere ugualmente d’aiuto farlo per coglie re meglio l’andamento della distribuzione. La rappresentazione grafica che si ottiene in questo caso è denominata poligono di frequenza.
F a m ig lie ita lia n e p e r n u m e r o d i c o m p o n e n ti (a n n o 1 9 9 0 )
0 5 1 0 1 5 2 0 2 5 3 0
0 1 2 3 4 5 6 7 8 9 1 0
N u m e r o d i c o m p o n e n t i
Famiglie (frequenze %)
F a m ig lie ita lia n e p e r n u m e r o d i c o m p o n e n ti (a n n o 1 9 9 0 )
0 5 10 15 20 25 30
1 2 3 4 5 6 7 8 o più
(*) N u m e r o d i c o m p o n e n t i
Famiglie (frequenze %)