• Non ci sono risultati.

2. ORGANIZZAZIONE DEI DATI

N/A
N/A
Protected

Academic year: 2021

Condividi "2. ORGANIZZAZIONE DEI DATI"

Copied!
25
0
0

Testo completo

(1)

2. ORGANIZZAZIONE DEI DATI

2.1 Distribuzioni di frequenza

Una delle fasi principali di un’indagine statistica consiste nel rilevare le determinazioni assunte dalla variabile di interesse X su un insieme di n unità che, come si è detto nel capitolo precedente, non si ha interesse a distinguere se costituiscono l’intera popolazione oppure un campione.

Indicando con xi la determinazione della X rilevata sull’i-esima unità (con i = 1, 2, …, n), la sequenza delle n determinazioni x1, x2, …, xn rappresenta l’insieme dei dati osservati.

Se la variabile è qualitativa ordinabile o quantitativa conviene in genere elencare le osservazioni in modo da ottenere una sequenza ordinata in modo non decrescente, il cui generico elemento verrà in seguito indicato mediante il simbolo x(i), con x(i-1) x(i) x(i+1) per i = 2, 3, …, n-1. In questo modo si evidenzia la più piccola e la più grande determinazione rilevate sulle n unità statistiche.

Per una variabile quantitativa, l’intervallo avente per estremi il valore minimo x(1) e il valore massimo x(n) viene chiamato intervallo di variazione (o range) e viene usualmente indicato con x = [x(1), x(n)]

In queste osservazioni, specie se il numero n delle unità non è estremamente piccolo, non consentono di cogliere in modo immediato le caratteristiche della distribuzione della variabile X. Per sintetizzare le informazioni raccolte è opportuno associare a ogni determinazione della X il numero di casi (che viene chiamato frequenza assoluta) con cui la determinazione stessa si è manifestata.

A questo scopo, indicate con c1, …, ck le k determinazioni distinte della variabile X, in seguito si indicheranno con n1, …, nk le frequenze assolute corrispondenti.

La frequenza assoluta nj rappresenta il numero di unità statistiche che presentano la determinazione cj (j = 1, 2, …, k) della variabile in esame.

Questa semplice operazione dà luogo ad una tabella che rappresenta anche il modo in cui i dati statistici raccolti vengono usualmente presentati.

Così, per esempio, la tabella successiva riporta, per ciascun settore di attività economica, il numero corrispondente degli occupati in Italia alla data del 21 ottobre 2001.

(2)

Tabella 2.1.1

Occupati in Italia classificati a seconda dell’attività economica (fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)

Attività economica Numero di individui

Agricoltura 1153678

Industria 7028981

Commercio 3986538

Trasporti e comunicazioni 979029

Credito e assicurazioni, servizi alle imprese, noleggio 2052681

Altre attività 5792825

20993732

Sulla base di queste informazioni si osserva, per esempio, che poco più di un milione di occupati, sugli oltre 20 milioni totali, operano nel settore agricolo, mentre il numero di lavoratori nell’industria è quasi 7 volte più grande.

Nella tabella 2.1.1 le k=6 determinazioni diverse assunte dalla variabile “attività economica” sono elencate in un ordine che è evidentemente arbitrario, in quanto la variabile è di tipo qualitativo non ordinabile.

Per convenzione, invece, se la variabile X è qualitativa ordinabile o quantitativa, le k determinazioni c1, …, ck si assumono ordinate.

In una distribuzione di frequenza relativa a una variabile discreta, l’intervallo di variazione (o range) corrisponde quindi a x = [c1, ck]

Per esempio, la tabella successiva riporta i dati relativi agli occupati in Italia il 21 ottobre 2001 per quanto riguarda la variabile “grado di istruzione”. In questo caso le determinazioni sono state elencate in ordine decrescente, a partire dal titolo di studio più elevato (ma ovviamente sarebbe stato possibile anche seguire l’ordinamento opposto, a partire da “Nessun tipolo di studio”)

Tabella 2.1.2

Occupati in Italia per grado di istruzione

(fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)

Grado di istruzione Numero di individui

Laurea 2407992

Diploma universitario o terziario di tipo non universitario 397401

Diploma di scuola secondaria superiore 8284656

Licenza di scuola media inferiore o di avviamento professionale 7406981

Licenza di scuola elementare 2259960

Nessun titolo di studio 236742

20993732

(3)

In questo modo, se la variabile è di tipo quantitativo, si rileva immediatamente il valore più piccolo e il valore più grande rilevato sulle n unità statistiche.

Un esempio di sintesi dei dati relativi a una variabile discreta è riportato nella tabella 2.1.3, in cui le famiglie italiane residenti nel territorio nazionale il 21 ottobre del 2001 sono state classificate in base al numero dei suoi componenti.

Tabella 2.1.3

Famiglie residenti classificate in base al numero di componenti (fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)

Componenti Numero di famiglie

1 5409180

2 5900965

3 4703320

4 4133369

5 1263934

6 o più 367460

21778228

In questo caso l’ultima riga della tabella prima del totale riporta il numero complessivo delle famiglie composte da almeno 6 componenti, per cui non sono note le frequenze associate a ciascuno dei valori maggiori o uguali a 6. Per esempio, il numero di addetti delle aziende o il numero di sportelli bancari sono variabili che possono assumere tutti i valori interi non negativi. Il voto espresso in trentesimi ottenuto in un esame universitario è una variabile discreta che assume tutti i valori interi nell’intervallo [18, 30], mentre il voto espresso in centesimi ottenuto nell’esame di maturità è ancora una variabile discreta che questa volta assume tutti i valori interi compresi nell’intervallo [60, 100]. Esempio 2.1.1 Supponiamo che su un gruppo di 10 piantine di una certa specie siano stati rilevati i seguenti valori della variabile X “altezza”, misurata in centimetri 11.2 11.5 11.8 11.8 11.2 11.4 11.5 11.6 11.5 11.5 In questo caso il numero di determinazioni diverse assunte della X è k=5, con c1=11.2, c2=11.4, c3=11.5, c4=11.6, c5=11.8, mentre le frequenze assolute corrispondenti sono n1=2, n2=1, n3=4, n4=1, n5=2. Il campo di variazione della variabile è x = [11.2, 11.8], mentre la sintesi delle informazioni sotto forma tabellare assume la forma seguente Altezza (in cm.) Numero di piantine 11.2 2

11.4 1

11.5 4

11.6 1

(4)

Tutte le tabelle esaminate in questo paragrafo rappresentano il modo usuale in cui, in statistica, vengono organizzate e presentate le osservazioni raccolte su n unità.

Queste tabelle assumono forme diverse a seconda della natura della variabile e del numero k di determinazioni assunte dalla variabile sulle n unità statistiche, ma sono sempre costituite da 2 colonne e da k+2 righe, dove la prima riga riporta il nome della variabile e le frequenze, mentre le k righe interne sono sempre costituite da coppie del tipo

(cj, nj), per j = 1, 2, …, k. Ovviamente la somma di tutte le frequenze assolute, riportata nell’ultima riga della tabella, deve coincidere con il numero complessivo delle unità esaminate.

In simboli, deve quindi valere la seguente uguaglianza

n n

k

j j

1

2.1.1

dove il termine a sinistra indica la somma dei valori nj e va letto “sommatoria delle nj per j che va da 1 a k”.

L’insieme delle coppie (c1, n1),…,(ck, nk) costituisce la cosiddetta distribuzione di frequenza, che può essere rappresentata in una tabella in cui la prima colonna contiene le k distinte modalità o i k distinti valori della variabile X (a seconda che la X sia qualitativa o quantitativa) mentre la seconda colonna contiene le frequenze assolute corrispondenti.

Nella tabella 2.1.4 è schematizzata la distribuzione di frequenza di una generica variabile X, qualitativa o quantitativa discreta, che assume k determinazioni diverse.

Tabella 2.1.4

Rappresentazione di una distribuzione di frequenza per una variabile X

X Frequenza

c1 n1

c2 n2

. .

cj nj

. .

ck nk

n

(5)

Esempio 2.1.2

Date le seguenti osservazioni relative ai giudizi espressi da 10 clienti di una filiale bancaria relativamente alla qualità dei servizi offerti (I=insufficiente, S=sufficiente, B=buona, O=ottima)

B I S S B B I S B O la distribuzione di frequenza assume la forma

Distribuzione dei giudizi Giudizi Frequenza

I 2

S 3

B 4

O 1

10

Esempio 2.1.3

Date le seguenti osservazioni relative ai voti di statistica ottenuti dai 20 studenti promossi durante l’ultimo appello

18 22 28 20 24 23 23 24 27 30 18 20 18 23 22 27 24 25 23 26 la distribuzione di frequenza dei voti assume la forma

Distribuzione dei voti in statistica Voto Frequenza

18 3

20 2

22 2

23 4

24 3

25 1

26 1

27 2

28 1

30 1

20

Una distribuzione di frequenza è quindi una tabella in cui la prima colonna elenca (ove possibile in modo ordinato) le diverse determinazioni della variabile esaminata, mentre la seconda colonna riporta le frequenze assolute rilevate per ciascuna determinazione.

La rappresentazione della distribuzione di frequenza tramite una tabella è naturale quando le variabili esaminate sono di tipo qualitativo o quantitativo discreto perché di solito le variabili di questo tipo si estrinsecano in un numero limitato di determinazioni diverse.

Quando invece la variabile di interesse X è quantitativa continua e la rilevazione viene effettuata con un

(6)

In questo caso, per sintetizzare i dati originali, si suddivide il campo di variazione della variabile in intervalli contigui detti classi.

Per tale suddivisione è necessario specificare in quale classe cade un eventuale valore esattamente uguale ad uno degli estremi degli intervalli considerati. Le classi a cui si farà riferimento in seguito saranno generalmente aperte a sinistra e chiuse a destra per cui, per esempio, la generica classe

cj-1 cj

corrisponde all’intervallo (cj-1, cj] che contiene al suo interno tutti i valori x della variabile X che rispettano la relazione cj-1 < x  cj.

Se non sarà diversamente specificato, le k classi che verranno utilizzate in seguito saranno quindi del tipo (c0, c1], (c1, c2], …, (cj-1, cj], …,(ck-1, ck].

Analogamente a quanto visto per le distribuzioni di frequenza relative a variabili qualitative o quantitative discrete, è quindi possibile definire una distribuzione di frequenza in classi associando ad ogni classe (cj-1, cj], con j = 1, 2, …, k, la frequenza assoluta corrispondente, ovvero il numero di unità che presentano un valore compreso in quella classe.

Anche una distribuzione di frequenza in classi può essere rappresentata in una tabella, con una struttura analoga a quella seguente

Tabella 2.1.5

Rappresentazione di una distribuzione di frequenza in classi

X Frequenza

c0  c1 n1 c1  c2 n2

. .

cj-1  cj nj

. .

ck-1  ck nk n

Esempio 2.1.4

Considerati i seguenti valori della superficie coltivabile X (misurata in ettari) osservati su un gruppo di n=25 aziende agricole

16.8 0.8 1.2 17.3 2.4 3.0 24.3 20.2 25.0 4.2 5.1 6.1 31.2

27.8 7.5 33.3 8.9 38.5 10.1 45.9 60.4 81.9 14.7 12.4 10.8

la distribuzione di frequenza nelle classi (0, 5], (5, 10], (10, 20], (20, 50], (50, 100] assume la forma

(7)

Distribuzione dela superficie coltivabile Superficie Frequenza

0  5 5

5  10 4

10  20 6

20  50 8

50  100 2

25

Va osservato che una qualsiasi distribuzione in classi non contiene più tutte le informazioni originarie, dato che non si conoscono i valori esatti delle osservazioni contenute in ogni intervallo, ma solo la frequenza corrispondente. La costruzione delle classi è quindi un’operazione di sintesi che comporta necessariamente una perdita di informazione, ma nello stesso tempo consente, proprio in virtù delle approssimazioni introdotte, di comprendere meglio la struttura distributiva del carattere nella collettività esaminata.

Per questo motivo una qualsiasi elaborazione su una distribuzione in classi va effettuata sui dati originari, se ancora disponibili, per ottenere una maggiore precisione dei risultati.

Nella costruzione di una distribuzione in classi non è possibile stabilire regole valide in ogni caso per quanto riguarda il numero di intervalli da utilizzare, la loro ampiezza o i loro estremi.

I criteri con cui effettuare questa operazione di sintesi dipendono innanzitutto dal grado di approssimazione ritenuto sufficiente in una particolare situazione ma, dato che la suddivisione in classi si effettua per evidenziare la struttura distributiva della variabile, è necessario evitare sia un’eccessiva concentrazione delle unità in poche classi, sia un’eccessiva dispersione in un numero troppo elevato di intervalli.

Inoltre, in genere, si scelgono gli estremi in modo che nelle singole classi non siano addensate troppe frequenze, né troppo poche, cosicché spesso conviene costruire intervalli di ampiezza diversa a seconda dell’addensamento delle osservazioni, come nel caso dell'esempio 2.1.4 in cui l'ultima classe è quella di maggiore ampiezza a causa dell’esiguo numero di aziende agricole con una superficie coltivabile superiore a 50 ettari, mentre le prime due classi sono quelle di ampiezza minore, perché in esse cade complessivamente il 36% delle osservazioni.

Un ulteriore aspetto rilevante nella costruzione di una distribuzione sintetica è la scelta degli estremi delle classi. Anche in questo caso non esistono regole fisse ma, in generale, perché le informazioni contenute nella tabella risultino più indicative, è preferibile utilizzare i valori di uso più comune, come per esempio i numeri interi o i multipli di 5 o di 10.

Una volta fissati arbitrariamente il numero, l’ampiezza delle classi e i loro estremi, tutti i valori rilevati devono essere necessariamente contenuti nelle classi e nessuno di essi deve comparire in due classi diverse.

(8)

Esempio 2.1.5

Considerati i seguenti valori relativi a una variabile quantitativa continua X osservati su un gruppo di n=16 individui -0.5 0.2 -1.8 2.0 1.0 -1.2 4.7 3.2 3.0 2.0 1.3 4.5 0.4 0.7 0.9 1.0

la distribuzione di frequenza nelle classi (-2, 0], (0, 1], (1, 2], (2, 5] assume la forma Classi Frequenza

-2 -| 0 3

0 -| 1 6

1 -| 2 3

2 -| 5 4

16

In alcuni casi anche la distribuzione di un carattere discreto può essere in classi, soprattutto se il numero dei possibili valori diversi fra loro è elevato. Così, per esempio, nella tabella successiva è riportata la distribuzione delle abitazioni in edifici a uso abitativo a seconda del numero di abitazioni nell'edificio, così come è stata rilevata nel corso del 14° Censimento generale della popolazione e delle abitazioni effettuato dall’ISTAT. In questo caso le singole classi sono chiuse a entrambi gli estremi, per cui ciascuna di esse comprende entrambi gli estremi dell’intervallo di volta in volta considerato.

Tabella 2.1.6

Distribuzione delle abitazioni in edifici a uso abitativo per numero di abitazioni nell'edificio (fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)

Numero di abitazioni Frequenza

1 6902088

2 4560856

3 o 4 3478593

Da 5 a 8 3223761

Da 9 a 15 3117717

16 e più 5985865

27268880

Un ulteriore esempio di suddivisione in classi è riportato nella tabella seguente, relativa all’età degli italiani in cerca di prima occupazione residenti in Italia al 21 ottobre 2001.

Tabella 2.1.7

Distribuzione della popolazione residente in cerca di prima occupazione per classe di età (fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)

Classi di età Frequenza

15 – 19 180060

20 – 24 300530

25 – 29 227230

30 – 34 122404

35 – 44 100208

45 e più 32778

963210

(9)

In questo caso l’età è espressa in anni compiuti ed anche in questo caso tutte le classi considerate, tranne l’ultima, sono chiuse sia a destra sia a sinistra. L’ultima classe risulta invece aperta a destra, nel senso che non viene indicato il suo estremo superiore.

Nell’analisi statistica di una certa variabile X tutto quello che interessa conoscere è la distribuzione di frequenza della X, ossia il numero di unità che manifestano una particolare determinazione della variabile per ciascuna delle possibili determinazioni. In genere è invece del tutto irrilevante sapere su quali unità è stata rilevata una specifica determinazione.

Per esempio, tutte le informazioni statisticamente rilevanti sul carattere "tipo di edizione" per le opere pubblicate in Italia nell’anno 2005 sono quelle contenute nella successiva tabella 2.1.8, dalla quale risulta che sul totale di 59743 opere pubblicate durante quell’anno, 37694 sono quelle pubblicate in prima edizione, 3453 in un’edizione successiva e 18596 sono le ristampe.

Tabella 2.1.8

Opere pubblicate per tipo di edizione nell’anno 2005 (Fonte ISTAT) Tipo Edizione Numero di opere

Prime edizioni 37694 Edizioni successive 3453 Ristampe 18596 59743

Tutti i casi presi in esame fino a questo momento si riferiscono ad una sola variabile rilevata sulle n unità statistiche prese in esame.

In queste situazioni si parla di variabili statistiche semplici mentre le relative distribuzioni di frequenza sono dette distribuzioni univariate.

Quando invece l’interesse si riferisce a due o più variabili rilevate contemporaneamente sulle n unità, si parla di variabili statistiche multiple e di distribuzioni multivariate.

Nelle prossime pagine verranno considerate le distribuzioni del primo tipo, mentre l'esame di quelle del secondo tipo è rinviato ai capitoli successivi.

(10)

2.2 Frequenze relative e cumulate

In numerose situazioni e per motivi di vario genere, le informazioni sulla distribuzione di una variabile vengono fornite associando a ciascuna determinazione cj della variabile la proporzione, anziché il numero, di unità che presentano la determinazione cj.

In pratica, quindi, a ciascuna determinazione cj può essere associato non il valore nj, ma il rapporto fra nj e il numero totale n delle unità esaminate

. k ,..., , n j

fjnj 12 2.2.1

Questa proporzione fj viene chiamata frequenza relativa.

La somma di tutte le fj che compaiono in una distribuzione di frequenza è ovviamente sempre uguale a 1, dato che

 

k

j

k

j=

j k j

j=

j n

n n n n f n

1 1

1

1

= 1 =

=

. 2.2.2

Questo tipo di frequenze risulta particolarmente utile per confrontare due o più distribuzioni relative ad una stessa variabile quando i gruppi esaminati sono composti da un numero diverso di componenti.

Per chiarire quanto affermato, si considerino le tabelle 2.2.1a e 2.2.1b che riportano le distruzioni degli occupati di sesso maschile e femminile a seconda del settore di attività economica il 21 ottobre del 2001.

Tabella 2.2.1a

Distribuzione degli occupati di sesso maschile in Italia per attività economica (fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)

Attività economica Frequenza

Agricoltura 739903

Industria 5316779

Commercio 2298682

Trasporti e comunicazioni 780240

Credito e assicurazioni, servizi alle imprese, noleggio 1168507

Altre attività 2537860

12841971

(11)

Tabella 2.2.1b

Distribuzione degli occupati di sesso femminile in Italia per attività economica (fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)

Attività economica Frequenza

Agricoltura 413775

Industria 1712202

Commercio 1687856

Trasporti e comunicazioni 198789

Credito e assicurazioni, servizi alle imprese, noleggio 884174

Altre attività 3254965

8151761

In questo caso il confronto fra maschi e femmine non è immediato proprio a causa della diversa numerosità degli occupati dei due sessi ed è consigliabile ricorrere alle frequenze relative, che assumono i valori indicati nelle ultime due colonne della tabella 2.2.2.

Tabella 2.2.2

Distribuzione degli occupati per settore di attività economica e sesso

Attività economica Maschi Femmine

Agricoltura 0.06 0.05

Industria 0.41 0.21

Commercio 0.18 0.21

Trasporti e comunicazioni 0.06 0.02

Credito e assicurazioni, servizi alle imprese, noleggio 0.09 0.11

Altre attività 0.20 0.40

1.00 1.00

Dal confronto fra le tabelle 2.2.1a e 2.2.1b risulta, per esempio, che le donne occupate nel settore

"Commercio" sono poco meno di 1.7 milioni, contro i 2.3 milioni circa degli uomini, per cui si potrebbe concludere che le donne rappresentano il 75% circa dei maschi occupati nello stesso settore. In base alle informazioni riportate nella tabella 2.2.2 si rileva invece che la proporzione degli uomini impiegati nel

“Commercio” è pari al 18% circa del totale, mentre la proporzione delle donne è superiore al 20%: in proporzione, quindi, le donne occupate in questo settore risultano in realtà più numerose degli uomini.

Per descrivere la distribuzione di un carattere nelle pagine successive si farà riferimento alle frequenze assolute oppure alle frequenze relative, a seconda dei casi.

I diversi tipi di frequenza forniscono informazioni identiche sulla struttura della distribuzione e le considerazioni basate sulle frequenze relative valgono anche per quelle assolute e viceversa.

(12)

In base alla 2.2.1, le frequenze assolute si ottengono dalle relative semplicemente moltiplicando i valori delle fj per la numerosità complessiva n

. k ,..., , j f

n

nj   j

1 2

2.2.3

Le informazioni sulla distribuzione di una variabile qualitativa ordinata o di una variabile quantitativa possono essere espresse in un modo equivalente anche mediante le cosiddette frequenze cumulate (sia assolute, sia relative), che corrispondono alle somme progressive delle frequenze (assolute o relative) associate a ciascuna determinazione della variabile.

Considerata la j-esima determinazione cj (con cj-1< cj < cj+1) della variabile X, la frequenza assoluta cumulata corrispondente assume il valore

k j

n N

j

h h

j

1 , 2 ,...,

1

 

2.2.4

ed esprime il numero di unità che presentano una determinazione della variabile X inferiore o uguale a cj.

Si osservi che ovviamente risultano sempre verificate le seguenti uguaglianze

1

1

n

N  . n N

k

Esempio 2.2.1

Data la distribuzione di frequenza dei voti analizzata nell’esempio 2.1.3, si calcolino le frequenze assolute cumulate

Distribuzione dei voti in statistica

Voto Frequenza assoluta Frequenza assoluta cumulata

18 3 3

20 2 5

22 2 7

23 4 11

24 3 14

25 1 15

26 1 16

27 2 18

28 1 19

30 1 20

20

(13)

In questo caso i valori riportati nell’ultima colonna indicano il numero di studenti con un voto minore o uguale a ciascuno dei valori corrispondenti. Così, per esermpio, la frequenza assoluta cumulata in corrispondenza della quarta riga interna della tabella indica che 11 studenti hanno passato l’esame con un voto minore o uguale a 23.

In modo analogo, considerata la j-esima determinazione ordinata in modo non decrescente, la frequenza relativa cumulata corrispondente assume il valore

k j

f F

j

h h

j

1 , 2 ,...,

1

 

2.2.5

ed esprime la proporzione di unità statistiche che presentano una determinazione della variabile X inferiore o uguale a cj.

In questo caso risulta ovviamente

1

1

f

F

F

k

 1 .

Dalle frequenze cumulate, sia assolute sia relative, si può risalire alle corrispondenti frequenze assolute e relative attraverso le seguenti relazioni

nj = Nj – Nj-1 fj = Fj – Fj-1.

Nella successiva tabella 2.2.3, per esempio, sono indicate le frequenze relative cumulate calcolate in base ai dati della tabella 2.1.3, e i valori riportati nell’ultima colonna in corrispondenza delle determinazioni cj (per j

= 1, 2, …, k) della X indicano la proporzione di famiglie con un numero di componenti non superiore a cj.

Tabella 2.2.3

Frequenze cumulate delle famiglie in abitazione per numero di componenti Componenti Numero famiglie Frequenze relative Frequenze relative cumulate

1 5409180 0.248 0.248

2 5900965 0.271 0.519

3 4703320 0.216 0.735

4 4133369 0.190 0.925

5 1263934 0.058 0.983

6 o più 367460 0.017 1.000

(14)

Così, per esempio, 0.735 è la proporzione di famiglie con un numero di componenti inferiore o uguale a 3, mentre 0.925 è la proporzione di famiglie con un numero di componenti non superiore a 4.

Le informazioni sulla distribuzione di una variabile descritte dalle Nj o dalle Fj sono equivalenti a quelle fornite dalle nj e dalle fj dato che, come si è visto, dalle prime si possono sempre ottenere le seconde e viceversa. Così, per esempio, la proporzione di famiglie con 3 componenti corrisponde alla differenza fra 0.735 e 0.519, mentre quella delle famiglie con 2 o 3 componenti corrisponde alla differenza 0.735 – 0.248.

Nota

In alcuni casi le distribuzioni di frequenza vengono espresse mediante le cosiddette frequenze percentuali (o, più semplicemente, percentuali), che si ottengono dalle frequenze relative moltiplicandole per 100. In questo caso la somma di tutte le frequenze percentuali risulta ovviamente pari a 100.

(15)

2.3 Rappresentazioni grafiche per variabili qualitative e quantitative discrete

Le distribuzioni di frequenza possono essere rappresentate attraverso grafici che hanno lo scopo di visualizzare in modo immediato alcune caratteristiche della distribuzione della variabile di interesse. Le rappresentazioni grafiche sono un valido ausilio sia in una fase preliminare di analisi dei dati, sia in una fase finale di presentazione delle analisi stesse. Queste rappresentazioni risultano facilmente comprensibili e non richiedono conoscenze particolari, tanto che sono largamente utilizzate anche dai più comuni mezzi di comunicazione.

Nelle pagine seguenti verranno analizzati solo alcuni tipi di grafici, di uso più frequente.

La rappresentazione grafica di una distribuzione di frequenza assume forme diverse in relazione al tipo di variabile.

Un grafico molto utilizzato per rappresentare la distribuzione di una variabile qualitativa sconnessa è il cosiddetto grafico a torta, di cui si ha un esempio nella figura 2.3.1, relativa ai dati della tabella 2.2.1a.

Figura 2.3.1

Rappresentazione grafica della distribuzione degli occupati di sesso maschile in Italia per attività economica

Esistono numerosi altri tipi di grafico che potrebbero essere utilizzati al posto di quello appena esaminato e che sono anche di più semplice costruzione, ma il criterio generale adottato nella costruzione di un grafico a torta è analogo a quello utilizzato per tutti i grafici che si riferiscono a una variabile qualitativa, sia ordinabile sia non ordinabile.

Il criterio generale per la costruzione di un grafico relativo a una variabile qualitativa consiste nell’associare a ciascuna delle k diverse determinazioni della variabile un segmento o un rettangolo di lunghezza

Industria

altre attività commercio

cred., ass., serv.

imp., nol.

agricoltura

trasp. e com.

(16)

Al posto del grafico a torta si sarebbe potuto utilizzare un grafico analogo a quello riportato nella figura 2.3.2, costruito sulla base dei dati riportati nella tabella 2.1.1, in cui le determinazioni della variabile sono riportate in ascissa, mentre le altezze dei rettangoli risultano proporzionali alle frequenze assolute corrispondenti.

Figura 2.3.2

Rappresentazione grafica della distribuzione degli occupati in Italia per attività economica

In una rappresentazione dei dati di questo tipo, detta grafico a colonne (o grafico a barre), si possono utilizzare altre figure geometriche al posto dei rettangoli come, per esempio, parallelepipedi o cilindri.

Se la distribuzione della variabile fosse stata espressa mediante le frequenze relative anziché mediante le frequenze assolute, si sarebbe ottenuto un grafico praticamente identico, dato che la sola differenza sarebbe consistita in un cambio di scala sull’asse delle ordinate.

La rappresentazione grafica di una distribuzione relativa a una variabile qualitativa può essere effettuata indifferentemente sulla base delle frequenze assolute o delle frequenze relative

La variabile considerata nell'esempio è di tipo sconnesso per cui le sue determinazioni potrebbero essere riportate sulle ascisse in un ordine qualsiasi ma, per una maggiore leggibilità, è preferibile elencarle in modo che le altezze dei rettangoli siano poste in ordine decrescente, come nell’esempio considerato, oppure in ordine crescente.

La distribuzione di una variabile qualitativa sconnessa può essere illustrata anche mediante un grafico, analogo al precedente, in cui si scambiano le ascisse con le ordinate.

Questa rappresentazione, che ha evidentemente la stessa struttura del grafico a colonne e che viene quindi costruita in modo analogo, è usualmente detta grafico a nastri.

I dati della tabella 2.1.1 sono stati illustrati nuovamente, questa volta mediante il grafico riportato nella figura 2.3.3, in cui al posto di semplici rettangoli sono stati utilizzati dei parallelepipedi. Anche in questo

0 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000

Industria altre attività commercio cred., ass., serv.

imp., nol.

agricoltura trasp. e com.

occupati

attività economica

(17)

caso i parallelepipedi sono stati ordinati sulla base delle frequenze, in modo da rendere più semplici i confronti fra i diversi settori dell’attività economica degli occupati.

Figura 2.3.3

Rappresentazione grafica della distribuzione degli occupati in Italia per attività economica

La rappresentazione grafica di una variabile qualitativa sconnessa viene effettuata mediante un grafico a colonne (o un grafico a nastri) ordinando le determinazioni in modo che i rettangoli abbiano le altezze (o le basi) poste in ordine crescente o decrescente.

Se, invece, la variabile è di tipo qualitativo ordinabile, la rappresentazione grafica della sua distribuzione di frequenza può essere effettuata sempre mediante grafici a colonne o a nastri, i cui elementi vengono però posizionati in ascissa (o in ordinata) sulla base dell'ordine naturale delle determinazioni assunte dalla variabile. Si ricorda che lo stesso criterio era già stato utilizzato nella costruzione di una distribzuione di frequenza relqativa a una variabile qualitativa ordinabile.

Supponiamo per esempio che la rilevazione del grado di soddisfazione di una collettività di clienti di un supermercato riguardo alla qualità dei servizi offerti abbia fornito le informazioni riportate nella tabella successiva.

0 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000 Industria

altre attività commercio cred., ass., serv. imp., nol.

agricoltura trasp. e com.

occupati a

t t i v i t à

e c o n o m i c a

(18)

Tabella 2.3.1

Distribuzione del grado di soddisfazione Soddisfazione Frequenza relativa Insufficiente 0.25

Sufficiente 0.50

Buono 0.20

Ottimo 0.05

1.00

Il grafico a nastri corrispondente assume in questo caso la forma riportata nel grafico seguente, in cui le deeterminazioni della variabile sono state elencate in ordinata secondo un livello di soddisfazione crescente.

Figura 2.3.4

Rappresentazione grafica della distribuzione riportata nella Tabella 2.3.1

La rappresentazione grafica di una variabile qualitativa ordinabile viene effettuata mediante un grafico a colonne (o un grafico a nastri) elencando le determinazioni in ascissa (o in ordinata) secondo il loro ordine naturale, crescente o decrescente.

Nel caso in cui la distribuzione di frequenza si riferisca invece a una variabile quantitativa discreta, la sua rappresentazione grafica è effettuata mediante un diagramma ad aste, che si ottiene come un grafico a colonne sostituendo però i rettangoli che lo compongono con dei segmenti, proprio per evidemnziare che la variabile in esame assume specifici valori numerici. Anche in questo caso la scelta sul tipo di frequenze da utlizzare per determinare l’altezza dei segmenti è del tutto soggettiva.

0 0,1 0,2 0,3 0,4 0,5

I S B O

frequenze relative

modalità

(19)

Un esempio di diagramma ad aste è riportato nella figura 2.3.5 che illustra i dati della tabella 2.1.3 per le famiglie fino a 5 componenti, dato che nella tabella non è specificata la suddivisione delle frequenze fra i diversi valori della variabile maggiori o uguali a 6.

Figura 2.3.5

Rappresentazione grafica della distribuzione delle famiglie in abitazione per numero di componenti

La rappresentazione grafica di una distribuzione relativa a una variabile quantitativa discreta é un diagramma ad aste per il quale si utilizza un sistema cartesiano. I diversi valori assunti dalla variabile sono riportati sull'asse delle ascisse nella posizione determinata dalla scala di misura adottata, mentre l’altezza dei segmenti è proporzionale alla frequenza (relativa o assoluta) corrispondente.

Anche questo tipo di rappresentazione, cosi come le precedenti, consente una percezione immediata della distribuzione delle unità statistiche fra le diverse determinazioni assunte dalla variabile.

Nota

Se la distribuzione di un carattere quantitativo discreto è raggruppata in classi di valori, la distribuzione del carattere all'interno delle singole classi ovviamente non è nota e può essere valutata solo in modo approssimato.

In genere in statistica si adotta l’ipotesi di equiripartizione delle frequenze, suddividendo equamente la frequenza complessiva associata a un intervallo fra tutti i valori che la variabile potrebbe assumere all'interno di quell’intervallo.

In base all’ipotesi di equiripartizione la frequenza associata a una classe riferita a una variabile quantitativa discreta è ripartita in modo uguale fra tutti i valori che la variabile può assumere all'interno della classe stessa.

0 1000000 2000000 3000000 4000000 5000000 6000000

0 1 2 3 4 5

frequenza assoluta

componenti

(20)

8], che dalla tabella 2.1.6 risulta pari a 3223761, è stata suddivisa equamente fra i 4 valori interi compresi nella classe, ottenendo una frequenza media pari a 805940.25.

Seguendo questo criterio, le frequenze associate a ogni singolo valore assunto dalla variabile sono quelle riportate nella successiva tabella 2.3.2 (dove non sono stati indicati i dati relativi ai valori della variabile maggiori di 15, dato che l'ultima classe era aperta).

Tabella 2.3.2

Distribuzione delle abitazioni in edifici a uso abitativo per numero di abitazioni nell'edificio numero abitazioni numero valori della classe frequenza media per ogni valore

1 1 6902088.00

2 1 4560856.00

3 o 4 2 1739296.50

Da 5 a 8 4 805940.25

Da 9 a 15 7 445388.14

La frequenza complessiva associata a ogni classe di una distribuzione relativa a una variabile quantitativa discreta è divisa per il numero di determinazioni comprese in quella classe, ottenendo la cosiddetta frequenza media, che risulta costante per tutti i valori della variabile che sono compresi nella classe stessa.

Una volta adottata questa ipotesi, la distribuzione può essere quindi rappresentata mediante il grafico ad aste riportato nella figura seguente in cui a ogni valore contenuto all’interno di una certa classe è associato un segmento che ha un’altezza identica a quella dei segmenti associati agli altri valori compresi in quella stessa classe.

Figura 2.3.6

Rappresentazione grafica della distribuzione riportata nella tabella 2.3.2

In pratica, tuttavia, se i valori contenuti nelle classi sono molto numerosi, anche la distribuzione di una variabile discreta raggruppata in classi può essere rappresentata, per semplicità, mediante il grafico che si utilizza per variabili quantitative continue, che sarà analizzato in dettaglio nel paragrafo seguente.

0 1000000 2000000 3000000 4000000 5000000 6000000 7000000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

frequenza media degli edifici

numero di abitazioni

(21)

2.4 Rappresentazioni grafiche per variabili quantitative continue

Se la distribuzione in classi si riferisce a un carattere quantitativo continuo, il grafico utilizzato per illustrarla evidenzia il fatto che le frequenze non sono concentrate su singole determinazioni, ma sono diffuse su intervalli di valori.

Considerata, per esempio, la distribuzione della statura (misurata in centimetri) di una collettività di 100 individui riportata nella tabella successiva, si può affermare che la prima frequenza relativa, pari a 0.04, si riferisce a tutti i valori della variabile compresi nella prima classe; la seconda frequenza relativa, pari a 0.08, si riferisce all’intervallo di valori (150, 155] e cosi via.

Tabella 2.4.1

Distribuzione di 100 individui secondo la statura in centimetri statura Frequenza relativa

140  150 0.04

150  155 0.08

155  160 0.16

160 165 0.22

165  170 0.20

170  180 0.25

180  190 0.05

1.00

Anche in questa situazione, cosi come avveniva per una distribuzione in classi per una variabile quantitativa discreta, la distribuzione del carattere all'interno delle singole classi non è nota con esattezza, ma può essere valutata in modo approssimato utilizzando una qualche ipotesi distributiva.

Nel caso di una variabile continua si adotta in genere l'ipotesi, in un certo senso equivalente a quella di equiripartizione delle frequenze che si è analizzata nel paragrafo precedente, di distribuzione uniforme all'interno di ogni singola classe.

In base all’ipotesi di distribuzione uniforme la frequenza complessiva di una classe è ripartita sui suoi sottointervalli in maniera proporzionale alla loro ampiezza.

In base a questa ipotesi, quindi, a due qualsiasi sottointervalli di pari ampiezza é attribuita una stessa frazione della frequenza complessiva della classe, a un sottointervallo con un'ampiezza doppia dei precedenti viene attribuita una frazione di frequenza doppia e così via.

Per esempio, con riferimento ai dati della tabella 2.4.1, la frequenza associata all’intervallo (160, 162.5] è pari a 0.22/2=0.11, dato che tale sottointervallo ha una lunghezza pari alla metà della classe (160, 165], mentre all’intervallo (170, 172] è associata una frequenza pari a 0.25/5=0.05, dato che la lunghezza di questo

(22)

Nelle pagine successive si farà esplicito riferimento alle frequenze relative, perché sono quelle maggiormente utilizzate per la rappresentazione grafica di una distribuzione in classi relativa a una variabile continua, ma le stesse considerazioni valgono ovviamente anche per le frequenze assolute.

Per individuare la frazione di frequenza da attribuire a ogni possibile sottointervallo di una determinata classe di una distribuzione occorre innanzitutto calcolare il rapporto fra la frequenza complessiva associata alla classe rispetto alla sua ampiezza.

Si consideri quindi la generica j-esima classe (cj-1, cj] alla quale è associata la frequenza relativa fj e si indichi con j la sua ampiezza, pari alla differenza fra i suoi estremi

j = cj - cj-1.

Il rapporto

j j j j

j j

f c c h f



 

1 2.4.1

fra la frequenza e l'ampiezza della j-esima classe misura il grado di addensamento delle frequenze in questa classe ed è chiamato densità di frequenza.

La densità di frequenza associata a ciascun valore x di una variabile X continua, la cui distribuzione è raggruppata in classi di valori, è pari al rapporto fra la frequenza della classe che contiene x al suo interno e l’ampiezza della classe stessa.

Dalla definizione di densità di frequenza risulta quindi che tale quantità é costante all'interno di un qualsiasi sottointervallo comunque piccolo di una data classe.

Una volta calcolato il valore della 2.4.1, la frazione di frequenza attribuita a un qualsiasi sottointervallo (a, b]

che si trovi all’interno della classe è pari al prodotto della densità di frequenza della classe per l'ampiezza del sottointervallo considerato, ossia alla quantità

b a

hj  ,

da cui risulta anche che la frequenza associata a un qualsiasi valore singolo, cioè a un qualsiasi intervallo di ampiezza nulla, è sempre uguale a zero.

(23)

La frazione di frequenza corrispondente a un intervallo di estremi a e b è sempre la stessa, sia che l'intervallo sia considerato aperto a entrambi gli estremi (a, b), chiuso a entrambi gli estremi a, b, oppure aperto a un estremo e chiuso all’altro estremo (a, b oppure a, b).

L’importanza della densità di frequenza, di solito abbreviata semplicemente con il termine “densità”, è dovuta al fatto che, al crescere dell'ampiezza di un intervallo di valori, anche la frequenza corrispondente tenderà naturalmente a crescere, per cui non si possono utilizzare le frequenze (assolute o relative che siano) per confrontare intervalli di diversa ampiezza. La densità di frequenza, invece, non dipende dall’ampiezza degli intervalli e, misurando il grado di addensamento delle osservazioni all’interno di ogni intervallo, consente di individuare quelli che, a parità di ampiezza, contengono un maggior numero di osservazioni e quelli che ne contengono meno.

Dall’uguaglianza 2.4.1 risulta anche che la frequenza complessiva associata al j-esimo intervallo è pari al prodotto della densità di frequenza di quel particolare intervallo per la sua ampiezza

j j

j h

f   . 2.4.2

Data l’importanza assunta dalla densità di frequenza nel caso di distribuzioni relative a variabili quantitative continue, è evidente che tale informazione sia anche alla base della sua rappresentazione grafica, detta istogramma, che consiste infatti in un insieme di rettangoli affiancati aventi per base le singole classi e per altezza la densità di frequenza corrispondente.

Considerata la generica j-esima classe (cj-1, cj], il rettangolo corrispondente avrà quindi una base di lunghezza pari a j e un’altezza pari a hj. Il prodotto della base per l’altezza, pari all’area del rettangolo, corrisponde quindi alla frequenza complessiva associata alla classe.

Una distribuzione di frequenza per classi viene usualmente rappresentata con un istogramma, costituito da un insieme di rettangoli le cui basi, posizionate sull’asse delle ascisse, corrispondono alle classi della distribuzione, e le cui altezze sono invece proporzionali alla densità di frequenza corrispondente.

In questo modo l’area di ciascun rettangolo (data dal prodotto della base per l’altezza) risulta proporzionale alla frequenza associata alla classe stessa.

Nella successiva tabella 2.4.2 sono stati ripresi i dati della tabella 2.4.1 aggiungendo le ampiezze delle singole classi e le densità di frequenza corrispondenti, necessarie per disegnare l’istogramma riportato nella figura 2.4.1.

(24)

Tabella 2.4.2

Distribuzione di 100 individui secondo la statura in centimetri statura Frequenza relativa ampiezza delle classi densità di frequenza

140  150 0.04 10 0.004

150  155 0.08 5 0.016

155  160 0.16 5 0.032

160 165 0.22 5 0.044

165  170 0.20 5 0.040

170  180 0.25 10 0.025

180  190 0.05 10 0.005

1.00

Figura 2.4.1

Rappresentazione grafica della distribuzione di 100 individui secondo la statura

Dai risultati riportati nell’ultima colonna della tabella e dall’istogramma si può notare come la classe in cui si ha il maggior addensamento delle osservazioni è quella corrispondente all’intervallo (160, 165].

Tenendo presenti i dati riportati nella tabella 2.4.2 si possono determinare le frazioni di frequenza attribuite a qualsiasi intervallo di valori della variabile. Cosi, per esempio, la frazione di frequenza associata all'intervallo (167, 170] è pari a 0.043=0.12, quella associata all'intervallo (167, 175] è data dalla somma delle frazioni di frequenza associate ai due intervalli (167, 170] e (170, 175] ed è pari, quindi, a 0.043+0.0255=0.245 e così via.

Esempio 2.4.1

Considerata la distribuzione della popolazione italiana residente per classe di ampiezza demografica dei comuni, fino a 20.000 abitanti, riportata nella tabella successiva

0 0,01 0,02 0,03 0,04 0,05

130 140 150 160 170 180 190 200

densità

Statura

(25)

Distribuzione della popolazione residente per classe di ampiezza demografica dei comuni (fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)

Classi di ampiezza demografica Frequenza assoluta

Fino a 500 258097

501 – 1000 843374

1001 – 2000 2457057

2001 – 3000 2392333

3001 – 4000 2473123

4001 – 5000 2166744

5001 – 10000 8040885

10001 – 15000 5403935

15001 – 20000 3265182

27300730

Le informazioni necessarie per disegnare l’istogramma corrispondente sono riportatate nella tabella successiva in cui si è posto pari a zero l’estremo inferiore della prima classe e si sono moltiplicate le densità per 100, in modo da avere cifre significative a partire dal terzo decimale.

Distribuzione della popolazione residente per classe di ampiezza demografica dei comuni (fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni) classi ampiezza demografica Frequenza relativa densità×100

0 – 500 0.0095 0.0019

501 – 1000 0.0309 0.0062

1001 – 2000 0.0900 0.0090

2001 – 3000 0.0876 0.0088

3001 – 4000 0.0906 0.0091

4001 – 5000 0.0794 0.0079

5001 – 10000 0.2945 0.0059

10001 – 15000 0.1979 0.0040

15001 – 20000 0.1196 0.0024

1.0000 La rappresentazione grafica corrispondente è la seguente.

Rappresentazione grafica della distribuzione della popolazione residente per classe di ampiezza demografica dei comuni

0 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,008 0,009 0,01

0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000

densità

Riferimenti

Documenti correlati

Misure, indici (numerici) che descrivono le caratteristiche della di- stribuzione di una o pi` u variabili in modo sintetico. • indici di posizione o

 Per ottenere lo spazio occupato da una directory e tutte le sue sottodirectory è possibile utilizzare il commando du.

Corso matematica

- Confrontare i dati sperimentali con i valori teorici calcolati utilizzando una funzione di distribuzione di Poisson il cui valor medio sia quello ottenuto dai dati

Avverso la sentenza presentava ricorso l’imputato per mezzo del difensore di fiducia, e ne chiedeva l'annullamento per i seguenti motivi: a) violazione di

I dati quantitativi estratti dalle linee di fratturazione di ciascun campione sono stati successivamente utilizzati per costruire degli istogrammi; in particolare

DUE GRANDEZZE SONO DIRETTAMENTE PROPORZIONALI SE ALL’AUMENTARE DELL’UNA AUMENTA IN MODO PROPORZIONALE ANCHE

 I punti più bassi sembrano risultare più “sparsi” di I punti più bassi sembrano risultare più “sparsi” di quelli in alto e le incertezze non sono simmetriche quelli in