Lezione 2
Una delle fasi principali di un’indagine statistica consiste nel rilevare le determinazioni assunte da una variabile X sulle n unità considerate (senza dover specificare se si tratta dell’intera popolazione o del campione).
xi indica la determinazione della X rilevata sull’i-esima unità (per i = 1, 2, …, n)
La sequenza delle n determinazioni x1, x2, …, xn rappresenta la sequenza delle osservazioni secondo l’ordine di rilevazione.
Se X è qualitativa ordinabile o quantitativa, si possono ordinare le sue determinazioni. Nelle pagine sucessive la sequenza considerata in ordine non decrescente verrà indicata con x(1), x(2), …, x(n)
Se la X è quantitativa questo ordinamento consente di individuare subito il suo intervallo di variazione (o range) che è l’intervallo delimitato dalla più piccola e dalla più grande intensità rilevata.
In simboli, il campo di variazione si indica con x = [x(1), x(n)]
Esempio:
Data la seguente sequenza di 7 valori della temperatura minima (T) rilevata in una determinata settimana
3 -2 0 2 4 4 -4
si determini la sequenza ordinata e l’intervallo di variazione della variabile T.
La sequenza ordinata è la seguente
-4 -2 0 2 3 4 4
Quando le determinazioni della variabile non sono tutte uguali fra loro, le informazioni contenute nella sequenza possono essere organizzate in una tabella.
In pratica si associa a ogni determinazione della X il numero di casi (frequenza assoluta) con cui la determinazione stessa si è manifestata.
Esempio
Data la seguente sequenza di valori relativa al numero componenti di 10 famiglie
1 1 2 3 4 5 2 2 3 3
si ottiene la tabella
X Frequenza assoluta
1 2
2 3
3 3
4 1
5 1
10
Nelle pagine successive
k indicherà il numero delle determinazioni diverse c1, …, ck le k determinazioni distinte della variabile X n1, …, nk le frequenze assolute corrispondenti.
La generica frequenza nj corrisponde quindi al numero di unità statistiche che presentano la determinazione cj (j = 1, 2, …, k).
L’intervallo di variazione (o range) è in questo caso x = [c1, ck] e nell’esempio precedente è dato da [1, 5].
Il totale n (che nella tabella precedente è pari a 10) si calcola effettuando la somma di tutte le frequenze assolute. Utilizzando l’operatore sommatoria, si ha
𝑛 = ∑ 𝑛𝑗
𝑘
𝑗=1
dove il termine a destra dell’uguaglianza si legge “somma per j che va da 1 a k delle 𝑛𝑗”.
In generale, una tabella statistica come quella ottenuta nell’esempio precedente, assume la forma seguente
X Frequenza assoluta
c1 n1
c2 n2
. .
cj nj
. .
ck nk
n
e viene chiamata distribuzione di frequenza Esempio
Data la sequenza dei giudizi espressi da 8 clienti sulla soddisfazione per la fornitura di acqua potabile
B A M M B B M M
dove B=bassa, M=Media, A=Alta, la distribuzione di frequenza assume la forma X Frequenza
B 3
M 4
A 1
8
In questo caso la prima colonna elenca in modo ordinato le diverse determinazioni e la seconda colonna le frequenze assolute rilevate per ciascuna determinazione.
L’ordinamento delle modalità nella prima colonna di una distribuzione di frequenza è arbitrario se la variabile è qualitativa sconnessa, mentre deve seguire l’ordine naturale (in modo crescente o decrescente) se la variabile è qualitativa ordinabile
Se X è quantitativa continua e la rilevazione viene effettuata con un elevato livello di precisione, i valori possono risultare anche tutti diversi fra loro, come nella sequenza successiva
1.2 1.8 2.6 3.0 3.1 3.6 3.9 4.2 4.6 5.0 5.7 7.2 7.6 8.1 8.2 9.7
In questo caso una distribuzione di frequenza costruita con il criterio seguito in precedenza darebbe origine a frequenze assolute tutte pari a 1 e la tabella sarebbe troppo lunga e priva di senso.
In queste situazioni occorre sintetizzare i dati, suddividendo il campo di variazione della variabile in intervalli contigui, che vengono detti classi.
Data la sequenza precedente, una possibile distribuzione di frequenza per classi è quella riportata di seguito
Classi di valori Frequenza assoluta
1 - 3 4
3 - 5 6
5-10 6
16
In generale, una distribuzione in classi assume la forma seguente
Classi di valori Frequenza assoluta c0 − c1 n1
c1 − c2 n2
. .
cj-1 − cj nj
. .
ck-1 − ck nk n
dove la generica classe cj-1− cj corrisponde all’intervallo (cj-1, cj] aperto a sinistra e chiuso a destra. Questo significa che la classe non contiene al suo interno l’estremo sinistro cj-1, mentre contiene l’estremo destro cj .
Va sottolineato che una distribuzione in classi non contiene più tutte le informazioni originarie in quanto non sono noti i valori esatti rilevati sulle n unità.
Si tratta quindi di un’operazione di sintesi che comporta una perdita di informazione, ma che ha il vantaggio di evidenziare la struttura distributiva della variabile. Qualsiasi elaborazione successiva andrebbe sempre effettuata sui dati originari, se ancora disponibili, per ottenere risultati esatti.
Anche se non esistono regole rigide per costruire una distribuzione in classi, è sempre necessario che tutti i valori rilevati siano contenuti in una classe e che nessuno di essi compaia in due classi diverse.
Inoltre, di solito si utilizzzano i seguenti accorgimenti:
- evitare un’eccessiva concentrazione delle unità in poche classi o un’eccessiva dispersione in troppe, per cui le classi possono avere ampiezza variabile - come estremi delle classi è opportuno utilizzare valori di uso comune, come
numeri interi o multipli di 5 o di 10.
FREQUENZE RELATIVE
Data una distribuzione di frequenza, in alcuni casi può essere conveniente associare a ciascuna determinazione cj della variabile la proporzione di unità che presentano tale determinazione, anzichè il numero delle unità.
Considerata, per esempio, una variabile X che indica il livello di gradimento di un prodotto, siano B=Basso, M=Medio e A=Alto le modalità di X. Dati due diversi prodotti (1 e 2), la tabella successiva riporta i risultati di un’indagine effettuata su due gruppi di consumatori
X Frequenza assoluta per Prodotto 1
Frequenza assoluta per Prodotto 2
B 4 7
M 10 28
A 6 15
20 50
In questo caso i confronti sul livello di gradimento dei due prodotti sono complicati dalle diverse numerosità dei due gruppi, ma questo inconveniente può essere eliminato andando a calcolare le proporzioni per i due gruppi, che si ottengono dividendo le frequenze assolute di un gruppo per la numerosità totale dello stesso gruppo
X Proporzione per Prodotto 1
Proporzione per Prodotto 2
B 4/20=0.20 7/50=0.14
M 10/20=0.50 28/50=0.56 A 6/20=0.30 15/50=0.30
1.00 1.00
In questo modo si vede che un 30% dei consumatori hanno indicato un alto livello di gradimento per entrambi i prodotti, ma il prodotto 2 sembra comunque migliore del prodotto 1, per i risultati ottenuti per i livelli di gradimento inferiori.
Le proporzioni così ottenute vengono dette frequenze relative.
La frequenza relativa 𝑓𝑗 associata alla j-esima determinazione di X (o alla j-esima classe) si ottiene dal rapporto
𝑓𝑗 = 𝑛𝑗 𝑛 per j = 1, 2, …, k
Si dimostra facilmente che la somma di tutte le frequenze relative è sempre pari a 1, dato che
∑ 𝑓𝑗
𝑘
𝑗=1
= ∑𝑛𝑗 𝑛
𝑘
𝑗=1
= 1
𝑛∑ 𝑛𝑗
𝑘
𝑗=1
=1
𝑛× 𝑛 = 1
Va notato come i diversi tipi di frequenza (assolute o relative) forniscono le stesse informazioni sulla struttura della distribuzione. Dalle frequenze assolute è sempre possibile ottenere quelle relative, mentre il passaggio inverso è possibile solo se è nota la numerosità complessiva n. Dalla formula delle frequenze relative si ottiene infatti
𝑛𝑗 = 𝑛 × 𝑓𝑗 per j = 1, 2, …, k
Esercizio
Data la seguente distribuzione espressa mediante le frequenze relative Classi Frequenze relative
-2 − 2 0.10
2 − 5 0.40
5 − 8 0.50
1.00
si vogliono ottenere le corrispondenti frequenze assolute sapendo che n=20.
La distribuzione risulta
Classi Frequenze assolute
-2 − 2 2
2 − 5 8
5 − 8 10
20
FREQUENZE CUMULATE
In numerosi casi le informazioni sulla distribuzione di una variabile vengono fornite dalle cosiddette frequenze cumulate (assolute o relative), che si ottengono dalle frequenze (assolute o relative) effettuando la loro somma progressiva.
Esempio
Data la seguente distribuzione relativa al numero di filiali presenti nel comune di Roma per 80 istituti di credito, le frequenze assolute cumulate riportate nella terza colonna si ottengono sommando progressivamente le frequenze assolute riportate nalla seconda
Classi Frequenze assolute Frequenze assolute cumulate
1 − 4 10 10
4 − 6 15 10 +15=25
6 − 10 25 25 +25=50
10 − 18 50 +18=68
20 − 12 68 +12=80
80
Come si può notare, la prima frequenza assoluta cumulata è uguale alla prima frequenza assoluta, mentre l’ultima è sempre pari a n.
I valori così calcolati indicano il numero di unità che presentano un valore della variabile inferiore o uguale alla determinazione corrispondente.
Per esempio: la frequenza cumulata pari a 50 indica che 50 istituti di credito
indica che 68 istituti di credito hanno un numero di filiali inferiore o uguale a 20 e così via.
Va sottolineato che le frequenze cumulate (assolute o relative che siano) hanno senso solo se la variabile è almeno ordinabile, in quanto negli altri casi i risultati dipenderebbero dall’ordinamento arbitrario delle modalità.
Utilizzando il simbolo di sommatoria e indicando con Nj la j-esima frequenza assoluta cumulata si ha quindi
Frequenza assoluta cumulata
𝑁𝑗 = ∑ 𝑛ℎ
𝑗 ℎ=1
per 𝑗 = 1, 2, … , 𝑘 dove
N1 = n1
Nk = n
Riprendendo l’esempio precedente è facile rendersi conto che se per una distribuzione sono note le frequenze assolute cumulate, è possibile ottenere le corrispondenti frequenze assolute, calcolando le differenze fra ciascuna frequenza assoluta cumulata e la precedente.
In simboli risulta
nj = Nj – Nj-1
Quanto detto a proposito delle frequenze assolute vale anche nel caso delle frequenze relative per cui, indicata con Fj la j-esima frequenza relativa cumulata, risulta
Frequenza relativa cumulata
𝐹𝑗 = ∑ 𝑓ℎ
𝑗 ℎ=1
per 𝑗 = 1, 2, … , 𝑘 dove
F1 = f1
Fk = 1
Anche in questo caso le frequenze relative si ottengono dalle frequenze relative cumulate mediante la differenza
fj = Fj – Fj-1
ESERCIZIO
Considerata la seguente distribuzione
X Frequenze assolute
-2 80
-1 65
0 25
1 20
2 10
200
si calcolino le frequenze relative cumulate e si indichi la proporzione di unità con un valore della variabile inferiore o uguale a zero.
Risulta
X Frequenze relative Frequenze relative cumulate
-2 0.400 0.400
-1 0.325 0.725
0 0.125 0.850
1 0.100 0.950
2 0.050 1.000
1.000