Lezione 2 Una delle fasi principali di

(1)

Lezione 2

Una delle fasi principali di un’indagine statistica consiste nel rilevare le determinazioni assunte da una variabile X sulle n unità considerate (senza dover specificare se si tratta dell’intera popolazione o del campione).

x_i indica la determinazione della X rilevata sull’i-esima unità (per i = 1, 2, …, n)

La sequenza delle n determinazioni x₁, x₂, …, x_n rappresenta la sequenza delle osservazioni secondo l’ordine di rilevazione.

Se X è qualitativa ordinabile o quantitativa, si possono ordinare le sue determinazioni. Nelle pagine sucessive la sequenza considerata in ordine non decrescente verrà indicata con x₍₁₎, x₍₂₎, …, x₍_n₎

Se la X è quantitativa questo ordinamento consente di individuare subito il suo intervallo di variazione (o range) che è l’intervallo delimitato dalla più piccola e dalla più grande intensità rilevata.

In simboli, il campo di variazione si indica con _x = [x₍₁₎, x₍_n₎]

Esempio:

Data la seguente sequenza di 7 valori della temperatura minima (T) rilevata in una determinata settimana

3 -2 0 2 4 4 -4

si determini la sequenza ordinata e l’intervallo di variazione della variabile T.

La sequenza ordinata è la seguente

-4 -2 0 2 3 4 4

(2)

Quando le determinazioni della variabile non sono tutte uguali fra loro, le informazioni contenute nella sequenza possono essere organizzate in una tabella.

In pratica si associa a ogni determinazione della X il numero di casi (frequenza assoluta) con cui la determinazione stessa si è manifestata.

Esempio

Data la seguente sequenza di valori relativa al numero componenti di 10 famiglie

1 1 2 3 4 5 2 2 3 3

si ottiene la tabella

X Frequenza assoluta

1 2

2 3

3 3

4 1

5 1

10

Nelle pagine successive

k indicherà il numero delle determinazioni diverse c₁, …, c_k le k determinazioni distinte della variabile X n₁, …, n_k le frequenze assolute corrispondenti.

La generica frequenza n_j corrisponde quindi al numero di unità statistiche che presentano la determinazione c_j (j = 1, 2, …, k).

L’intervallo di variazione (o range) è in questo caso _x = [c₁, c_k] e nell’esempio precedente è dato da [1, 5].

Il totale n (che nella tabella precedente è pari a 10) si calcola effettuando la somma di tutte le frequenze assolute. Utilizzando l’operatore sommatoria, si ha

(3)

𝑛 = ∑ 𝑛_𝑗

𝑘

𝑗=1

dove il termine a destra dell’uguaglianza si legge “somma per j che va da 1 a k delle 𝑛_𝑗”.

In generale, una tabella statistica come quella ottenuta nell’esempio precedente, assume la forma seguente

X Frequenza assoluta

c1 n1

c2 n2

. .

cj nj

. .

ck nk

n

e viene chiamata distribuzione di frequenza Esempio

Data la sequenza dei giudizi espressi da 8 clienti sulla soddisfazione per la fornitura di acqua potabile

B A M M B B M M

dove B=bassa, M=Media, A=Alta, la distribuzione di frequenza assume la forma X Frequenza

B 3

M 4

A 1

8

(4)

In questo caso la prima colonna elenca in modo ordinato le diverse determinazioni e la seconda colonna le frequenze assolute rilevate per ciascuna determinazione.

L’ordinamento delle modalità nella prima colonna di una distribuzione di frequenza è arbitrario se la variabile è qualitativa sconnessa, mentre deve seguire l’ordine naturale (in modo crescente o decrescente) se la variabile è qualitativa ordinabile

Se X è quantitativa continua e la rilevazione viene effettuata con un elevato livello di precisione, i valori possono risultare anche tutti diversi fra loro, come nella sequenza successiva

1.2 1.8 2.6 3.0 3.1 3.6 3.9 4.2 4.6 5.0 5.7 7.2 7.6 8.1 8.2 9.7

In questo caso una distribuzione di frequenza costruita con il criterio seguito in precedenza darebbe origine a frequenze assolute tutte pari a 1 e la tabella sarebbe troppo lunga e priva di senso.

In queste situazioni occorre sintetizzare i dati, suddividendo il campo di variazione della variabile in intervalli contigui, che vengono detti classi.

Data la sequenza precedente, una possibile distribuzione di frequenza per classi è quella riportata di seguito

Classi di valori Frequenza assoluta

1 - 3 4

3 - 5 6

5-10 6

16

(5)

In generale, una distribuzione in classi assume la forma seguente

Classi di valori Frequenza assoluta c₀ − c₁ n₁

c₁ − c₂ n₂

. .

c_j_-1 − c_j n_j

. .

c_k-1 − c_k n_k n

dove la generica classe c_j_-1− c_j corrisponde all’intervallo (c_j_-1, c_j] aperto a sinistra e chiuso a destra. Questo significa che la classe non contiene al suo interno l’estremo sinistro c_j_-1, mentre contiene l’estremo destro c_j.

Va sottolineato che una distribuzione in classi non contiene più tutte le informazioni originarie in quanto non sono noti i valori esatti rilevati sulle n unità.

Si tratta quindi di un’operazione di sintesi che comporta una perdita di informazione, ma che ha il vantaggio di evidenziare la struttura distributiva della variabile. Qualsiasi elaborazione successiva andrebbe sempre effettuata sui dati originari, se ancora disponibili, per ottenere risultati esatti.

Anche se non esistono regole rigide per costruire una distribuzione in classi, è sempre necessario che tutti i valori rilevati siano contenuti in una classe e che nessuno di essi compaia in due classi diverse.

Inoltre, di solito si utilizzzano i seguenti accorgimenti:

- evitare un’eccessiva concentrazione delle unità in poche classi o un’eccessiva dispersione in troppe, per cui le classi possono avere ampiezza variabile - come estremi delle classi è opportuno utilizzare valori di uso comune, come

numeri interi o multipli di 5 o di 10.

(6)

FREQUENZE RELATIVE

Data una distribuzione di frequenza, in alcuni casi può essere conveniente associare a ciascuna determinazione c_j della variabile la proporzione di unità che presentano tale determinazione, anzichè il numero delle unità.

Considerata, per esempio, una variabile X che indica il livello di gradimento di un prodotto, siano B=Basso, M=Medio e A=Alto le modalità di X. Dati due diversi prodotti (1 e 2), la tabella successiva riporta i risultati di un’indagine effettuata su due gruppi di consumatori

X Frequenza assoluta per Prodotto 1

Frequenza assoluta per Prodotto 2

B 4 7

M 10 28

A 6 15

20 50

In questo caso i confronti sul livello di gradimento dei due prodotti sono complicati dalle diverse numerosità dei due gruppi, ma questo inconveniente può essere eliminato andando a calcolare le proporzioni per i due gruppi, che si ottengono dividendo le frequenze assolute di un gruppo per la numerosità totale dello stesso gruppo

X Proporzione per Prodotto 1

Proporzione per Prodotto 2

B 4/20=0.20 7/50=0.14

M 10/20=0.50 28/50=0.56 A 6/20=0.30 15/50=0.30

1.00 1.00

In questo modo si vede che un 30% dei consumatori hanno indicato un alto livello di gradimento per entrambi i prodotti, ma il prodotto 2 sembra comunque migliore del prodotto 1, per i risultati ottenuti per i livelli di gradimento inferiori.

(7)

Le proporzioni così ottenute vengono dette frequenze relative.

La frequenza relativa 𝑓_𝑗 associata alla j-esima determinazione di X (o alla j-esima classe) si ottiene dal rapporto

𝑓_𝑗 = 𝑛_𝑗 𝑛 per j = 1, 2, …, k

Si dimostra facilmente che la somma di tutte le frequenze relative è sempre pari a 1, dato che

∑ 𝑓_𝑗

𝑘

𝑗=1

= ∑𝑛_𝑗 𝑛

𝑘

𝑗=1

= 1

𝑛∑ 𝑛_𝑗

𝑘

𝑗=1

=1

𝑛× 𝑛 = 1

Va notato come i diversi tipi di frequenza (assolute o relative) forniscono le stesse informazioni sulla struttura della distribuzione. Dalle frequenze assolute è sempre possibile ottenere quelle relative, mentre il passaggio inverso è possibile solo se è nota la numerosità complessiva n. Dalla formula delle frequenze relative si ottiene infatti

𝑛_𝑗 = 𝑛 × 𝑓_𝑗 per j = 1, 2, …, k

Esercizio

Data la seguente distribuzione espressa mediante le frequenze relative Classi Frequenze relative

-2 − 2 0.10

2 − 5 0.40

5 − 8 0.50

1.00

si vogliono ottenere le corrispondenti frequenze assolute sapendo che n=20.

(8)

La distribuzione risulta

Classi Frequenze assolute

-2 − 2 2

2 − 5 8

5 − 8 10

20

(9)

FREQUENZE CUMULATE

In numerosi casi le informazioni sulla distribuzione di una variabile vengono fornite dalle cosiddette frequenze cumulate (assolute o relative), che si ottengono dalle frequenze (assolute o relative) effettuando la loro somma progressiva.

Esempio

Data la seguente distribuzione relativa al numero di filiali presenti nel comune di Roma per 80 istituti di credito, le frequenze assolute cumulate riportate nella terza colonna si ottengono sommando progressivamente le frequenze assolute riportate nalla seconda

Classi Frequenze assolute Frequenze assolute cumulate

1 − 4 10 10

4 − 6 15 10 +15=25

6 − 10 25 25 +25=50

10 −  18 50 +18=68

20 −  12 68 +12=80

80

Come si può notare, la prima frequenza assoluta cumulata è uguale alla prima frequenza assoluta, mentre l’ultima è sempre pari a n.

I valori così calcolati indicano il numero di unità che presentano un valore della variabile inferiore o uguale alla determinazione corrispondente.

Per esempio: la frequenza cumulata pari a 50 indica che 50 istituti di credito

(10)

indica che 68 istituti di credito hanno un numero di filiali inferiore o uguale a 20 e così via.

Va sottolineato che le frequenze cumulate (assolute o relative che siano) hanno senso solo se la variabile è almeno ordinabile, in quanto negli altri casi i risultati dipenderebbero dall’ordinamento arbitrario delle modalità.

Utilizzando il simbolo di sommatoria e indicando con Nj la j-esima frequenza assoluta cumulata si ha quindi

Frequenza assoluta cumulata

𝑁_𝑗 = ∑ 𝑛_ℎ

𝑗 ℎ=1

per 𝑗 = 1, 2, … , 𝑘 dove

N1 = n1

Nk = n

Riprendendo l’esempio precedente è facile rendersi conto che se per una distribuzione sono note le frequenze assolute cumulate, è possibile ottenere le corrispondenti frequenze assolute, calcolando le differenze fra ciascuna frequenza assoluta cumulata e la precedente.

In simboli risulta

n_j = N_j – N_j_-1

Quanto detto a proposito delle frequenze assolute vale anche nel caso delle frequenze relative per cui, indicata con Fj la j-esima frequenza relativa cumulata, risulta

(11)

Frequenza relativa cumulata

𝐹_𝑗 = ∑ 𝑓_ℎ

𝑗 ℎ=1

per 𝑗 = 1, 2, … , 𝑘 dove

F1 = f1

Fk = 1

Anche in questo caso le frequenze relative si ottengono dalle frequenze relative cumulate mediante la differenza

f_j = F_j – F_j_-1

ESERCIZIO

Considerata la seguente distribuzione

X Frequenze assolute

-2 80

-1 65

0 25

1 20

2 10

200

si calcolino le frequenze relative cumulate e si indichi la proporzione di unità con un valore della variabile inferiore o uguale a zero.

Risulta

X Frequenze relative Frequenze relative cumulate

-2 0.400 0.400

-1 0.325 0.725

0 0.125 0.850

1 0.100 0.950

2 0.050 1.000

1.000