4
Medie
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie
Abbiamo già detto che la statistica si occupa di fornire delle sintesi delle osservazioni relative a un dato fenomeno.
Per un dato insieme di osservazioni, ci
sono diverse caratteristiche che potremmo
voler sintetizzare.
Medie
Per esempio, abbiamo già visto che di una distribuzione di frequenze si può descrivere il baricentro, la variabilità, la simmetria,...
A seconda dei nostri interessi, potremmo
occuparci di sintetizzare una o più di
queste caratteristiche.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie
Il primo e più intuitivo tipo di sintesi si ha
quando si cerca una modalità o un valore
che in qualche modo possa essere
considerato il rappresentante dell’intero
insieme di osservazioni.
Medie
Questo tipo di indici sono detti medie,
perchè possiamo pensare ad essi come a
dei «centri» che stanno in una posizione
di mezzo all’interno dell’insieme delle
nostre osservazioni.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie
Per i caratteri in scala almeno ordinale questo concetto è strettamente legato a quello del baricentro della distribuzione di frequenze.
Il baricentro è una media nel senso che
può essere considerato un indice che
sintetizza in un unico valore tutti i valori
assunti dai soggetti a cui la distribuzione
si riferisce.
Distribuzioni di frequenze per caratteri quantitativi
BARICENTRO
Le due distribuzioni sono «centrate» su valori differenti
6.5 15.5
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie
Chiaramente il concetto di media cambia a
seconda del tipo di carattere che stiamo
sintetizzando, qualitativo o quantitativo, e
della scala in cui esso è espresso.
Medie
Abbiamo due tipi di medie:
•
le medie di posizione: sono individuate osservando la distribuzione di frequenze, quindi si possono calcolare anche per i caratteri qualitativi.
•
le medie algebriche: sono individuate
attraverso i valori assunti dal carattere,
quindi si possono calcolare solo per i
caratteri quantitativi.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Data una distribuzione di frequenze, la moda è la modalità che presenta la frequenza più elevata.
Zona ni fi fi%
DOC 169 0.597 59.7%
DOCG 49 0.173 17.3%
IGT 65 0.230 23.0%
Totale 283 1.000 100.0%
Medie di posizione: moda
Attenzione: si dice che «la moda è DOC», non che «la moda è 169». La modalità DOC è scelta come rappresentante di tutte le 283 osservazioni, in quanto è quella più frequente.
Zona ni fi fi%
DOC 169 0.597 59.7%
DOCG 49 0.173 17.3%
IGT 65 0.230 23.0%
Totale 283 1.000 100.0%
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Poichè stiamo sintetizzando un’intera distribuzione in una sola modalità, è lecito chiedersi quanto questa modalità sia effettivamente in grado di rappresentare la distribuzione.
La rappresentatività della moda è data dalla frequenza relativa corrispondente.
Convenzionalmente la moda si dice
rappresentativa se rappresenta almeno il
50% delle osservazioni.
Medie di posizione: moda
La moda (DOC) rappresenta il 59.7% delle 283 osservazioni.
Si tratta di una moda rappresentativa.
Zona ni fi fi%
DOC 169 0.597 59.7%
DOCG 49 0.173 17.3%
IGT 65 0.230 23.0%
Totale 283 1.000 100.0%
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Poichè necessita solamente della
distribuzione di frequenze relative e
assolute, la moda può essere determinata
per tutti i tipi di caratteri.
Medie di posizione: moda
Per i caratteri quantitativi raggruppati in classi non possiamo individuale un valore modale, ma una classe modale.
Attenzione: la classe modale è quella con la frequenza specifica più elevata.
Chim5 ni fi fi% Di nsi
20 |- 40 mg/l 15 0.053 5.3% 20 0.75
40 |- 80 mg/l 150 0.530 53.0% 40 3.75
80 |- 100 mg/l 76 0.269 26.9% 20 3.80
100 |- 120 mg/l 32 0.113 11.3% 20 1.60
120 |- 150 mg/l 10 0.035 3.5% 30 0.33
Totale 283 1.000 100.0%
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
La classe modale è 80 |- 100 mg/l.
La rappresentatività è scarsa, infatti rappresenta solo il 26.9% delle osservazioni.
Chim5 ni fi fi% Di nsi
20 |- 40 mg/l 15 0.053 5.3% 20 0.75
40 |- 80 mg/l 150 0.530 53.0% 40 3.75
80 |- 100 mg/l 76 0.269 26.9% 20 3.80
100 |- 120 mg/l 32 0.113 11.3% 20 1.60
120 |- 150 mg/l 10 0.035 3.5% 30 0.33
Totale 283 1.000 100.0%
NO! SI!
Medie di posizione: moda
In realtà in questo caso notiamo che vi sono due frequenze specifiche molto simili tra loro. Potremmo pensare di riunirle in una classe unica.
Chim5 ni fi fi% Di nsi
20 |- 40 mg/l 15 0.053 5.3% 20 0.75
40 |- 80 mg/l 150 0.530 53.0% 40 3.75
80 |- 100 mg/l 76 0.269 26.9% 20 3.80
100 |- 120 mg/l 32 0.113 11.3% 20 1.60
120 |- 150 mg/l 10 0.035 3.5% 30 0.33
Totale 283 1.000 100.0%
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
In realtà in questo caso notiamo che vi sono due frequenze specifiche molto simili tra loro. Potremmo pensare di riunirle in una classe unica.
Chim5 ni fi fi% Di nsi
20 |- 40 mg/l 15 0.053 5.3% 20 0.75
40 |- 100 mg/l 226 0.799 79.9% 60 3.77
100 |- 120 mg/l 32 0.113 11.3% 20 1.60
120 |- 150 mg/l 10 0.035 3.5% 30 0.33
Totale 283 1.000 100.0%
Medie di posizione: moda
La classe modale è 40 |- 100 mg/l.
La rappresentatività è elevata, infatti rappresenta il 79.9% delle osservazioni.
Chim5 ni fi fi% Di nsi
20 |- 40 mg/l 15 0.053 5.3% 20 0.75
40 |- 100 mg/l 226 0.799 79.9% 60 3.77
100 |- 120 mg/l 32 0.113 11.3% 20 1.60
120 |- 150 mg/l 10 0.035 3.5% 30 0.33
Totale 283 1.000 100.0%
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Può capitare che la moda non sia unica.
Ciò accade quando vi sono due modalità
che hanno la stessa frequenza massima,
ma si può già parlare di non unicità della
moda anche se vi è una modalità con
frequenza molto vicina a quella massima,
come nell’esempio precedente.
Denominazione ni
Barbera 18
Cabernet 13
Chianti 30
Dolcetto 11
Merlot 15
Montepulciano d'Abruzzo 14
Nebbiolo 12
Nero d'Avola 14
Sangiovese 14
Valpolicella 29
Valtellina Superiore 12
Totale 182
Medie di posizione: moda
In tabella è riportata la distribuzione di
frequenze dei vini nella cantina di un
ristorante secondo la loro Denominazione.
Denominazione ni
Barbera 18
Cabernet 13
Chianti 30
Dolcetto 11
Merlot 15
Montepulciano d'Abruzzo 14
Nebbiolo 12
Nero d'Avola 14
Sangiovese 14
Valpolicella 29
Valtellina Superiore 12
Totale 182
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Osservando la distribuzione troviamo che la
moda è «Chianti», a cui è associata una
frequenza pari a 30.
Denominazione ni
Barbera 18
Cabernet 13
Chianti 30
Dolcetto 11
Merlot 15
Montepulciano d'Abruzzo 14
Nebbiolo 12
Nero d'Avola 14
Sangiovese 14
Valpolicella 29
Valtellina Superiore 12
Totale 182
Medie di posizione: moda
Tuttavia anche «Valpolicella» ha una
frequenza più elevata degli altri e molto
vicina a quella massima.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Il grafico a barre della distribuzione di
frequenze esprime bene questa presenza di
bimodalità.
Medie di posizione: moda
In questo esempio è meglio concludere che vi sono due mode, «Chianti» e
«Valpolicella», che unitamente hanno una
rappresentatività pari al 32.4%.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Vi sono casi in cui la presenza di bimodalità
può essere indice di una situazione più
complessa che richiede approfondimenti.
Medie di posizione: moda
Si svolgono alcune analisi chimiche su un
lotto di vini acquistati da un produttore,
ottenendo per il carattere «SO
2libera/SO
2totale» il seguente poligono di frequenza.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Medie di posizione: moda
In questo caso si tratta di una «bimodalità sospetta», in quanto sorge il dubbio che il lotto contenga in realtà vini non omogenei tra loro, ma appartenenti a due gruppi distinti.
Separati i vini nei due gruppi, i due poligoni
di frequenza sono unimodali.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: moda
Medie di posizione: mediana
La mediana è la modalità o il valore che
occupa la posizione centrale nell’elenco
ordinato, in senso non decrescente, delle
unità statistiche.
Medie di posizione: mediana
Si consideri la seguente tabella, relativa agli 11 vini «Dolcetto» presenti nel dataset Altroconsumo, descritti secondo tre caratteri.
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Dolcetto1 7 12.50 3.4
Dolcetto2 9 13.00 2.8
Dolcetto3 8 12.5 2.2
Dolcetto4 8 12.5 2.7
Dolcetto5 9 13 2.5
Dolcetto6 9 12.5 2.1
Dolcetto7 8 12.5 2.2
Dolcetto8 9 12 2.3
Dolcetto9 8 12 5.7
Dolcetto10 8 12.5 5.3
Dolcetto11 8 13.5 1.7
Medie di posizione: mediana
Calcoliamo la mediana del carattere Val_chim. Notiamo che:
•
si tratta di un carattere qualitativo in scala ordinale.
•
prima di tutto bisogna ordinare le 11
unità in senso non decrescente secondo
Val_chim.
Medie di posizione: mediana
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Dolcetto1 7 12.50 3.4
Dolcetto3 8 12.5 2.2
Dolcetto4 8 12.5 2.7
Dolcetto7 8 12.5 2.2
Dolcetto9 8 12 5.7
Dolcetto10 8 12.5 5.3
Dolcetto11 8 13.5 1.7
Dolcetto2 9 13.00 2.8
Dolcetto5 9 13 2.5
Dolcetto6 9 12.5 2.1
Dolcetto8 9 12 2.3
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Dolcetto1 7 12.50 3.4
Dolcetto3 8 12.5 2.2
Dolcetto4 8 12.5 2.7
Dolcetto7 8 12.5 2.2
Dolcetto9 8 12 5.7
Dolcetto10 8 12.5 5.3
Dolcetto11 8 13.5 1.7
Dolcetto2 9 13.00 2.8
Dolcetto5 9 13 2.5
Dolcetto6 9 12.5 2.1
Dolcetto8 9 12 2.3
Posizione centrale nell’elenco ordinato
5 sopra...
... 5 sotto
Medie di posizione: mediana
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Dolcetto1 7 12.50 3.4
Dolcetto3 8 12.5 2.2
Dolcetto4 8 12.5 2.7
Dolcetto7 8 12.5 2.2
Dolcetto9 8 12 5.7
Dolcetto10 8 12.5 5.3
Dolcetto11 8 13.5 1.7
Dolcetto2 9 13.00 2.8
Dolcetto5 9 13 2.5
Dolcetto6 9 12.5 2.1
Dolcetto8 9 12 2.3
Mediana
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Calcoliamo la mediana del carattere Grado.
Notiamo che:
•
si tratta di un carattere quantitativo rilevato a valori discreti.
•
prima di tutto bisogna ordinare le 11
unità in senso non decrescente secondo
Grado.
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Dolcetto9 8 12 5.7
Dolcetto8 9 12 2.3
Dolcetto1 7 12.5 3.4
Dolcetto3 8 12.5 2.2
Dolcetto4 8 12.5 2.7
Dolcetto7 8 12.5 2.2
Dolcetto10 8 12.5 5.3
Dolcetto6 9 12.5 2.1
Dolcetto2 9 13 2.8
Dolcetto5 9 13 2.5
Dolcetto11 8 13.5 1.7
Medie di posizione: mediana
Prof.ssa Paola Zuccolotto - Statistica - Medie
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Dolcetto9 8 12 5.7
Dolcetto8 9 12 2.3
Dolcetto1 7 12.5 3.4
Dolcetto3 8 12.5 2.2
Dolcetto4 8 12.5 2.7
Dolcetto7 8 12.5 2.2
Dolcetto10 8 12.5 5.3
Dolcetto6 9 12.5 2.1
Dolcetto2 9 13 2.8
Dolcetto5 9 13 2.5
Dolcetto11 8 13.5 1.7
Medie di posizione: mediana
Posizione centrale nell’elenco ordinato
5 sopra...
... 5 sotto
Medie di posizione: mediana
Un’altra definizione di mediana, la descrive come la modalità che divide l’insieme ordinato delle modalità in due gruppi di uguale numerosità.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Dolcetto9 8 12 5.7
Dolcetto8 9 12 2.3
Dolcetto1 7 12.5 3.4
Dolcetto3 8 12.5 2.2
Dolcetto4 8 12.5 2.7
Dolcetto7 8 12.5 2.2
Dolcetto10 8 12.5 5.3
Dolcetto6 9 12.5 2.1
Dolcetto2 9 13 2.8
Dolcetto5 9 13 2.5
Dolcetto11 8 13.5 1.7
Medie di posizione: mediana
Mediana
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Procedendo analogamente si verifica che la mediana del carattere Chim1 è pari a 2.5 g/l.
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Dolcetto11 8 13.5 1.7
Dolcetto6 9 12.5 2.1
Dolcetto3 8 12.5 2.2
Dolcetto7 8 12.5 2.2
Dolcetto8 9 12 2.3
Dolcetto5 9 13 2.5
Dolcetto4 8 12.5 2.7
Dolcetto2 9 13 2.8
Dolcetto1 7 12.5 3.4
Dolcetto10 8 12.5 5.3
Dolcetto9 8 12 5.7
Mediana
Medie di posizione: mediana
Notiamo che:
•
per calcolare la mediana è necessario che il carattere sia in scala almeno ordinale.
•
la posizione centrale, se il numero delle
unità è dispari, pari a N, è quella che
corrisponde a (N+1)/2
Medie di posizione: mediana
Se le unità sono in numero pari, si individuano le due unità che occupano le posizioni N/2 e N/2 + 1.
Ad esempio, vediamo la tabella relativa ai 12 vini «Valtellina Superiore».
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Valtellina_Superiore1 7 13.00 1.9
Valtellina_Superiore2 7 13.00 3.9
Valtellina_Superiore3 7 13.00 2.2
Valtellina_Superiore4 6 12.50 2.5
Valtellina_Superiore5 7 12.50 1.7
Valtellina_Superiore6 7 13.00 2.9
Valtellina_Superiore7 7 13 3.9
Valtellina_Superiore8 3 13.5 4.1
Valtellina_Superiore9 8 12.5 2.4
Valtellina_Superiore10 8 13 2.3
Valtellina_Superiore11 7 13 1.9
Valtellina_Superiore12 7 12.5 2.1
Medie di posizione: mediana
Calcoliamo le mediane dei tre caratteri Val_chim, Grado, Chim1.
Come prima, per ogni carattere, ordiniamo
le unità in senso non decrescente secondo
il carattere stesso.
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Valtellina_Superiore8 3 13.5 4.1
Valtellina_Superiore4 6 12.5 2.5
Valtellina_Superiore1 7 13 1.9
Valtellina_Superiore2 7 13 3.9
Valtellina_Superiore3 7 13 2.2
Valtellina_Superiore5 7 12.5 1.7
Valtellina_Superiore6 7 13 2.9
Valtellina_Superiore7 7 13 3.9
Valtellina_Superiore11 7 13 1.9
Valtellina_Superiore12 7 12.5 2.1
Valtellina_Superiore9 8 12.5 2.4
Valtellina_Superiore10 8 13 2.3
Medie di posizione: mediana
Posizioni centrali nell’elenco ordinato
5 sopra...
... 5 sotto
Prof.ssa Paola Zuccolotto - Statistica - Medie
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Valtellina_Superiore8 3 13.5 4.1
Valtellina_Superiore4 6 12.5 2.5
Valtellina_Superiore1 7 13 1.9
Valtellina_Superiore2 7 13 3.9
Valtellina_Superiore3 7 13 2.2
Valtellina_Superiore5 7 12.5 1.7
Valtellina_Superiore6 7 13 2.9
Valtellina_Superiore7 7 13 3.9
Valtellina_Superiore11 7 13 1.9
Valtellina_Superiore12 7 12.5 2.1
Valtellina_Superiore9 8 12.5 2.4
Valtellina_Superiore10 8 13 2.3
Medie di posizione: mediana
Mediana
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Valtellina_Superiore4 6 12.5 2.5
Valtellina_Superiore5 7 12.5 1.7
Valtellina_Superiore12 7 12.5 2.1
Valtellina_Superiore9 8 12.5 2.4
Valtellina_Superiore1 7 13 1.9
Valtellina_Superiore2 7 13 3.9
Valtellina_Superiore3 7 13 2.2
Valtellina_Superiore6 7 13 2.9
Valtellina_Superiore7 7 13 3.9
Valtellina_Superiore11 7 13 1.9
Valtellina_Superiore10 8 13 2.3
Valtellina_Superiore8 3 13.5 4.1
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Procedendo analogamente si verifica che la mediana del carattere Grado è pari al 13%
del volume...
Mediana
Denominazione Analisi tot Titolo alcolometrico (% vol)
Zuccheri riduttori (g/l)
Den Val_chim Grado Chim1
Valtellina_Superiore5 7 12.5 1.7
Valtellina_Superiore1 7 13 1.9
Valtellina_Superiore11 7 13 1.9
Valtellina_Superiore12 7 12.5 2.1
Valtellina_Superiore3 7 13 2.2
Valtellina_Superiore10 8 13 2.3
Valtellina_Superiore9 8 12.5 2.4
Valtellina_Superiore4 6 12.5 2.5
Valtellina_Superiore6 7 13 2.9
Valtellina_Superiore2 7 13 3.9
Valtellina_Superiore7 7 13 3.9
Medie di posizione: mediana
...e che la mediana del carattere Chim1 è compresa tra 2.3 e 2.4 g/l
Mediana
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Come si individua la mediana quando abbiamo a disposizione una distribuzione di frequenze?
Prima di tutto si calcola la distribuzione di frequenze relative cumulate.
La mediana corrisponde allora alla prima
modalità la cui frequenza relativa cumulata
è pari o superiore a 0.5.
Medie di posizione: mediana
Rivediamo uno degli esempi di prima.
Consideriamo la distribuzione di frequenze degli 11 vini «Dolcetto» secondo il carattere Val_chim.
Val_chim ni fi Ni Fi
7 1 0.091 1 0.091
8 6 0.545 7 0.636
9 4 0.364 11 1.000
Totale 11 1.000
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Individuiamo la prima frequenza relativa cumulata con valore uguale o superiore a 0.5. La mediana è la modalità ad essa corrispondente.
Val_chim ni fi Ni Fi
7 1 0.091 1 0.091
8 6 0.545 7 0.636
9 4 0.364 11 1.000
Totale 11 1.000
Medie di posizione: mediana
Interpretazione della mediana
•
Nel dataset analizzato, il 50% delle osservazioni ha ricevuto una valutazione chimica complessiva (Val_chim) uguale o inferiore a 8.
•
Nel dataset analizzato, il 50% delle
osservazioni ha ricevuto una valutazione
chimica complessiva (Val_chim) uguale o
superiore a 8.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Se disponiamo della distribuzione di
frequenze di un carattere quantitativo
discreto raggruppato in classi, prima di
tutto bisogna scorporare la distribuzione,
utilizzando la solita ipotesi di
equidistribuzione dei soggetti nelle classi.
Medie di posizione: mediana
Numero di trattori
posseduti dall'azienda ni
1 - 5 10
6 - 9 35
10 - 15 13
16 - 19 4
Totale aziende 62
Numero di trattori
posseduti dall'azienda ni Fi
1 2 0.032258
2 2 0.064516
3 2 0.096774
4 2 0.129032
5 2 0.16129
6 8.75 0.302419
7 8.75 0.443548
8 8.75 0.584677
9 8.75 0.725806
10 2.1667 0.760753
11 2.1667 0.795699
12 2.1667 0.830645
13 2.1667 0.865591
14 2.1667 0.900538
15 2.1667 0.935484
16 1 0.951613
17 1 0.967742
18 1 0.983871
19 1 1
Totale aziende 62
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Se disponiamo della distribuzione di
frequenze di un carattere quantitativo
raggruppato in classi, allora questa
procedura ci porta ad individuare
solamente la classe in cui si trova la
mediana.
Medie di posizione: mediana
Chim5 ni fi Ni Fi
20 |- 40 mg/l 15 0.053 15 0.053
40 |- 80 mg/l 150 0.530 165 0.583
80 |- 100 mg/l 76 0.269 241 0.852
100 |- 120 mg/l 32 0.113 273 0.965
120 |- 150 mg/l 10 0.035 283 1.000
Totale 283 1.000
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Non è possibile, se disponiamo solamente della distribuzione di frequenze, sapere con esattezza quale sia il vero valore mediano, all’interno della classe.
Possiamo solamente approssimarlo, con il
metodo dell’interpolazione (già visto nelle
scorse lezioni), ipotizzando che le unità
siano equispaziate all’interno della classe.
Medie di posizione: mediana
40 80
150 unità all’interno della classe
....
Dire che le unità sono equispaziate, significa ipotizzare che le 150 unità si distribuiscano
in modo uniforme nella classe, con
intervallini tutti di uguale ampiezza
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Valore Frequenza cumulata Estremo inferiore della classe
40 0.053
Mediana
40 + x 0.5
Estremo superiore della classe
80 0.583
Chim5 ni fi Ni Fi
20 |- 40 mg/l 15 0.053 15 0.053
40 |- 80 mg/l 150 0.530 165 0.583
80 |- 100 mg/l 76 0.269 241 0.852
100 |- 120 mg/l 32 0.113 273 0.965
120 |- 150 mg/l 10 0.035 283 1.000
Totale 283 1.000
Medie di posizione: mediana
Valore Frequenza cumulata Estremo inferiore della classe
40 0.053
Mediana
40 + x 0.5
Estremo superiore della classe
80 0.583
Impostamo ora una semplice proporzione:
(80-40):(40+x -40)=(0.583-0.053):(0.5-0.053) 40:x=0.530:0.447
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Valore Frequenza cumulata Estremo inferiore della classe
40 0.053
Mediana
40 + x 0.5
Estremo superiore della classe
80 0.583 x=40∙0.447/0.530
x=33.7358
Medie di posizione: mediana
Valore Frequenza cumulata Estremo inferiore della classe
40 0.053
Mediana
40 + x 0.5
Estremo superiore della classe
80 0.583 La mediana è pari a
40 + x = 40 + 33.7358 = 73.7358.
Medie di posizione: mediana
Interpretazione della mediana
•
Nel dataset analizzato, il 50% delle osservazioni ha un livello di SO
2totale (Chim5) uguale o inferiore a circa 73.74 mg/l.
•
Nel dataset analizzato, il 50% delle osservazioni ha un livello di SO
2totale (Chim5) uguale o superiore a circa 73.74 mg/l.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Vediamo ora un altro esempio.
Prezzo ni fi Fi
1 |- 3 € 37 0.131 0.131
3 |- 5 € 100 0.353 0.484
5 |- 7 € 62 0.219 0.703
7 |- 9 € 39 0.138 0.841
9 |- 11 € 15 0.053 0.894
11 |- 13 € 14 0.049 0.943
13 |- 15 € 12 0.042 0.986
15 |- 17 € 3 0.011 0.996
17 |- 19 € 1 0.004 1.000
Totale 283 1.000
Prezzo ni fi Fi
1 |- 3 € 37 0.131 0.131
3 |- 5 € 100 0.353 0.484
5 |- 7 € 62 0.219 0.703
. . . .
. . . .
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Valore Frequenza cumulata Estremo inferiore della classe
5 0.484
Mediana
5 + x 0.5
Estremo superiore della classe
7 0.703
Valore Frequenza cumulata Estremo inferiore della classe
5 0.484
Mediana
5 + x 0.5
Estremo superiore della classe
7 0.703
Medie di posizione: mediana
Impostamo ora la proporzione:
(7-5):(5+x -5)=(0.703-0.484):(0.5-0.484) 2:x=0.219:0.016
Valore Frequenza cumulata Estremo inferiore della classe
5 0.484
Mediana
5 + x 0.5
Estremo superiore della classe
7 0.703
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
x=2∙0.016/0.219
x = 0.1461
Valore Frequenza cumulata Estremo inferiore della classe
5 0.484
Mediana
5 + x 0.5
Estremo superiore della classe
7 0.703
Medie di posizione: mediana
La mediana è pari a
5 + x = 5 + 0.1461 = 5.1461.
Medie di posizione: mediana
Interpretazione della mediana
•
Nel dataset analizzato, il 50% delle osservazioni ha un prezzo uguale o inferiore a circa 5.15 €.
•
Nel dataset analizzato, il 50% delle osservazioni ha un prezzo uguale o superiore a circa 5.15 €.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Medie di posizione: mediana
Anche in questo caso, come è già successo
per l’istogramma e per il grafico della
distribuzione di frequenze cumulate, nel
caso di un carattere discreto in classi con
un gran numero di modalità, è possibile
effettuare il cosiddetto «aggiustamento
delle classi al continuo» ed utilizzare il
metodo di calcolo della mediana utilizzato
per i caratteri continui.
Medie di posizione: mediana
Prof.ssa Paola Zuccolotto - Statistica - Medie
Numero di bottiglie
vendute al giorno ni
1 - 20 26
21 - 30 211
31 - 40 103
41 - 60 25
Totale giorni 365
Numero di bottiglie
vendute al giorno ni
1 |- 21 26
21 |- 31 211
31 |- 41 103
41 |- 61 25
Totale giorni 365
Medie di posizione: mediana
In questo caso, però, bisogna ricordare che
il carattere analizzato è comunque discreto
quindi, una volta ottenuto il valore della
mediana, esso andrà arrotondato all’intero
inferiore.
Proprietà della mediana
Proprietà di minimo della mediana
Data una successione di N valori x
1, ... x
N, la somma dei valori assoluti dei loro scarti da una dato valore A è minima se e solo se A è la mediana Me della successione.
Me A
Me x
A
x
N1
i i
N 1
i i
- -
Prof.ssa Paola Zuccolotto - Statistica - Medie
Proprietà della mediana
Questo tipo di proprietà può essere utile a risolvere problemi sul tipo del seguente:
Un’azienda possiede 5 punti vendita, la cui dislocazione può essere considerata su un percorso pressoché rettilineo.
L’azienda possiede un unico furgone, in grado di rifornire un punto vendita per volta.
Bisogna decidere qual è la posizione migliore
in cui costruire un magazzino.
Proprietà della mediana
Prof.ssa Paola Zuccolotto - Statistica - Medie
1 2
3 4 5
Proprietà della mediana
1 2
3 4 5
Proprietà della mediana
Prof.ssa Paola Zuccolotto - Statistica - Medie
1 2 3 4 5
0 8 15 20 30
I valori indicano le distanze da un’origine, arbitrariamente scelta in corrispondenza del punto vendita 1.
x
1x
2x
3x
4x
5Proprietà della mediana
Supponiamo di dislocare il magazzino in una certa posizione che dista A dall’origine e valutiamo la lunghezza dei tratti che il
A x
2
1-
1 2 3 4 5
0 8 15 20 30
x
1x
2x
3x
4x
5Proprietà della mediana
A x
2
1-
A x
2
2-
Distanza totale percorsa:
1 2 3 4 5
0 8 15 20 30
x
1x
2x
3x
4x
5Proprietà della mediana
A x
2 A
x
2
1-
2-
A x
2
3-
Distanza totale percorsa:
1 2 3 4 5
0 8 15 20 30
x
1x
2x
3x
4x
5Proprietà della mediana
A x
2 A
x 2
A x
2
1-
2-
3-
A x
2
4-
Distanza totale percorsa:
1 2 3 4 5
0 8 15 20 30
x
1x
2x
3x
4x
5Proprietà della mediana
A x
2 A
x 2
A x
2 A
x
2
1-
2-
3-
4-
A x
2
5-
Distanza totale percorsa:
1 2 3 4 5
0 8 15 20 30
x
1x
2x
3x
4x
5Proprietà della mediana
-
-
-
-
-
-
5 1 i
i
5 4
3 2
1
A x
2
A x
2 A
x 2 A
x 2 A
x 2 A
x 2
Distanza totale percorsa:
1 2 3 4 5
0 8 15 20 30
x
1x
2x
3x
4x
5Proprietà della mediana
-
-
-
-
-
-
5 1 i
i
5 4
3 2
1
A x
2
A x
2 A
x 2 A
x 2 A
x 2 A
x 2
Distanza totale percorsa:
1 2 3 4 5
0 8 15 20 30
x
1x
2x
3x
4x
5Proprietà della mediana
La dislocazione A che minimizza la distanza totale percorsa è quella in corrispondenza della mediana dei 5 valori.
Quindi il magazzino andrà costruito accanto al punto vendita 3.
Me A
Me x
A
x
N1
i i
N 1
i i
- -
Prof.ssa Paola Zuccolotto - Statistica - Medie
Generalizzazioni della mediana
Se il carattere è quantitativo e la popolazione numerosa si possono calcolare altri indici di posizione, che sono una generalizzazione del concetto di mediana:
•
quartili
•
decili
•
percentili
Generalizzazioni della mediana
I quartili sono i 3 valori Q
1, Q
2, Q
3che dividono la successione ordinata dei valori in 4 gruppi di uguale numerosità.
I decili sono i 9 valori D
1,..., D
9che dividono la successione ordinata dei valori in 10 gruppi di uguale numerosità.
I percentili sono i 99 valori P
1,..., P
99che dividono la successione ordinata dei valori in 100 gruppi di uguale numerosità.
Prof.ssa Paola Zuccolotto - Statistica - Medie
Generalizzazioni della mediana
Vediamo alla lavagna come si calcolano quartili, decili, percentili sui dati dell’esempio visto prima.
Prezzo ni fi Fi
1 |- 3 € 37 0.131 0.131
3 |- 5 € 100 0.353 0.484
5 |- 7 € 62 0.219 0.703
7 |- 9 € 39 0.138 0.841
9 |- 11 € 15 0.053 0.894
11 |- 13 € 14 0.049 0.943
13 |- 15 € 12 0.042 0.986
15 |- 17 € 3 0.011 0.996
17 |- 19 € 1 0.004 1.000
Totale 283 1.000
Generalizzazioni della mediana
Se invece si dispone di un carattere discreto raggruppato in classi, bisogna procedere in modo analogo a quanto visto per la mediana (esplosione delle classi o aggiustamento al continuo e successivo arrotondamento del valore ottenuto).
Prof.ssa Paola Zuccolotto - Statistica - Medie
Generalizzazioni della mediana
I quartili spesso si utilizzano per produrre
un utile grafico detto box-plot, in grado di
sintetizzare una distribuzione di frequenze.
Generalizzazioni della mediana
Prof.ssa Paola Zuccolotto - Statistica - Medie
Min Q1 Me Q3 Max