• Non ci sono risultati.

Lezione 4 - Medie di posizione

N/A
N/A
Protected

Academic year: 2021

Condividi "Lezione 4 - Medie di posizione"

Copied!
93
0
0

Testo completo

(1)

4

Medie

(2)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie

Abbiamo già detto che la statistica si occupa di fornire delle sintesi delle osservazioni relative a un dato fenomeno.

Per un dato insieme di osservazioni, ci

sono diverse caratteristiche che potremmo

voler sintetizzare.

(3)

Medie

Per esempio, abbiamo già visto che di una distribuzione di frequenze si può descrivere il baricentro, la variabilità, la simmetria,...

A seconda dei nostri interessi, potremmo

occuparci di sintetizzare una o più di

queste caratteristiche.

(4)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie

Il primo e più intuitivo tipo di sintesi si ha

quando si cerca una modalità o un valore

che in qualche modo possa essere

considerato il rappresentante dell’intero

insieme di osservazioni.

(5)

Medie

Questo tipo di indici sono detti medie,

perchè possiamo pensare ad essi come a

dei «centri» che stanno in una posizione

di mezzo all’interno dell’insieme delle

nostre osservazioni.

(6)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie

Per i caratteri in scala almeno ordinale questo concetto è strettamente legato a quello del baricentro della distribuzione di frequenze.

Il baricentro è una media nel senso che

può essere considerato un indice che

sintetizza in un unico valore tutti i valori

assunti dai soggetti a cui la distribuzione

si riferisce.

(7)

Distribuzioni di frequenze per caratteri quantitativi

BARICENTRO

Le due distribuzioni sono «centrate» su valori differenti

6.5 15.5

(8)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie

Chiaramente il concetto di media cambia a

seconda del tipo di carattere che stiamo

sintetizzando, qualitativo o quantitativo, e

della scala in cui esso è espresso.

(9)

Medie

Abbiamo due tipi di medie:

le medie di posizione: sono individuate osservando la distribuzione di frequenze, quindi si possono calcolare anche per i caratteri qualitativi.

le medie algebriche: sono individuate

attraverso i valori assunti dal carattere,

quindi si possono calcolare solo per i

caratteri quantitativi.

(10)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

Data una distribuzione di frequenze, la moda è la modalità che presenta la frequenza più elevata.

Zona ni fi fi%

DOC 169 0.597 59.7%

DOCG 49 0.173 17.3%

IGT 65 0.230 23.0%

Totale 283 1.000 100.0%

(11)

Medie di posizione: moda

Attenzione: si dice che «la moda è DOC», non che «la moda è 169». La modalità DOC è scelta come rappresentante di tutte le 283 osservazioni, in quanto è quella più frequente.

Zona ni fi fi%

DOC 169 0.597 59.7%

DOCG 49 0.173 17.3%

IGT 65 0.230 23.0%

Totale 283 1.000 100.0%

(12)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

Poichè stiamo sintetizzando un’intera distribuzione in una sola modalità, è lecito chiedersi quanto questa modalità sia effettivamente in grado di rappresentare la distribuzione.

La rappresentatività della moda è data dalla frequenza relativa corrispondente.

Convenzionalmente la moda si dice

rappresentativa se rappresenta almeno il

50% delle osservazioni.

(13)

Medie di posizione: moda

La moda (DOC) rappresenta il 59.7% delle 283 osservazioni.

Si tratta di una moda rappresentativa.

Zona ni fi fi%

DOC 169 0.597 59.7%

DOCG 49 0.173 17.3%

IGT 65 0.230 23.0%

Totale 283 1.000 100.0%

(14)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

Poichè necessita solamente della

distribuzione di frequenze relative e

assolute, la moda può essere determinata

per tutti i tipi di caratteri.

(15)

Medie di posizione: moda

Per i caratteri quantitativi raggruppati in classi non possiamo individuale un valore modale, ma una classe modale.

Attenzione: la classe modale è quella con la frequenza specifica più elevata.

Chim5 ni fi fi% Di nsi

20 |- 40 mg/l 15 0.053 5.3% 20 0.75

40 |- 80 mg/l 150 0.530 53.0% 40 3.75

80 |- 100 mg/l 76 0.269 26.9% 20 3.80

100 |- 120 mg/l 32 0.113 11.3% 20 1.60

120 |- 150 mg/l 10 0.035 3.5% 30 0.33

Totale 283 1.000 100.0%

(16)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

La classe modale è 80 |- 100 mg/l.

La rappresentatività è scarsa, infatti rappresenta solo il 26.9% delle osservazioni.

Chim5 ni fi fi% Di nsi

20 |- 40 mg/l 15 0.053 5.3% 20 0.75

40 |- 80 mg/l 150 0.530 53.0% 40 3.75

80 |- 100 mg/l 76 0.269 26.9% 20 3.80

100 |- 120 mg/l 32 0.113 11.3% 20 1.60

120 |- 150 mg/l 10 0.035 3.5% 30 0.33

Totale 283 1.000 100.0%

NO! SI!

(17)

Medie di posizione: moda

In realtà in questo caso notiamo che vi sono due frequenze specifiche molto simili tra loro. Potremmo pensare di riunirle in una classe unica.

Chim5 ni fi fi% Di nsi

20 |- 40 mg/l 15 0.053 5.3% 20 0.75

40 |- 80 mg/l 150 0.530 53.0% 40 3.75

80 |- 100 mg/l 76 0.269 26.9% 20 3.80

100 |- 120 mg/l 32 0.113 11.3% 20 1.60

120 |- 150 mg/l 10 0.035 3.5% 30 0.33

Totale 283 1.000 100.0%

(18)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

In realtà in questo caso notiamo che vi sono due frequenze specifiche molto simili tra loro. Potremmo pensare di riunirle in una classe unica.

Chim5 ni fi fi% Di nsi

20 |- 40 mg/l 15 0.053 5.3% 20 0.75

40 |- 100 mg/l 226 0.799 79.9% 60 3.77

100 |- 120 mg/l 32 0.113 11.3% 20 1.60

120 |- 150 mg/l 10 0.035 3.5% 30 0.33

Totale 283 1.000 100.0%

(19)

Medie di posizione: moda

La classe modale è 40 |- 100 mg/l.

La rappresentatività è elevata, infatti rappresenta il 79.9% delle osservazioni.

Chim5 ni fi fi% Di nsi

20 |- 40 mg/l 15 0.053 5.3% 20 0.75

40 |- 100 mg/l 226 0.799 79.9% 60 3.77

100 |- 120 mg/l 32 0.113 11.3% 20 1.60

120 |- 150 mg/l 10 0.035 3.5% 30 0.33

Totale 283 1.000 100.0%

(20)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

Può capitare che la moda non sia unica.

Ciò accade quando vi sono due modalità

che hanno la stessa frequenza massima,

ma si può già parlare di non unicità della

moda anche se vi è una modalità con

frequenza molto vicina a quella massima,

come nell’esempio precedente.

(21)

Denominazione ni

Barbera 18

Cabernet 13

Chianti 30

Dolcetto 11

Merlot 15

Montepulciano d'Abruzzo 14

Nebbiolo 12

Nero d'Avola 14

Sangiovese 14

Valpolicella 29

Valtellina Superiore 12

Totale 182

Medie di posizione: moda

In tabella è riportata la distribuzione di

frequenze dei vini nella cantina di un

ristorante secondo la loro Denominazione.

(22)

Denominazione ni

Barbera 18

Cabernet 13

Chianti 30

Dolcetto 11

Merlot 15

Montepulciano d'Abruzzo 14

Nebbiolo 12

Nero d'Avola 14

Sangiovese 14

Valpolicella 29

Valtellina Superiore 12

Totale 182

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

Osservando la distribuzione troviamo che la

moda è «Chianti», a cui è associata una

frequenza pari a 30.

(23)

Denominazione ni

Barbera 18

Cabernet 13

Chianti 30

Dolcetto 11

Merlot 15

Montepulciano d'Abruzzo 14

Nebbiolo 12

Nero d'Avola 14

Sangiovese 14

Valpolicella 29

Valtellina Superiore 12

Totale 182

Medie di posizione: moda

Tuttavia anche «Valpolicella» ha una

frequenza più elevata degli altri e molto

vicina a quella massima.

(24)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

Il grafico a barre della distribuzione di

frequenze esprime bene questa presenza di

bimodalità.

(25)

Medie di posizione: moda

In questo esempio è meglio concludere che vi sono due mode, «Chianti» e

«Valpolicella», che unitamente hanno una

rappresentatività pari al 32.4%.

(26)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

Vi sono casi in cui la presenza di bimodalità

può essere indice di una situazione più

complessa che richiede approfondimenti.

(27)

Medie di posizione: moda

Si svolgono alcune analisi chimiche su un

lotto di vini acquistati da un produttore,

ottenendo per il carattere «SO

2

libera/SO

2

totale» il seguente poligono di frequenza.

(28)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

(29)

Medie di posizione: moda

In questo caso si tratta di una «bimodalità sospetta», in quanto sorge il dubbio che il lotto contenga in realtà vini non omogenei tra loro, ma appartenenti a due gruppi distinti.

Separati i vini nei due gruppi, i due poligoni

di frequenza sono unimodali.

(30)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: moda

(31)

Medie di posizione: mediana

La mediana è la modalità o il valore che

occupa la posizione centrale nell’elenco

ordinato, in senso non decrescente, delle

unità statistiche.

(32)

Medie di posizione: mediana

Si consideri la seguente tabella, relativa agli 11 vini «Dolcetto» presenti nel dataset Altroconsumo, descritti secondo tre caratteri.

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Dolcetto1 7 12.50 3.4

Dolcetto2 9 13.00 2.8

Dolcetto3 8 12.5 2.2

Dolcetto4 8 12.5 2.7

Dolcetto5 9 13 2.5

Dolcetto6 9 12.5 2.1

Dolcetto7 8 12.5 2.2

Dolcetto8 9 12 2.3

Dolcetto9 8 12 5.7

Dolcetto10 8 12.5 5.3

Dolcetto11 8 13.5 1.7

(33)

Medie di posizione: mediana

Calcoliamo la mediana del carattere Val_chim. Notiamo che:

si tratta di un carattere qualitativo in scala ordinale.

prima di tutto bisogna ordinare le 11

unità in senso non decrescente secondo

Val_chim.

(34)

Medie di posizione: mediana

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Dolcetto1 7 12.50 3.4

Dolcetto3 8 12.5 2.2

Dolcetto4 8 12.5 2.7

Dolcetto7 8 12.5 2.2

Dolcetto9 8 12 5.7

Dolcetto10 8 12.5 5.3

Dolcetto11 8 13.5 1.7

Dolcetto2 9 13.00 2.8

Dolcetto5 9 13 2.5

Dolcetto6 9 12.5 2.1

Dolcetto8 9 12 2.3

Prof.ssa Paola Zuccolotto - Statistica - Medie

(35)

Medie di posizione: mediana

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Dolcetto1 7 12.50 3.4

Dolcetto3 8 12.5 2.2

Dolcetto4 8 12.5 2.7

Dolcetto7 8 12.5 2.2

Dolcetto9 8 12 5.7

Dolcetto10 8 12.5 5.3

Dolcetto11 8 13.5 1.7

Dolcetto2 9 13.00 2.8

Dolcetto5 9 13 2.5

Dolcetto6 9 12.5 2.1

Dolcetto8 9 12 2.3

Posizione centrale nell’elenco ordinato

5 sopra...

... 5 sotto

(36)

Medie di posizione: mediana

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Dolcetto1 7 12.50 3.4

Dolcetto3 8 12.5 2.2

Dolcetto4 8 12.5 2.7

Dolcetto7 8 12.5 2.2

Dolcetto9 8 12 5.7

Dolcetto10 8 12.5 5.3

Dolcetto11 8 13.5 1.7

Dolcetto2 9 13.00 2.8

Dolcetto5 9 13 2.5

Dolcetto6 9 12.5 2.1

Dolcetto8 9 12 2.3

Mediana

Prof.ssa Paola Zuccolotto - Statistica - Medie

(37)

Medie di posizione: mediana

Calcoliamo la mediana del carattere Grado.

Notiamo che:

si tratta di un carattere quantitativo rilevato a valori discreti.

prima di tutto bisogna ordinare le 11

unità in senso non decrescente secondo

Grado.

(38)

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Dolcetto9 8 12 5.7

Dolcetto8 9 12 2.3

Dolcetto1 7 12.5 3.4

Dolcetto3 8 12.5 2.2

Dolcetto4 8 12.5 2.7

Dolcetto7 8 12.5 2.2

Dolcetto10 8 12.5 5.3

Dolcetto6 9 12.5 2.1

Dolcetto2 9 13 2.8

Dolcetto5 9 13 2.5

Dolcetto11 8 13.5 1.7

Medie di posizione: mediana

Prof.ssa Paola Zuccolotto - Statistica - Medie

(39)

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Dolcetto9 8 12 5.7

Dolcetto8 9 12 2.3

Dolcetto1 7 12.5 3.4

Dolcetto3 8 12.5 2.2

Dolcetto4 8 12.5 2.7

Dolcetto7 8 12.5 2.2

Dolcetto10 8 12.5 5.3

Dolcetto6 9 12.5 2.1

Dolcetto2 9 13 2.8

Dolcetto5 9 13 2.5

Dolcetto11 8 13.5 1.7

Medie di posizione: mediana

Posizione centrale nell’elenco ordinato

5 sopra...

... 5 sotto

(40)

Medie di posizione: mediana

Un’altra definizione di mediana, la descrive come la modalità che divide l’insieme ordinato delle modalità in due gruppi di uguale numerosità.

Prof.ssa Paola Zuccolotto - Statistica - Medie

(41)

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Dolcetto9 8 12 5.7

Dolcetto8 9 12 2.3

Dolcetto1 7 12.5 3.4

Dolcetto3 8 12.5 2.2

Dolcetto4 8 12.5 2.7

Dolcetto7 8 12.5 2.2

Dolcetto10 8 12.5 5.3

Dolcetto6 9 12.5 2.1

Dolcetto2 9 13 2.8

Dolcetto5 9 13 2.5

Dolcetto11 8 13.5 1.7

Medie di posizione: mediana

Mediana

(42)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Procedendo analogamente si verifica che la mediana del carattere Chim1 è pari a 2.5 g/l.

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Dolcetto11 8 13.5 1.7

Dolcetto6 9 12.5 2.1

Dolcetto3 8 12.5 2.2

Dolcetto7 8 12.5 2.2

Dolcetto8 9 12 2.3

Dolcetto5 9 13 2.5

Dolcetto4 8 12.5 2.7

Dolcetto2 9 13 2.8

Dolcetto1 7 12.5 3.4

Dolcetto10 8 12.5 5.3

Dolcetto9 8 12 5.7

Mediana

(43)

Medie di posizione: mediana

Notiamo che:

per calcolare la mediana è necessario che il carattere sia in scala almeno ordinale.

la posizione centrale, se il numero delle

unità è dispari, pari a N, è quella che

corrisponde a (N+1)/2

(44)

Medie di posizione: mediana

Se le unità sono in numero pari, si individuano le due unità che occupano le posizioni N/2 e N/2 + 1.

Ad esempio, vediamo la tabella relativa ai 12 vini «Valtellina Superiore».

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Valtellina_Superiore1 7 13.00 1.9

Valtellina_Superiore2 7 13.00 3.9

Valtellina_Superiore3 7 13.00 2.2

Valtellina_Superiore4 6 12.50 2.5

Valtellina_Superiore5 7 12.50 1.7

Valtellina_Superiore6 7 13.00 2.9

Valtellina_Superiore7 7 13 3.9

Valtellina_Superiore8 3 13.5 4.1

Valtellina_Superiore9 8 12.5 2.4

Valtellina_Superiore10 8 13 2.3

Valtellina_Superiore11 7 13 1.9

Valtellina_Superiore12 7 12.5 2.1

(45)

Medie di posizione: mediana

Calcoliamo le mediane dei tre caratteri Val_chim, Grado, Chim1.

Come prima, per ogni carattere, ordiniamo

le unità in senso non decrescente secondo

il carattere stesso.

(46)

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Valtellina_Superiore8 3 13.5 4.1

Valtellina_Superiore4 6 12.5 2.5

Valtellina_Superiore1 7 13 1.9

Valtellina_Superiore2 7 13 3.9

Valtellina_Superiore3 7 13 2.2

Valtellina_Superiore5 7 12.5 1.7

Valtellina_Superiore6 7 13 2.9

Valtellina_Superiore7 7 13 3.9

Valtellina_Superiore11 7 13 1.9

Valtellina_Superiore12 7 12.5 2.1

Valtellina_Superiore9 8 12.5 2.4

Valtellina_Superiore10 8 13 2.3

Medie di posizione: mediana

Posizioni centrali nell’elenco ordinato

5 sopra...

... 5 sotto

Prof.ssa Paola Zuccolotto - Statistica - Medie

(47)

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Valtellina_Superiore8 3 13.5 4.1

Valtellina_Superiore4 6 12.5 2.5

Valtellina_Superiore1 7 13 1.9

Valtellina_Superiore2 7 13 3.9

Valtellina_Superiore3 7 13 2.2

Valtellina_Superiore5 7 12.5 1.7

Valtellina_Superiore6 7 13 2.9

Valtellina_Superiore7 7 13 3.9

Valtellina_Superiore11 7 13 1.9

Valtellina_Superiore12 7 12.5 2.1

Valtellina_Superiore9 8 12.5 2.4

Valtellina_Superiore10 8 13 2.3

Medie di posizione: mediana

Mediana

(48)

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Valtellina_Superiore4 6 12.5 2.5

Valtellina_Superiore5 7 12.5 1.7

Valtellina_Superiore12 7 12.5 2.1

Valtellina_Superiore9 8 12.5 2.4

Valtellina_Superiore1 7 13 1.9

Valtellina_Superiore2 7 13 3.9

Valtellina_Superiore3 7 13 2.2

Valtellina_Superiore6 7 13 2.9

Valtellina_Superiore7 7 13 3.9

Valtellina_Superiore11 7 13 1.9

Valtellina_Superiore10 8 13 2.3

Valtellina_Superiore8 3 13.5 4.1

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Procedendo analogamente si verifica che la mediana del carattere Grado è pari al 13%

del volume...

Mediana

(49)

Denominazione Analisi tot Titolo alcolometrico (% vol)

Zuccheri riduttori (g/l)

Den Val_chim Grado Chim1

Valtellina_Superiore5 7 12.5 1.7

Valtellina_Superiore1 7 13 1.9

Valtellina_Superiore11 7 13 1.9

Valtellina_Superiore12 7 12.5 2.1

Valtellina_Superiore3 7 13 2.2

Valtellina_Superiore10 8 13 2.3

Valtellina_Superiore9 8 12.5 2.4

Valtellina_Superiore4 6 12.5 2.5

Valtellina_Superiore6 7 13 2.9

Valtellina_Superiore2 7 13 3.9

Valtellina_Superiore7 7 13 3.9

Medie di posizione: mediana

...e che la mediana del carattere Chim1 è compresa tra 2.3 e 2.4 g/l

Mediana

(50)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Come si individua la mediana quando abbiamo a disposizione una distribuzione di frequenze?

Prima di tutto si calcola la distribuzione di frequenze relative cumulate.

La mediana corrisponde allora alla prima

modalità la cui frequenza relativa cumulata

è pari o superiore a 0.5.

(51)

Medie di posizione: mediana

Rivediamo uno degli esempi di prima.

Consideriamo la distribuzione di frequenze degli 11 vini «Dolcetto» secondo il carattere Val_chim.

Val_chim ni fi Ni Fi

7 1 0.091 1 0.091

8 6 0.545 7 0.636

9 4 0.364 11 1.000

Totale 11 1.000

(52)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Individuiamo la prima frequenza relativa cumulata con valore uguale o superiore a 0.5. La mediana è la modalità ad essa corrispondente.

Val_chim ni fi Ni Fi

7 1 0.091 1 0.091

8 6 0.545 7 0.636

9 4 0.364 11 1.000

Totale 11 1.000

(53)

Medie di posizione: mediana

Interpretazione della mediana

Nel dataset analizzato, il 50% delle osservazioni ha ricevuto una valutazione chimica complessiva (Val_chim) uguale o inferiore a 8.

Nel dataset analizzato, il 50% delle

osservazioni ha ricevuto una valutazione

chimica complessiva (Val_chim) uguale o

superiore a 8.

(54)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Se disponiamo della distribuzione di

frequenze di un carattere quantitativo

discreto raggruppato in classi, prima di

tutto bisogna scorporare la distribuzione,

utilizzando la solita ipotesi di

equidistribuzione dei soggetti nelle classi.

(55)

Medie di posizione: mediana

Numero di trattori

posseduti dall'azienda ni

1 - 5 10

6 - 9 35

10 - 15 13

16 - 19 4

Totale aziende 62

Numero di trattori

posseduti dall'azienda ni Fi

1 2 0.032258

2 2 0.064516

3 2 0.096774

4 2 0.129032

5 2 0.16129

6 8.75 0.302419

7 8.75 0.443548

8 8.75 0.584677

9 8.75 0.725806

10 2.1667 0.760753

11 2.1667 0.795699

12 2.1667 0.830645

13 2.1667 0.865591

14 2.1667 0.900538

15 2.1667 0.935484

16 1 0.951613

17 1 0.967742

18 1 0.983871

19 1 1

Totale aziende 62

(56)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Se disponiamo della distribuzione di

frequenze di un carattere quantitativo

raggruppato in classi, allora questa

procedura ci porta ad individuare

solamente la classe in cui si trova la

mediana.

(57)

Medie di posizione: mediana

Chim5 ni fi Ni Fi

20 |- 40 mg/l 15 0.053 15 0.053

40 |- 80 mg/l 150 0.530 165 0.583

80 |- 100 mg/l 76 0.269 241 0.852

100 |- 120 mg/l 32 0.113 273 0.965

120 |- 150 mg/l 10 0.035 283 1.000

Totale 283 1.000

(58)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Non è possibile, se disponiamo solamente della distribuzione di frequenze, sapere con esattezza quale sia il vero valore mediano, all’interno della classe.

Possiamo solamente approssimarlo, con il

metodo dell’interpolazione (già visto nelle

scorse lezioni), ipotizzando che le unità

siano equispaziate all’interno della classe.

(59)

Medie di posizione: mediana

40 80

150 unità all’interno della classe

....

Dire che le unità sono equispaziate, significa ipotizzare che le 150 unità si distribuiscano

in modo uniforme nella classe, con

intervallini tutti di uguale ampiezza

(60)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Valore Frequenza cumulata Estremo inferiore della classe

40 0.053

Mediana

40 + x 0.5

Estremo superiore della classe

80 0.583

Chim5 ni fi Ni Fi

20 |- 40 mg/l 15 0.053 15 0.053

40 |- 80 mg/l 150 0.530 165 0.583

80 |- 100 mg/l 76 0.269 241 0.852

100 |- 120 mg/l 32 0.113 273 0.965

120 |- 150 mg/l 10 0.035 283 1.000

Totale 283 1.000

(61)

Medie di posizione: mediana

Valore Frequenza cumulata Estremo inferiore della classe

40 0.053

Mediana

40 + x 0.5

Estremo superiore della classe

80 0.583

Impostamo ora una semplice proporzione:

(80-40):(40+x -40)=(0.583-0.053):(0.5-0.053) 40:x=0.530:0.447

(62)

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Valore Frequenza cumulata Estremo inferiore della classe

40 0.053

Mediana

40 + x 0.5

Estremo superiore della classe

80 0.583 x=40∙0.447/0.530

x=33.7358

(63)

Medie di posizione: mediana

Valore Frequenza cumulata Estremo inferiore della classe

40 0.053

Mediana

40 + x 0.5

Estremo superiore della classe

80 0.583 La mediana è pari a

40 + x = 40 + 33.7358 = 73.7358.

(64)

Medie di posizione: mediana

Interpretazione della mediana

Nel dataset analizzato, il 50% delle osservazioni ha un livello di SO

2

totale (Chim5) uguale o inferiore a circa 73.74 mg/l.

Nel dataset analizzato, il 50% delle osservazioni ha un livello di SO

2

totale (Chim5) uguale o superiore a circa 73.74 mg/l.

Prof.ssa Paola Zuccolotto - Statistica - Medie

(65)

Medie di posizione: mediana

Vediamo ora un altro esempio.

Prezzo ni fi Fi

1 |- 3 € 37 0.131 0.131

3 |- 5 € 100 0.353 0.484

5 |- 7 € 62 0.219 0.703

7 |- 9 € 39 0.138 0.841

9 |- 11 € 15 0.053 0.894

11 |- 13 € 14 0.049 0.943

13 |- 15 € 12 0.042 0.986

15 |- 17 € 3 0.011 0.996

17 |- 19 € 1 0.004 1.000

Totale 283 1.000

(66)

Prezzo ni fi Fi

1 |- 3 € 37 0.131 0.131

3 |- 5 € 100 0.353 0.484

5 |- 7 € 62 0.219 0.703

. . . .

. . . .

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

Valore Frequenza cumulata Estremo inferiore della classe

5 0.484

Mediana

5 + x 0.5

Estremo superiore della classe

7 0.703

(67)

Valore Frequenza cumulata Estremo inferiore della classe

5 0.484

Mediana

5 + x 0.5

Estremo superiore della classe

7 0.703

Medie di posizione: mediana

Impostamo ora la proporzione:

(7-5):(5+x -5)=(0.703-0.484):(0.5-0.484) 2:x=0.219:0.016

(68)

Valore Frequenza cumulata Estremo inferiore della classe

5 0.484

Mediana

5 + x 0.5

Estremo superiore della classe

7 0.703

Prof.ssa Paola Zuccolotto - Statistica - Medie

Medie di posizione: mediana

x=2∙0.016/0.219

x = 0.1461

(69)

Valore Frequenza cumulata Estremo inferiore della classe

5 0.484

Mediana

5 + x 0.5

Estremo superiore della classe

7 0.703

Medie di posizione: mediana

La mediana è pari a

5 + x = 5 + 0.1461 = 5.1461.

(70)

Medie di posizione: mediana

Interpretazione della mediana

Nel dataset analizzato, il 50% delle osservazioni ha un prezzo uguale o inferiore a circa 5.15 €.

Nel dataset analizzato, il 50% delle osservazioni ha un prezzo uguale o superiore a circa 5.15 €.

Prof.ssa Paola Zuccolotto - Statistica - Medie

(71)

Medie di posizione: mediana

Anche in questo caso, come è già successo

per l’istogramma e per il grafico della

distribuzione di frequenze cumulate, nel

caso di un carattere discreto in classi con

un gran numero di modalità, è possibile

effettuare il cosiddetto «aggiustamento

delle classi al continuo» ed utilizzare il

metodo di calcolo della mediana utilizzato

per i caratteri continui.

(72)

Medie di posizione: mediana

Prof.ssa Paola Zuccolotto - Statistica - Medie

Numero di bottiglie

vendute al giorno ni

1 - 20 26

21 - 30 211

31 - 40 103

41 - 60 25

Totale giorni 365

Numero di bottiglie

vendute al giorno ni

1 |- 21 26

21 |- 31 211

31 |- 41 103

41 |- 61 25

Totale giorni 365

(73)

Medie di posizione: mediana

In questo caso, però, bisogna ricordare che

il carattere analizzato è comunque discreto

quindi, una volta ottenuto il valore della

mediana, esso andrà arrotondato all’intero

inferiore.

(74)

Proprietà della mediana

Proprietà di minimo della mediana

Data una successione di N valori x

1

, ... x

N

, la somma dei valori assoluti dei loro scarti da una dato valore A è minima se e solo se A è la mediana Me della successione.

Me A

Me x

A

x

N

1

i i

N 1

i i

-   -  

Prof.ssa Paola Zuccolotto - Statistica - Medie

(75)

Proprietà della mediana

Questo tipo di proprietà può essere utile a risolvere problemi sul tipo del seguente:

Un’azienda possiede 5 punti vendita, la cui dislocazione può essere considerata su un percorso pressoché rettilineo.

L’azienda possiede un unico furgone, in grado di rifornire un punto vendita per volta.

Bisogna decidere qual è la posizione migliore

in cui costruire un magazzino.

(76)

Proprietà della mediana

Prof.ssa Paola Zuccolotto - Statistica - Medie

1 2

3 4 5

(77)

Proprietà della mediana

1 2

3 4 5

(78)

Proprietà della mediana

Prof.ssa Paola Zuccolotto - Statistica - Medie

1 2 3 4 5

0 8 15 20 30

I valori indicano le distanze da un’origine, arbitrariamente scelta in corrispondenza del punto vendita 1.

x

1

x

2

x

3

x

4

x

5

(79)

Proprietà della mediana

Supponiamo di dislocare il magazzino in una certa posizione che dista A dall’origine e valutiamo la lunghezza dei tratti che il

A x

2 

1

-

1 2 3 4 5

0 8 15 20 30

x

1

x

2

x

3

x

4

x

5

(80)

Proprietà della mediana

A x

2 

1

-

A x

2 

2

-

Distanza totale percorsa:

1 2 3 4 5

0 8 15 20 30

x

1

x

2

x

3

x

4

x

5

(81)

Proprietà della mediana

A x

2 A

x

2 

1

-  

2

-

A x

2 

3

-

Distanza totale percorsa:

1 2 3 4 5

0 8 15 20 30

x

1

x

2

x

3

x

4

x

5

(82)

Proprietà della mediana

A x

2 A

x 2

A x

2 

1

-  

2

-  

3

-

A x

2 

4

-

Distanza totale percorsa:

1 2 3 4 5

0 8 15 20 30

x

1

x

2

x

3

x

4

x

5

(83)

Proprietà della mediana

A x

2 A

x 2

A x

2 A

x

2 

1

-  

2

-  

3

-  

4

-

A x

2 

5

-

Distanza totale percorsa:

1 2 3 4 5

0 8 15 20 30

x

1

x

2

x

3

x

4

x

5

(84)

Proprietà della mediana

-

 -

 -

 -

 -

 -

5 1 i

i

5 4

3 2

1

A x

2

A x

2 A

x 2 A

x 2 A

x 2 A

x 2

Distanza totale percorsa:

1 2 3 4 5

0 8 15 20 30

x

1

x

2

x

3

x

4

x

5

(85)

Proprietà della mediana

-

 -

 -

 -

 -

 -

5 1 i

i

5 4

3 2

1

A x

2

A x

2 A

x 2 A

x 2 A

x 2 A

x 2

Distanza totale percorsa:

1 2 3 4 5

0 8 15 20 30

x

1

x

2

x

3

x

4

x

5

(86)

Proprietà della mediana

La dislocazione A che minimizza la distanza totale percorsa è quella in corrispondenza della mediana dei 5 valori.

Quindi il magazzino andrà costruito accanto al punto vendita 3.

Me A

Me x

A

x

N

1

i i

N 1

i i

-   -  

Prof.ssa Paola Zuccolotto - Statistica - Medie

(87)

Generalizzazioni della mediana

Se il carattere è quantitativo e la popolazione numerosa si possono calcolare altri indici di posizione, che sono una generalizzazione del concetto di mediana:

quartili

decili

percentili

(88)

Generalizzazioni della mediana

I quartili sono i 3 valori Q

1

, Q

2

, Q

3

che dividono la successione ordinata dei valori in 4 gruppi di uguale numerosità.

I decili sono i 9 valori D

1

,..., D

9

che dividono la successione ordinata dei valori in 10 gruppi di uguale numerosità.

I percentili sono i 99 valori P

1

,..., P

99

che dividono la successione ordinata dei valori in 100 gruppi di uguale numerosità.

Prof.ssa Paola Zuccolotto - Statistica - Medie

(89)

Generalizzazioni della mediana

Vediamo alla lavagna come si calcolano quartili, decili, percentili sui dati dell’esempio visto prima.

Prezzo ni fi Fi

1 |- 3 € 37 0.131 0.131

3 |- 5 € 100 0.353 0.484

5 |- 7 € 62 0.219 0.703

7 |- 9 € 39 0.138 0.841

9 |- 11 € 15 0.053 0.894

11 |- 13 € 14 0.049 0.943

13 |- 15 € 12 0.042 0.986

15 |- 17 € 3 0.011 0.996

17 |- 19 € 1 0.004 1.000

Totale 283 1.000

(90)

Generalizzazioni della mediana

Se invece si dispone di un carattere discreto raggruppato in classi, bisogna procedere in modo analogo a quanto visto per la mediana (esplosione delle classi o aggiustamento al continuo e successivo arrotondamento del valore ottenuto).

Prof.ssa Paola Zuccolotto - Statistica - Medie

(91)

Generalizzazioni della mediana

I quartili spesso si utilizzano per produrre

un utile grafico detto box-plot, in grado di

sintetizzare una distribuzione di frequenze.

(92)

Generalizzazioni della mediana

Prof.ssa Paola Zuccolotto - Statistica - Medie

Min Q1 Me Q3 Max

(93)

Generalizzazioni della mediana

Il box-plot è particolarmente utile quando

si vogliono confrontare le distribuzioni di

diverse popolazioni o caratteri differenti.

Riferimenti

Documenti correlati

La migliorata infrastrutturazione del territorio (asse autostradale nord-sud Salerno-Reggio, asse di collegamento veloce ovest-est (Paola-Crotone) tra Tir- reno e Ionio, statale

L’occorrenza di un nuovo evento puo’ essere considerato un esperimento tipo Bernoulli che genera solo due eventi incompatibili, tipo successo – insuccesso. (1-p) = probabilità di

Quadro clinico, esami di labora- torio (incluso dosaggio sierico di gastrina a di- giuno), ecografia addominale e citologia ecogui- data delle lesioni linfonodali portali erano

Oltre a tali componenti, si identificava una terza popo- lazione costituita da cellule blastiche: queste cellule, ten- denzialmente somiglianti alle cellule epiteliali, erano di

Per rappresentare graficamente le frequenze cumulate di un carattere continuo raggruppato i classi prima si disegna un diagramma a gradini, poi i gradini vengono congiunti

[r]

A differenza del caso discreto, nel caso di sistemi continui la funzione di transizione Φ(t) `e

Sono stati quindi formulati degli indici di dispersione che si basano sul calcolo della media degli scarti presi in valore assoluto oppure elevati ad una potenza pari, in modo