• Non ci sono risultati.

OSSERVAZIONE IMPORTANTE

3.3- Quartili, quantili e percentili

OSSERVAZIONE IMPORTANTE

Una misura della variabilità basata sui centili è fornita dalla differenza interquartilica (o differenza interquartile) (Q3-Q1). Poiché tra Q1e Q3 si trova il 50 per cento centrale della distribuzione, se la loro differenza è piccola, vuol dire che la variabilità è contenuta; se la differenza è ampia, la variabilità è elevata.

Una rappresentazione grafica è il box plot che è basato sui quartili e sul campo di variazione.

Il box plot risulta utile per verificare con un colpo d'occhio se la distribuzione ha una proporzione di numeri piccoli e grandi equilibrata oppure se sono più numerosi i valori piccoli, oppure quelli grandi. Il grafico può essere posizionato anche verticalmente.

Per costruire un box plot si devono conoscere:

a) il valore minimo e massimo b) il primo e il terzo quartile c) la mediana.

Le due linee esterne al rettangolo (box) che si estendono fino al valore più elevato (in alto) e fino al valore più piccolo (in basso) si chiamano baffi (whiskers) e ci dicono se c'è una sostanziale simmetria fra il valore minimo e quello massimo della distribuzione, rispetto al 50 per cento centrale dei valori, che è compreso fra il primo e il terzo quartile.

Esercizio 4.

Con i dati dell'esempio relativo al peso di 20 studenti

48 54 56 57 65 66 68 68 69 70 70 71 72 73 75 76 76 78 84 85 Trovare:

a) I quartili

b) L’intervallo di variabilità

c) Il grafico box plot della distribuzione Svolgimento

Esercizio 5

Consideriamo i seguenti dati

30 72 154 14 25 30 32 12 48 73 22 20

a) Costruire il box plot di questa distribuzione.

b) Si notano dei valori anomali?

Come si vede, e’ probabile che ci sia In questo caso è probabile che ci sia qualche valore anomalo (troppo grande rispetto agli altri valori) che sbilancia la distribuzione. Per individuarli consideriamo come valori coerenti con il resto della distribuzione tutti quelli che cadono entro l'intervallo [Q3 , Q3 + 1,5x(Q3-Q1)].

Se applichiamo questa regola ai nostri dati avremo il seguente grafico: fare a lezione

dal quale risulta evidente che c'è un valore anomalo (154) rispetto al resto della distribuzione e che il massimo valore non anomalo è 73. Se il valore anomalo anziché essere molto più grande rispetto agli altri fosse stato molto più piccolo avremmo considerato come valori coerenti con tutto il resto della distribuzione tutti quelli che cadevano nell'intervallo individuato da: [Q1 - 1,5x(Q3 -Q1), Q1.]

Esercizio 6

Consideriamo il seguente grafico riguardante l’evoluzione dei salari in Ticino. Commentare.

.

XII^ LEZIONE 18.1.22 18.1.2022, 8.30-10.30, Tot. 25 ore

ARGOMENTI SALIENTI DELLA LEZIONE:

ARGOMENTI SALIENTI DELLA LEZIONE:

Cap. 4:

Sintesi della distribuzione di un carattere - Indici di variabilità e di forma .

§4.1-Variabilità-

§4.2- Varianza e scarto quadratico medio

CAP. 4 - Sintesi della distribuzione di un carattere - Indici di variabilità e di forma.

§4.1-Variabilità-

Due distribuzioni di variabili statistiche quantitative univariate possono differire oltre che per la posizione, anche per la diversa variabilità; e a parità di valore medio di posizione, possono differire per la diversa variabilità.

Esempio-Ipotizziamo le due distribuzioni riportate in tabella

A B

xi ni xi ni

6 5 2 5

8 10 6 10

10 15 10 15

12 10 4 10

14 5 18 5

totale 45 totale 45

Per le due distribuzioni media e mediana coincidono : Distribuzione A: Media = 10; Mediana = 10;

Distribuzione B: media = 10; Mediana = 10.

Le due distribuzioni pur presentando valori medi uguali sono diverse.

Sul piano concettuale possiamo dire che la variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità. Fattivamente, occorre pervenire ad una misura di tale attitudine.

E’ importante distinguere due distinte famiglie di indici di variabilità:

- la prima famiglia attiene alla variabilità delle singole modalità xi rispetto ad un elemento della famiglia delle medie (ad esempio la media, la mediana, etc.) mediante una sintesi degli scarti tra le singole modalità e il valore di riferimento, scarti chiamati scostamenti medi assoluti di ordine r, ossia |𝒙𝒊− 𝜶|𝒓

-la seconda famiglia ricorre ad opportune medie potenziate costruite sulle differenze |𝒙𝒊− 𝒙𝒋| intercorrenti tra le diverse modalità.

Per la variabilità rispetto ad un elemento della famiglia delle medie, la più comune specificazione di un indice discende dalla media potenziata degli scarti assoluti di ordine r, ed assume la forma

(4.1) {

∑|𝑥𝑖−𝛼|𝑟

𝑁

}

1/𝑟

, 𝑟 ≠ 0

Si controlla immediatamente che qualunque siano 𝛼 e r, la (4.1) assume valore 0 se e solo se il fenomeno non presenta variabilità; viceversa assume valori via via più alti quanto più gli scostamenti aumentano in valore assoluto.

La (4.1) assume forme diverse al variare di 𝜶 e r. In particolare:

se 𝜶 = Me ed r=1 si ha

§4.2- Varianza e scarto quadratico medio

L’indice più importante per misurare la variabilità di una distribuzione è espresso dalla media degli scarti al quadrato. Tale quantità si chiama varianza

∑(𝒙𝒊−𝑴)𝟐

𝑵

= 𝝈

𝟐

= Var

La varianza presenta, tuttavia, un notevole inconveniente nel senso che è espressa attraverso il quadrato dell'unità di misura delle osservazioni, per cui se le osservazioni ad esempio sono in metri, la varianza è espressa in metri al quadrato. Motivo per cui non è mai possibile rappresentare su uno stesso diagramma la varianza e la distribuzione delle osservazioni.

Per ovviare all'inconveniente anzidetto, si preferisce usare la radice quadrata della varianza e ottenere un importante indice di variabilità, tra tutti il più utilizzato, denominato scostamento quadratico medio o deviazione standard.

La deviazione standard è dunque

𝝈 = √𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂

Pertanto lo scarto quadratico medio (o deviazione standard) è espresso nella stessa unità di misura del carattere e misura di quanto in media quadrata i valori xi si discostano dalla loro media.

Per calcolare la varianza mediante la formula che la definisce, occorre calcolare la media M, poi tutti gli scarti (xi- M) , quindi farne il quadrato e, infine, calcolare la media aritmetica di tali scarti.

Si comprende che, anche se le modalità xi sono numeri interi, la media M quasi sempre è un numero decimale per cui gli scarti al quadrato richiedono un numero doppio di decimali.

Per ridurre notevolmente i calcoli e le approssimazioni si può esprimere la varianza in modo diverso. Sviluppando il quadrato del numeratore della varianza, ossia la devianza, si ha

∑(𝒙

𝒊

− 𝑴)

𝟐

=∑ 𝒙

𝒊𝟐

+ 𝑵𝑴

𝟐

− 𝟐𝑵𝑴

𝟐

= ∑ 𝒙

𝒊𝟐

− 𝑵𝑴

𝟐

(4.5) 𝝈

𝟐

=

∑ 𝒙𝒊𝟐

𝑵

- 𝑴

𝟐

= 𝑴

𝒒𝟐

− 𝑴

𝟐

,

Quadrato della media quadratica meno quadrato della media aritmetica

In pratica per ottenere

𝝈

𝟐 basta sommare i valori delle modalità ed i corrispondenti quadrati facendone poi le rispettive medie.

Esercizio 1.

Valutiamo la varianza delle due distribuzioni iniziali A

Prima di tutto costruiamo la tabella delle Colonne di risultati parziali per il calcolo della varianza A B

Confermiamo l’osservazione iniziale: a valori medi uguali corrispondono distribuzioni molto diverse.

4.3- Proprietà della varianza

𝟏. 𝝈

𝟐

(𝒌 + 𝑿) = 𝝈

𝟐

(𝑿)

una costante k che si aggiunge a tutti i dati non si ripercuote sulla varianza, ossia la varianza è invariante rispetto ad un cambiamento di origine.

2.

𝝈

𝟐

(𝒌𝑿) = 𝒌

𝟐

𝝈

𝟐

(𝑿)

una costante che moltiplica tutti i dati si ripercuote sulla varianza con effetto quadratico: effetto quadratico di una costante moltiplicativa.

3.

𝝈

𝟐

(𝒉 + 𝒌(𝑿)) = 𝒌

𝟐

𝝈

𝟐

(𝑿)

varianza di una trasformazione lineare

Documenti correlati