Rielaborazione, curata dalla Prof. F. Settembrini, di materiale didattico scaricato dal sito del Liceo “Crespi” di Busto Arsizio (VA) e redatto dal Prof. G. Biasco
Gli indici di
dispersione e la
curva di Gauss
Elementi di Statistica descrittiva
Gli indici di VARIABILITÁ
(o di DISPERSIONE)
- Campo di variazione
- Scarto dalla media
- Varianza
- Scarto quadratico medio
- Coefficiente di variazione
Indici di Variabilità
I valori medi sono indici importanti per la
descrizione sintetica di un fenomeno
statistico
Hanno però il limite di non darci alcuna
informazione sulla distribuzione dei dati
Esempio
In tre differenti prove di matematica 4 studenti hanno riportato le seguenti valutazioni
1a Prova 2a Prova 3a Prova 1° studente 3 5 6 2° studente 5 7 7 3° studente 8 6 6 4° studente 9 7 6 media 6,25 6,25 6,25
In tutte e tre le prove la media è 6,25
Diagramma di distribuzione delle tre prove
Diagramma dispersione dati
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 num prova va lu ta zi on i 1 studente 2 sttudente 3 studente 4 studente media
• nel caso della 1a prova e 2a prova sarà opportuno
fare un recupero per alcuni studenti
• nel caso della 3a prova l’insegnante può ritenere
che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente
Diagramma dispersione dati
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 num prova va lu ta zi on i 1 studente 2 sttudente 3 studente 4 studente media
• Campo di variazione (Range) • Scarto medio dalla media
• Varianza e scarto quadratico medio • Coefficiente di variazione
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante gli
indici di variabilità (o dispersione)
Campo variazione = x
max– x
minCampo di variazione
E’ il più semplice degli indici di variazione: Si calcola facendo la differenza tra il dato più grande e il dato più piccolo
Esempio
Consideriamo le valutazioni della prima prova
1a Prova 1° studente 3 2° studente 5 3° studente 8 4° studente 9 media 6,25 Xmax = 9; Xmin = 3 Range = 9 – 3 = 6
Calcoliamo il Range per tutte le tre prove
1a Prova 2a Prova 3a Prova
1° studente 3 2 6 2° studente 5 7 7 3° studente 8 8 6 4° studente 9 8 6 media 6,25 6,25 6,25 range 6 6 1
Range 1a prova = 6 dati più dispersi,
risultati più eterogenei
Range 3a prova = 1 dati più concentrati,
risultati più omogenei
Campo di variazione delle tre prove 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 num prova va lu ta zi on i 1 studente 2 sttudente 3 studente 4 studente range Vediamo graficamente
Osservazioni:
1. Il campo di variazione dà informazioni sulla distribuzione dei dati:
• più R è piccolo più i dati sono concentrati; • più R è grande più i dati sono dispersi.
2. R è espresso nella stessa unità di misura dei dati 3. Tuttavia R tiene conto solo dei dati estremi della
distribuzione e non di tutti i dati, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali
Es. Range 1aprova = Range 2a prova.
Scarto medio dalla media aritmetica
Un altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel
calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze
Scarto medio = Distanza media dei dati dalla media
n x x x x x x n S ... medio Scarto m 1 2
Esempio
Consideriamo le valutazioni della prima prova
1a Prova 1° studente 3 2° studente 5 3° studente 8 4° studente 9 media 6,25 x1 = 3 – 6,25 = 3,25; x2 = 5 – 6,25 = 1,25; x3 = 8 – 6,25 = 1,75; x4 = 9 – 6,25 = 2,75; Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25 4
Calcoliamo lo Scarto medio per tutte le tre prove
Scarto 1a prova = 2,25 dati più dispersi,
risultati più eterogenei
Scarto 3a prova = 0,38 dati più concentrati,
risultati più omogenei
1a Prova 2a Prova 3a Prova
1° studente 3 2 6 2° studente 5 7 7 3° studente 8 8 6 4° studente 9 8 6 media 6,25 6,25 6,25 scarto medio 2,25 2,13 0,38
Diagramma degli scarti dalla media
Diagramma degli scarti dalla media
-5,00 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 1 2 3 num. prova S ca rt o da lla m ed ia stud.1 stud.2 stud.3 stud.4
Osservazioni:
1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati:
• più SM è piccolo più i dati sono concentrati; • più SM è grande più i dati sono dispersi.
2. SM è espresso nella stessa unità di misura dei dati
3. Non ha l'inconveniente del “Campo di variazione” in quanto SM tiene conto di tutti i dati della distribuzione
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati.
Varianza
Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M
n x x x x x x1 2 2 2 n 2 2 ... Varianza
n
x
n
x
x
n i n i
1 2 1 2Varianza
Esempio - Varianza
Consideriamo le valutazioni della prima prova
1a Prova 1° studente 3 2° studente 5 3° studente 8 4° studente 9 media 6,25 (x1)2 = (3 – 6,25 )2 = 10,5625; (x 2)2 = (5 – 6,25 )2 = 1,5625; (x3)2 = (8 – 6,25 )2 = 3,0625; (x 4)2 = (9 – 6,25 )2 = 7,5625; 2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875 4
Calcoliamo la Varianza per tutte le tre prove
Varianza 1aprova = 5,69 dati più dispersi,
risultati più eterogenei
Varianza 3a prova = 0,19 dati più concentrati,
risultati più omogenei
1a Prova 2a Prova 3a Prova
1° studente 3 2 6 2° studente 5 7 7 3° studente 8 8 6 4° studente 9 8 6 media 6,25 6,25 6,25 varianza 5,69 6,19 0,19
Scarto quadratico medio o
Deviazione standard
È uguale alla radice quadrata della varianza
n x n x x n i n i
1 2 1 2 medio quadr Scarto
n x x x x x x1 2 2 2 ... n 2 medio quadr. Scarto Esempio - Scarto quadratico medio
Riprendiamo le valutazioni della prima prova
1a Prova scarti da M scarti2 1° studente 3 -3,25 10,5625 2° studente 5 -1,25 1,5625 3° studente 8 1,75 3,0625 4° studente 9 2,75 7,5625 media 6,25 0,00 5,6875
3848
,
2
6875
,
5
2 1 2
x
n iCalcoliamo lo Scarto quadratico medio per tutte le prove
Scarto q. 1aprova = 2,38 dati più dispersi,
risultati più eterogenei
Scarto q. 3aprova = 0,43 dati più concentrati,
risultati più omogenei
Scarto q. 2a pr. Scarto q. 1a pr “Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova 1° studente 3 2 6 2° studente 5 7 7 3° studente 8 8 6 4° studente 9 8 6 media 6,25 6,25 6,25 scarto quadratico 2,38 2,49 0,43
Osservazioni:
1. La varianza 2e lo scarto quadratico medio danno
informazioni sulla distribuzione dei dati:
• più 2 e sono piccoli più i dati sono concentrati; • più 2 e sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati della distribuzione
3. Entrambi si basano sulla proprietà della media per cui la somma dei quadrati degli scarti dalla media è
minima
4. La varianza è espressa mediante il quadrato dell’unità di misura dei dati
5. Lo scarto quadratico nella stessa unità di misura dei dati e pertanto viene preferito alla varianza
Il coefficiente di variazione CV
Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale. E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).
%
100
x
CV
La curva di Gauss
• Quando dobbiamo giudicare un evento possiamo descriverlo con la distribuzione dei suoi possibili
valori.
• Se lancio una moneta il valore testa ha probabilità 0,5 e idem ne ha il valore croce.
• Avremo una distribuzione a due soli valori, ognuno dei quali ha probabilità 0,5. La somma dei valori possibili dà l'unità (o esce testa o esce croce: non si considera la possibilità che la moneta resti in piedi!).
La curva di Gauss
Se analizziamo la distribuzione di un
campione di persone che seguono un certo
programma televisivo per decadi di età,
La curva di Gauss
• Le cose si complicano quando ho molti valori possibili, addirittura infiniti.
• Supponiamo per esempio di effettuare tante misurazioni di una stessa grandezza con uno strumento:
• avremo risultati differenti, dovuti all'inevitabile imprecisione del nostro strumento e del nostro operato, che sono detti errori accidentali.
La curva di Gauss
• Se rappresentiamo le misure ottenute su un
grafico, se il numero di misurazioni è molto
grande, al limite infinito, la curva che
La curva di Gauss
Si tratta di una curva simmetrica dalla classica forma a campana che ha un massimo attorno alla
media dei valori misurati e può essere più o meno
stretta a seconda della dispersione dei valori attorno alla media
La curva di Gauss
Una distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetria
In una distribuzione simmetrica media, mediana e moda sono coincidenti.
Confronto di distrib. normali
0 0,05 0,1 0,15 0,2 0,25 0 2 4 6 8 10 12 14 16
valori della variabile
fr e q u e n za 1° distrib. normale media = mediana = moda In una distribuzione
asimmetrica media, mediana e moda non sono più
coincidenti
e proprio la differenza
(distanza) tra la media e la moda può essere considerata una misura della asimmetria
La curva di Gauss
• la dispersione si misura con la deviazione
standard:
• una delle proprietà della gaussiana è che il
68% delle misurazioni differisce dalla
media meno di 1 deviazione standard;
• inoltre il 95% dei valori differisce dalla
media meno di 2 deviazioni standard.
La curva di Gauss
Quindi maggiore è la deviazione standard,
più la gaussiana è "aperta" e più c'è la
possibilità che la media (il punto più alto)
non sia rappresentativo di tanti casi.
La curva di Gauss
Come si vede dalla figura (tratta da
Wikipedia), la curva verde è l’esempio
matematicamente canonico di distribuzione
normale (centrata in μ=0 e con varianza pari
a 1), ma agendo su σ
2si ottengono curve,
per quanto sempre gaussiane di piena
dignità, dal significato drammaticamente
diverso.
La curva di Gauss
• La distribuzione di Gauss è spesso detta normale. L'aggettivo è significativo perché indica che moltissimi fenomeni possono essere descritti da una curva gaussiana o Gauss-like (cioè simile).
• Se è vero che la gaussiana vale per una popolazione infinita di misurazioni e per eventi del tutto casuali, è altresì vero che curve a campana (Gauss-like) possono descrivere
La curva di Gauss
• Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000
soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, poniamo di 174 cm, con una deviazione standard di circa 10 cm.
• Ciò ci permette di concludere che il 95% dei
soggetti analizzati ha un’altezza compresa fra 154 cm e 194 cm.
La curva di Gauss
• Un altro esempio è la distribuzione dei punteggi al WAIS (Wechsler Adult Intelligence Scale).
• Wechsler utilizzò campioni di standardizzazione (costituiti da adulti divisi in gruppi della stessa età, scelti in modo che ciascun campione risultasse
rappresentativo dell’universo) e stabilì che in ogni
gruppo di standardizzazione il punteggio medio del test dovesse essere considerato pari a 100 e la
La curva di Gauss
Poté ottenere questo risultato grazie a un aggiustamento statistico dei punteggi grezzi rilevati nei diversi gruppi: infatti, il punteggio medio grezzo dei settantenni risulta inferiore a quello dei trentenni, ma viene considerato 100 per consentire il confronto; il QI di un individuo è determinato confrontando la sua prestazione con quella dei soggetti del campione di standardizzazione della medesima età.