• Non ci sono risultati.

Indici dispersione _Gauss

N/A
N/A
Protected

Academic year: 2021

Condividi "Indici dispersione _Gauss"

Copied!
43
0
0

Testo completo

(1)

Rielaborazione, curata dalla Prof. F. Settembrini, di materiale didattico scaricato dal sito del Liceo “Crespi” di Busto Arsizio (VA) e redatto dal Prof. G. Biasco

Gli indici di

dispersione e la

curva di Gauss

Elementi di Statistica descrittiva

(2)

Gli indici di VARIABILITÁ

(o di DISPERSIONE)

- Campo di variazione

- Scarto dalla media

- Varianza

- Scarto quadratico medio

- Coefficiente di variazione

(3)

Indici di Variabilità

I valori medi sono indici importanti per la

descrizione sintetica di un fenomeno

statistico

Hanno però il limite di non darci alcuna

informazione sulla distribuzione dei dati

(4)

Esempio

In tre differenti prove di matematica 4 studenti hanno riportato le seguenti valutazioni

1a Prova 2a Prova 3a Prova 1° studente 3 5 6 2° studente 5 7 7 3° studente 8 6 6 4° studente 9 7 6 media 6,25 6,25 6,25

In tutte e tre le prove la media è 6,25

(5)

Diagramma di distribuzione delle tre prove

Diagramma dispersione dati

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 num prova va lu ta zi on i 1 studente 2 sttudente 3 studente 4 studente media

(6)

• nel caso della 1a prova e 2a prova sarà opportuno

fare un recupero per alcuni studenti

• nel caso della 3a prova l’insegnante può ritenere

che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente

Diagramma dispersione dati

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 num prova va lu ta zi on i 1 studente 2 sttudente 3 studente 4 studente media

(7)

• Campo di variazione (Range) • Scarto medio dalla media

• Varianza e scarto quadratico medio • Coefficiente di variazione

In statistica è possibile valutare in modo

sintetico la distribuzione dei dati mediante gli

indici di variabilità (o dispersione)

(8)

Campo variazione = x

max

– x

min

Campo di variazione

E’ il più semplice degli indici di variazione: Si calcola facendo la differenza tra il dato più grande e il dato più piccolo

(9)

Esempio

Consideriamo le valutazioni della prima prova

1a Prova 1° studente 3 2° studente 5 3° studente 8 4° studente 9 media 6,25 Xmax = 9; Xmin = 3 Range = 9 – 3 = 6

(10)

Calcoliamo il Range per tutte le tre prove

1a Prova 2a Prova 3a Prova

1° studente 3 2 6 2° studente 5 7 7 3° studente 8 8 6 4° studente 9 8 6 media 6,25 6,25 6,25 range 6 6 1

Range 1a prova = 6  dati più dispersi,

risultati più eterogenei

Range 3a prova = 1  dati più concentrati,

risultati più omogenei

(11)

Campo di variazione delle tre prove 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 num prova va lu ta zi on i 1 studente 2 sttudente 3 studente 4 studente range Vediamo graficamente

(12)

Osservazioni:

1. Il campo di variazione dà informazioni sulla distribuzione dei dati:

• più R è piccolo più i dati sono concentrati; • più R è grande più i dati sono dispersi.

2. R è espresso nella stessa unità di misura dei dati 3. Tuttavia R tiene conto solo dei dati estremi della

distribuzione e non di tutti i dati, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali

Es. Range 1aprova = Range 2a prova.

(13)

Scarto medio dalla media aritmetica

Un altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel

calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze

Scarto medio = Distanza media dei dati dalla media

n x x x x x x      n    S ... medio Scarto m 1 2

(14)

Esempio

Consideriamo le valutazioni della prima prova

1a Prova 1° studente 3 2° studente 5 3° studente 8 4° studente 9 media 6,25 x1 =  3 – 6,25  = 3,25; x2 =  5 – 6,25  = 1,25; x3 =  8 – 6,25  = 1,75; x4 =  9 – 6,25  = 2,75; Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25 4

(15)

Calcoliamo lo Scarto medio per tutte le tre prove

Scarto 1a prova = 2,25  dati più dispersi,

risultati più eterogenei

Scarto 3a prova = 0,38  dati più concentrati,

risultati più omogenei

1a Prova 2a Prova 3a Prova

1° studente 3 2 6 2° studente 5 7 7 3° studente 8 8 6 4° studente 9 8 6 media 6,25 6,25 6,25 scarto medio 2,25 2,13 0,38

(16)

Diagramma degli scarti dalla media

Diagramma degli scarti dalla media

-5,00 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 1 2 3 num. prova S ca rt o da lla m ed ia stud.1 stud.2 stud.3 stud.4

(17)

Osservazioni:

1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati:

• più SM è piccolo più i dati sono concentrati; • più SM è grande più i dati sono dispersi.

2. SM è espresso nella stessa unità di misura dei dati

3. Non ha l'inconveniente del “Campo di variazione” in quanto SM tiene conto di tutti i dati della distribuzione

(18)

Varianza e Scarto quadratico medio

Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati.

Varianza

Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M

 

n x x x x x x1 2 2 2 n 2 2 ... Varianza        

(19)

 

n

x

n

x

x

n i n i

1 2 1 2

Varianza

(20)

Esempio - Varianza

Consideriamo le valutazioni della prima prova

1a Prova 1° studente 3 2° studente 5 3° studente 8 4° studente 9 media 6,25 (x1)2 = (3 – 6,25 )2 = 10,5625; (x 2)2 = (5 – 6,25 )2 = 1,5625; (x3)2 = (8 – 6,25 )2 = 3,0625; (x 4)2 = (9 – 6,25 )2 = 7,5625; 2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875 4

(21)

Calcoliamo la Varianza per tutte le tre prove

Varianza 1aprova = 5,69dati più dispersi,

risultati più eterogenei

Varianza 3a prova = 0,19  dati più concentrati,

risultati più omogenei

1a Prova 2a Prova 3a Prova

1° studente 3 2 6 2° studente 5 7 7 3° studente 8 8 6 4° studente 9 8 6 media 6,25 6,25 6,25 varianza 5,69 6,19 0,19

(22)

Scarto quadratico medio o

Deviazione standard

È uguale alla radice quadrata della varianza

 

n x n x x n i n i

    1 2 1 2 medio quadr Scarto

 

n x x x x x x1 2 2 2 ... n 2 medio quadr. Scarto        

(23)

Esempio - Scarto quadratico medio

Riprendiamo le valutazioni della prima prova

1a Prova scarti da M scarti2 1° studente 3 -3,25 10,5625 2° studente 5 -1,25 1,5625 3° studente 8 1,75 3,0625 4° studente 9 2,75 7,5625 media 6,25 0,00 5,6875

 

3848

,

2

6875

,

5

2 1 2

x

n i

(24)

Calcoliamo lo Scarto quadratico medio per tutte le prove

Scarto q. 1aprova = 2,38dati più dispersi,

risultati più eterogenei

Scarto q. 3aprova = 0,43  dati più concentrati,

risultati più omogenei

Scarto q. 2a pr.  Scarto q. 1a pr “Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova 1° studente 3 2 6 2° studente 5 7 7 3° studente 8 8 6 4° studente 9 8 6 media 6,25 6,25 6,25 scarto quadratico 2,38 2,49 0,43

(25)

Osservazioni:

1. La varianza 2e lo scarto quadratico medio  danno

informazioni sulla distribuzione dei dati:

• più 2 e  sono piccoli più i dati sono concentrati; • più 2 e  sono grandi più i dati sono dispersi.

2. Entrambi gli indici tengono conto di tutti i dati della distribuzione

(26)

3. Entrambi si basano sulla proprietà della media per cui la somma dei quadrati degli scarti dalla media è

minima

4. La varianza è espressa mediante il quadrato dell’unità di misura dei dati

5. Lo scarto quadratico nella stessa unità di misura dei dati e pertanto viene preferito alla varianza

(27)

Il coefficiente di variazione CV

Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale. E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).

%

100

 

x

CV

(28)

La curva di Gauss

• Quando dobbiamo giudicare un evento possiamo descriverlo con la distribuzione dei suoi possibili

valori.

• Se lancio una moneta il valore testa ha probabilità 0,5 e idem ne ha il valore croce.

• Avremo una distribuzione a due soli valori, ognuno dei quali ha probabilità 0,5. La somma dei valori possibili dà l'unità (o esce testa o esce croce: non si considera la possibilità che la moneta resti in piedi!).

(29)

La curva di Gauss

Se analizziamo la distribuzione di un

campione di persone che seguono un certo

programma televisivo per decadi di età,

(30)
(31)

La curva di Gauss

• Le cose si complicano quando ho molti valori possibili, addirittura infiniti.

• Supponiamo per esempio di effettuare tante misurazioni di una stessa grandezza con uno strumento:

• avremo risultati differenti, dovuti all'inevitabile imprecisione del nostro strumento e del nostro operato, che sono detti errori accidentali.

(32)

La curva di Gauss

• Se rappresentiamo le misure ottenute su un

grafico, se il numero di misurazioni è molto

grande, al limite infinito, la curva che

(33)

La curva di Gauss

Si tratta di una curva simmetrica dalla classica forma a campana che ha un massimo attorno alla

media dei valori misurati e può essere più o meno

stretta a seconda della dispersione dei valori attorno alla media

(34)

La curva di Gauss

Una distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetria

In una distribuzione simmetrica media, mediana e moda sono coincidenti.

Confronto di distrib. normali

0 0,05 0,1 0,15 0,2 0,25 0 2 4 6 8 10 12 14 16

valori della variabile

fr e q u e n za 1° distrib. normale media = mediana = moda In una distribuzione

asimmetrica media, mediana e moda non sono più

coincidenti

e proprio la differenza

(distanza) tra la media e la moda può essere considerata una misura della asimmetria

(35)

La curva di Gauss

• la dispersione si misura con la deviazione

standard:

• una delle proprietà della gaussiana è che il

68% delle misurazioni differisce dalla

media meno di 1 deviazione standard;

• inoltre il 95% dei valori differisce dalla

media meno di 2 deviazioni standard.

(36)

La curva di Gauss

Quindi maggiore è la deviazione standard,

più la gaussiana è "aperta" e più c'è la

possibilità che la media (il punto più alto)

non sia rappresentativo di tanti casi.

(37)
(38)

La curva di Gauss

Come si vede dalla figura (tratta da

Wikipedia), la curva verde è l’esempio

matematicamente canonico di distribuzione

normale (centrata in μ=0 e con varianza pari

a 1), ma agendo su σ

2

si ottengono curve,

per quanto sempre gaussiane di piena

dignità, dal significato drammaticamente

diverso.

(39)

La curva di Gauss

• La distribuzione di Gauss è spesso detta normale. L'aggettivo è significativo perché indica che moltissimi fenomeni possono essere descritti da una curva gaussiana o Gauss-like (cioè simile).

• Se è vero che la gaussiana vale per una popolazione infinita di misurazioni e per eventi del tutto casuali, è altresì vero che curve a campana (Gauss-like) possono descrivere

(40)

La curva di Gauss

• Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000

soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, poniamo di 174 cm, con una deviazione standard di circa 10 cm.

• Ciò ci permette di concludere che il 95% dei

soggetti analizzati ha un’altezza compresa fra 154 cm e 194 cm.

(41)

La curva di Gauss

• Un altro esempio è la distribuzione dei punteggi al WAIS (Wechsler Adult Intelligence Scale).

• Wechsler utilizzò campioni di standardizzazione (costituiti da adulti divisi in gruppi della stessa età, scelti in modo che ciascun campione risultasse

rappresentativo dell’universo) e stabilì che in ogni

gruppo di standardizzazione il punteggio medio del test dovesse essere considerato pari a 100 e la

(42)

La curva di Gauss

Poté ottenere questo risultato grazie a un aggiustamento statistico dei punteggi grezzi rilevati nei diversi gruppi: infatti, il punteggio medio grezzo dei settantenni risulta inferiore a quello dei trentenni, ma viene considerato 100 per consentire il confronto; il QI di un individuo è determinato confrontando la sua prestazione con quella dei soggetti del campione di standardizzazione della medesima età.

(43)

La curva di Gauss

Perciò, possiamo affermare che chi ottiene,

ad esempio, un punteggio QI di 130 ha dato

una prestazione migliore di quella di cui

sono stati capaci il 97,5% circa dei soggetti

della sua stessa età.

Riferimenti

Documenti correlati

L’obiettivo di questo studio è stato quello di valutare eventuali differenze tra la composizione del microbio- ta intestinale di soggetti affetti da diabete tipo 2 rispetto a

I pezzi prodotti, per poter essere assemblati correttamente, devono avere un certo diametro compreso tra 4.8 e 5.2 cm.. Supponiamo che il diametro dei pezzi prodotti, sempre

i) (3 pt) Visualizza un istogramma dei valori relativi a 25 giorni e decide inizialmente di usare una v.a. esponenziale di parametro per il prezzo gior- naliero. Utilizza i valori

Un’altra curiosità.. RADICE QUADRATA DI UNA MATRICE SIMMETRICA DEFINITA POSITIVA ESEMPIO 1.. A) Generare una matrice Q, simmetrica e definita positiva, di dimensione 2 o

Trovare media, mediana, moda, varianza e deviazione standard dei seguenti dati non ordinati e non raggruppati... Nel rilevare l’altezza in cm di un gruppo di reclute si ` e ottenuta

9) Una certa sostanza radioattiva impiega 80.000 anni per decrescere del 75% della sua massa iniziale.. Dell'acqua si riversa nel lago in ragione di 100 litri al secondo e contiene

In Appendice è riportato il calcolo della media e della varianza dell’intera popolazione a partire dalle medie e varianze nei sottogruppi. Nell’esempio seguente mostriamo come

dovremmo misurare ?.. La misura di un campione radioattivo ha dato come risultato 66 conteggi in 16 secondi. Nell’ipotesi che il fenomeno segua una distribuzione di tipo