• Non ci sono risultati.

Distribuzione normale o gaussiana

N/A
N/A
Protected

Academic year: 2022

Condividi "Distribuzione normale o gaussiana"

Copied!
12
0
0

Testo completo

(1)

Distribuzione normale o gaussiana

+∞

 ∞





σ µ

− − π

= σ con - x

2 ) x

exp ( 2

) 1 x (

f 2 2

σ µ X

+∞

 ∞





−

= π con - z

2 exp z

2 ) 1

z (

f 2

Una variabile random si dice distribuita normalmente (o secondo una curva gaussiana) se la sua funzione di densità di probabilità è del tipo:

µ rappresenta il valore centrale, che in questo caso corrisponde anche alla media della distribuzione, mentre σ2 è la varianza.

In molti casi si preferisce introdurre per praticità la variabile random Z, espressa dalla relazione:

Z =

Se X è distribuita normalmente anche Z lo è e la sua funzione di densità di probabilità è data da:

nota come funzione di densità di probabilità normale standard.

(2)

Come per ogni funzione densità di probabilità anche per f(z) vale la relazione:

La probabilità che la variabile random Z sia compresa fra due valori z1 e z2, P(z1 ≤ z ≤ z2), corrisponde all’area sottesa dalla curva gaussiana fra i due valori ed è calcolabile dalla relazione:

+∞

=1 dz ) z ( f

2

z

z1

f ( z ) dz

f(z) è una curva simmetrica centrata sul valore 0 e con varianza 1 e spesso viene indicata con la notazione N(0,1).

L’integrale, detto Q, di f(z) fra –∞ e un certo zQ corrisponde alla frequenza cumulativa relativa per tale zQ (quantile).

(3)

infatti la probabilità che la variabile Z sia inferiore ad un generico valore zQ è data direttamente da F(zQ),

mentre P(z1 ≤ z ≤ z2) = F(z2) - F(z1)

Gli intervalli di valori di z del tipo –n → n, con n intero, delimitano porzioni caratteristiche dell’area sottesa alla curva gaussiana standard.

In particolare:

fra z = -1 e z = 1 è racchiuso il 68.3 % dell’area sottesa totale;

fra z = -2 e z = 2 il 95.4 % fra z = -3 e z = 3 il 99.7 %

-3

2 dz

2 exp F(z) 1

z 2





−

= z

π

Il calcolo di P può essere effettuato anche a partire dalla curva di distribuzione normale standard, F(z):

(4)

Ragioni dell’importanza della curva gaussiana

Ci sono almeno quattro ragioni che giustificano l’uso esteso della curva gaussiana per le variabili random:

 l’esperienza pratica mostra che la curva gaussiana è la più appropriata per descrivere la variazione della misura di molte grandezze chimico-fisiche;

 la distribuzione gaussiana è stata studiata a fondo ed i suoi valori sono facilmente accessibili in forma di tavole;

 molte tecniche statistiche basate sulla distribuzione normale sono statisticamente robuste, ossia rimangono approssimativamente corrette anche in presenza di scostamenti ragionevolmente grandi dalla normalità;

 in virtù del Teorema del Limite Centrale, molte distribuzioni campionarie appaiono essere gaussiane a prescindere dalla distribuzione effettiva della popolazione a cui si riferiscono, purché le dimensioni del campione (ossia il numero dei dati considerati) siano sufficientemente elevate.

(5)

Il teorema del limite centrale, dimostrato nel 1922 dal matematico e statistico finlandese Jarl Waldemar Lindeberg, afferma che:

“date le variabili random X1, X2, …Xn, ciascuna delle quali caratterizzata da una media µi e varianza σi2, la variabile data dalla loro somma tende ad una distribuzione normale di media Σiµi e varianza Σi σ i 2 al tendere di n ad infinito”.

Si noti che le variabili Xi del teorema potrebbero essere rappresentate anche da valori derivanti da una stessa popolazione, dunque essere distribuite allo stesso modo.

Le fluttuazioni nelle misure analitiche, dovute a fonti diverse (strumentali, ambientali, umane, ecc.), possono essere considerate derivanti dalla combinazione lineare di componenti diverse aventi distribuzioni indipendenti.

Per il Teorema del Limite Centrale tale combinazione, e quindi l’errore random ad essa legato, può avere una distribuzione normale.

(6)

Nella figura mostrata a lato si mostra l’effetto della combinazione fra un certo numero di valori ottenuti lanciando un dato per molte volte.

In questo caso la variabile

random (discreta) è

rappresentata dal punteggio ottenuto lanciando il dado, che può andare da 1 a 6 con la stessa probabilità per ciascun punteggio (1/6), se il dado non è truccato.

Come si può vedere, via via che si aumenta il numero di punteggi sommati l’istogramma che rappresenta la densità di probabilità si avvicina sempre più ad una funzione gaussiana.

(7)

Si dice che una variabile random X è distribuita secondo una distribuzione χ2 con ν gradi di libertà (una funzione scoperta dall’ottico Ernst Abbe nel 1863) se la sua curva di densità di probabilità è data da:

con ν > 0 e 0 ≤ x ≤ +∞

Γ è la funzione gamma:

 Media di una distribuzione χ2 : ν

 Varianza di una distribuzione χ2: 2ν

Distribuzione chi-quadro (χ

2

)

/2) (

2 ) e

(

ν /2/2 1

ν

-x/2

ν

= x Γ

x

f

= − 0

1dx xm

x e- Γ(m)

x

f(x) gradi di libertà

x f(x)

x

f(x) gradi di libertà

(8)

Proprietà principali della distribuzione chi-quadro

 date le variabili random X1, X2, …,Xn, ciascuna distribuita secondo una distribuzione normale standard N(0,1),

la variabile data dalla somma dei loro quadrati è distribuita secondo una distribuzione χ2 con n-1 gradi di libertà (χ2n-1)

 date le variabili random X1, X2, …,Xn, ciascuna distribuita secondo una distribuzione normale N(µ,σ2),

la variabile Σi (Xi - X )22 = (n-1)s22 è distribuita anch’essa come una χ2 con n-1 gradi di libertà

 se le variabili X1 e X2 sono distribuite indipendentemente come χ2ν1 e χ2ν2, la variabile data dalla loro somma è distribuita come χ2ν1+ν2.

(9)

Una distribuzione t di Student (William S. Gosset, 1908) a ν gradi di libertà è descritta matematicamente dalla seguente funzione di densità di probabilità:

Distribuzione t di Student

{ }

2 ( 1)/2

2 /

1

1

) 2 / (

2 / ) 1 (

) ) (

(

+

 

 

  + Γ

+

= Γ

υ

υ υ

υ

πυ x

x f

La distribuzione t di Student

 è simmetrica intorno al valore x = 0

 ha una varianza V(x) = ν/(ν-2) se ν > 2, altrimenti è infinita

 tende ad una

distribuzione gaussiana per ν che tende ad infinito.

con: =

0

1dx xm

x e- Γ(m)

(10)

Proprietà fondamentale della distribuzione t di Student:

se A e B sono due variabili random indipendenti, distribuite rispettivamente come N(0,1) e χ2ν, la variabile random Z = A/(B/ν)1/2 è distribuita secondo una funzione t di Student con ν gradi di libertà.

Poiché per una variabile X ~ N(µ,σ2) la variabile random:

è distribuita secondo una curva normale standard, N(0,1),

mentre la variabile random:

è distribuita secondo una distribuzione χ2n-1, la variabile random:

è distribuita secondo tn-1.

n / X σ

µ

2

s

2

) 1 n (

σ

{ ( n 1 ) s / ( n 1 ) } s X / n

) n /

/(

) X

(

2 / 2 1

2

µ

= −

− σ

σ µ

(11)

Distribuzione F

Si dice che una variabile random è distribuita secondo una distribuzione F (nome attribuitole in onore dello statistico inglese Sir Ronald Fisher, che la introdusse nel’analisi della varianza nel 1924) con gradi di libertà ν1 ed ν2 se la sua curva di densità di probabilità è del tipo:

(

1 2

)

12 2

2 1

2 1 2 2

2 1 1/ 2 1

2 x 2

2 x )

x (

f ν +ν

ν ν

ν +

ν

Γ ν

Γ ν

ν +ν Γ





ν

= ν

f(x)

x

(12)

Date le variabili random A e B, distribuite rispettivamente secondo χ2ν1 e χ2ν2, la variabile (A/ν1)/(B/ν2) è distribuita secondo una distribuzione 12.

Se dunque X e Y sono variabili random distribuite rispettivamente secondo curve gaussiane N(µ112) e N(µ222)

e, quindi, le variabili (n1-1)s1212 e (n2-1)s2222 sono distribuite rispettivamente secondo χ2n1-1 e χ2n2-1,

la variabile (s12/ σ12)/(s22/ σ22) è distribuita secondo una funzione F con gradi di libertà n1-1, n2-1.

Riferimenti

Documenti correlati

Teorema - Sia data una popolazione numerica infinita di media µ e deviazione standard (scarto quadratico medio) σ da cui ven- gono estratti dei campioni casuali formati ciascuno da

Usando le due squadre, traccio il lato assegnato A-B, lo prolungo di pari distanza e trovo il punto H2. Con apertura di compasso AH, centro in A, traccio un arco e trovo il punto L

Centro in O, apertura OA, traccio una circonferenza5. Riporto sulla

Usando le due squadre, traccio il lato assegnato A-B e il relativo asse2. Centro in O, con raggio OA, traccio una

Centro in O, con raggio O ’ BA, traccio un arco e trovo il punto O, centro del decagono.. Centro in O, con raggio OA, traccio una

Usando le due squadre, traccio il lato assegnato A-B e il relativo asse r 2.. Centro in O, con raggio OA, traccio

Il problema è che esso non può essere calcolato con i metodi analitici elementari, per cui bisogna seguire qualche altra strada6. In particolare, si può verificare che

Testi degli esercizi.. I voti di un questionario di matematica vanno da 1 a 10, in funzione del numero di risposte esatte date dai candidati ad una serie di 10 domande. Il voto medio