• Non ci sono risultati.

Distribuzione Gaussiana - Facciamo un riassunto -

N/A
N/A
Protected

Academic year: 2021

Condividi "Distribuzione Gaussiana - Facciamo un riassunto -"

Copied!
15
0
0

Testo completo

(1)

Nell’ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard

• La prossima misura ha il 68 % di probabilità di cadere all’interno dell’intervallo

• La prossima misura ha il 95 % di probabilità di cadere all’interno dell’intervallo

• La prossima misura ha il 99.7 % di probabilità di cadere all’interno dell’intervallo La deviazione standard quindi:

• E’ una quantità associata alla singola misura

• E’ una stima quantitativa della incertezza su una singola misura

• E’ una stima quantitativa della dispersione delle singole misure

• E’ una stima della larghezza della distribuzione di probabilità delle misure

• NON è una stima dell’errore del valor medio ottenuto

• NON è una stima dell’incertezza statistica presente nel nostro valor medio

• NON dipende dal numero di misure effettuate

• Che variabile statistica quantifica l’errore/incertezza presente nel valor medio ?

Distribuzione Gaussiana - Facciamo un riassunto -

x;x

x2;x2

x3;x3

(2)

Deviazione Standard della Media

Abbiamo visto precedentemente (e si può dimostrare con il teorema del limite centrale) che l’incertezza a cui è soggetto il valore medio è data dal rapporto della deviazione standard con la radice quadrata del numero di misure effettuate.

Altri nomi della Deviazione Standard della media (SDOM) sono:

• Errore Standard

• Errore Standard della Media

• La Deviazione Standard della media decresce con l’aumentare del numero di misure

x

N

m

 

  

 media della

standard Deviazione

Nell’ipotesi di:

• Aver effettuato N misure della medesima quantità (misure ripetute ed indipendenti).

• NON siano presenti errori sistematici.

C’e’ il 68% di probabilità che il valore xvero sia all’interno dell’intervallo (xbest – m; xbest + m).

Il valore xbest è estratto attraverso il processo di media.

Analogamente per il 95% ed il 99.7% di probabilità con 1.96m e 3m

(3)

DEFINIZIONI

La deviazione standard è una stima dell’incertezza sulla singola misura, in altre parole è una valutazione quantitativa delle fluttuazioni casuali e quindi di come si disperdono le singole misure attorno al valore medio. In particolare, nella gaussiana, esiste il 68% di probabilità che una singola misura sia all’interno dell’intervallo (xbest – ; xbest + )

Deviazione Standard 

Deviazione Standard della Media 

m

La deviazione standard della media è una stima dell’incertezza sul valor medio, in altre parole è una valutazione quantitativa di quanto (in assenza di errore sistematico) xbest è lontano da xvero . In particolare, esiste il 68% di probabilità che xvero sia all’interno

dell’intervallo (xbest – m; xbest + m)

(4)

Nota Importante

Voglio conoscere il valore di una osservabile m attraverso una operazione di misura.

Ipotizzo che i dati si distribuiscano secondo una gaussiana attorno al valore medio Effettuo N misure (indipendenti e ripetibili) dell’osservabile.

• Estraggo il valore medio xbest (la migliore stima del valore vero)

• Estraggo la deviazione standard del campione s (la migliore stima di )

• Estraggo la deviazione dalla media sm (la migliore stima del mio errore)

• Estraggo il valore dell’osservabile ‘z’

• Posso quindi affermare che ho il 68% (z=1) di probabilità che il valore vero sia nell’intervallo (xmedio ± m) o il 99.7% (z=3) che il valore vero sia nell’intervallo (xmedio ± 3m)

Tuttavia:

• per estrarre la deviazione dalla media devo usare la deviazione standard, che tuttavia non conosco ma di cui ho una stima (la deviazione standard del campione) non

necessariamente corretta.

• Come posso stimare l’errore della misura o la variabile ‘z’ se non conosco il valore vero della deviazione standard ?

• Se il numero di misure N è ‘piccolo’ posso aspettarmi che il valore della deviazione standard del campione possa essere molto differente dal valore vero della deviazione

standard

x0

z xbest

(5)

Il grafico riporta l’andamento della deviazione standard al variare del numero di misure nel caso di un dado equiprobabile. Il valore ‘vero’ è indicato dalla linea gialla.

Osservate che dopo 3-5 tiri la deviazione standard del campione può essere molto differente dal valore vero della deviazione standard

Per risolvere questo problema bisogna studiare la distribuzione dell’osservabile ‘z’ quando è estratta usando la deviazione standard del campione di N misure. Questa osservabile è in linea di principio differente dalla ‘z’ e molti libri la definiscono come ‘t’

(6)

La distribuzione dell’osservabile ‘t’ è stata calcolata da William Sealy Gosset, nel 1905 con lo pseudonimo di Student e quindi nella storia passata come “Student’s t distribution” ed è data dalla relazione:

Dove G indica una funzione matematica speciale (vedi pg. 196 del Bevington).

Nella formula l’osservabile ‘n’ indica il numero di gradi di libertà (n = N-1 se dal medesimo set di dati si estrae anche il valor medio) e l’osservabile ‘t’ è data dalla relazione

P(t,n) indica quindi la probabilità di ottenere in una misura un valore che corrisponde ad un determinato valore di t avendo fatto un numero di misure pari a N che corrispondono a n gradi di liberta.

P(z) è l’equivalente di P(t,n) per una gaussiana -> Esempio P(Z=1)=68%

-Nel caso di una gaussiana, la probabilità di ottenere un valore superiore a |xo+x| in una misura (che corrisponde a z=1) è del 68%

Notate che non c’e’ dipendenza dal numero di misure

 

 

 

1/2 2

2 1 /

2 / 1 ) 1

, (

 

 

  G

 G

n

n n

n

n n t

t p

dati dai

estratta standard

deviazione

dati

dai estratto medio

valor

0

 

x x

x x x

t  

(7)

Nota:

• La distribuzione ha code più lunghe rispetto alla Gaussiana standard

• All’aumentare di N la distribuzione "t" di Student tende alla Gaussiana standard.

0 0.1 0.2 0.3 0.4

-8 -6 -4 -2 0 2 4 6 8

f(t)

t di Student (n=2)

t

gaussiana

n

p=0.1

p=0.1

Notate che, nel caso di tre misure (n=2) la probabilità di ottenere

|t|  2 con una distribuzione gaussiana è più bassa (4.6%) che con la distribuzione ‘t Student’

18.3%.

Questo andamento è intuitivo poiché non conoscendo il valore vero di  devo ridurre la

predittività della misura

Esempio 2, una probabilità inferiore al 5% (su un dataset di tre misure) la ottengo con dato che dista circa 4.1  dal valore medio (non 2)

(8)

La pagina 266 del Bevington (e la tabella che segue) indicano il valore dell’integrale della distribuzione della ‘t’ di Student nell’intervallo da x1 = <x> - tx a x2 = <x> + tx fissato il valore dell’osservabile ‘t’ e del numero di gradi di libertà.

Facciamo un esempio:

• Vengono fatte n (numero piccolo) misure e si ottiene un valor medio di 5,88 ed una deviazione della media di 0,31 (Il valore atteso è pari a 6.50)

• Nel caso di una distribuzione gaussiana il parametro z assume un valore pari a

z = (6.50-5,88)/0.31 = 2, in altre parole il valor medio misurato dista due deviazioni standard della media misurate dal valore atteso.

• Se la deviazione standard misurate fosse esattamente quella vera (e quindi anche la deviazione dalla media) potremmo dire che esiste il 4.6 % di probabilità che la distanza tra il valore misurato ed il valore atteso sia dovuto alle fluttuazioni statistiche

• la misura, tuttavia, ha dato solo una stima, non necessariamente precisa, della deviazione standard. Lo sperimentatore NON conosce il vero valore di 

• Questo è il tipico caso in cui è utile la distribuzione della ‘t’ Student

(9)

Quindi:

L’osservabile ‘z’ è una variabile statistica definita come

Dove la deviazione standard tot indica la deviazione standard ‘vera’ , quindi non nota a meno di fare infinite misure, della differenza (<x> - x0)

Come per tutte le variabili statistiche quindi ‘z’ sarà nota con una certa precisione, questa dipende soprattutto dalla precisione con cui si conosce tot

Ogni affermazione statistica che fa uso della variabile ‘z’ deve tenere conto del fatto che

‘z’ può avere una sua incertezza, quindi nel caso della stima della probabilità di una gaussiana:

Se ho un elevato numero di misure

- Posso considerare  misurata praticamente uguale alla  vera e quindi usare la probabilità integrale della gaussiana (osservabile z)

-Se ho poche misure

- E’ possibile che la  misurata sia differente dalla  vera, quindi per tenere conto di questa incertezza non devo usare la probabilità integrale gaussiana ma la tabella della ‘t’ di Student

tot

x z x

0

 

(10)

La tabella degli integrali della distribuzione ‘t Student’ (distribuzione a due code) per t = 2 La tabella ERF mi dice che P(z=2) = 4.6% (ma non è necessariamente vero che t=z)

Notate che si usa z per la gaussiana e t per ‘Student’

Notate che per un numero infinito di misure t=z (le due distribuzioni sono uguali) Notate che il risultato dipende dal numero di misure

Notate che la tabella fornisce la compatibilità o meno tra valori medi o tra una media e un valore atteso. In altre parole indica la probabilità entro il quale ci aspettiamo che il valore atteso sia entro due sigma o sigma-m

Gradi di Liberta Numero Misure Probabilità che la differenza di due  dal valor medio sia dovuta ad una fluttuazione statistica (t=2)

2 3 18.3 %

3 4 13.9 %

4 5 11.6 %

5 6 10.2 %

8 9 8 .0%

10 11 7.3 %

20 21 5.9 %

50 51 5.1 %

infinite Infinite 4.6 %

(11)

La tabella C.8 pg 266 del Bevington

Notate che se (con tre misure) ottengo t = 2 allora ho una Probabilità di 1-0.817

= 18.3% che le

misure appartengano alla distribuzione statistica attesa

La tabella da l’integrale interno

(12)

Cosa bisogna fare quando ho poche misure:

Esempio:

ho 4 Misure che mi hanno dato un valore medio di 5.32 ed una deviazione standard della media 0.17.

Voglio verificare la compatibilità di questo risultato con un valore atteso di 4.92.

La funzione ERF della gaussiana (‘z’), poiché costruita con la deviazione standard del campione non produce le corrette probabilità

Estraggo l’osservabile ‘t’ usando la deviazione standard misurata

tstud = (5.32 – 4.92)/0.17 = 2.35

Utilizzando la tabella della ‘t di Student’ trovo la probabilità associata alla ‘t’ ottenuta

P(esterna,tstud=2.35) = 1 – 0.90 = 0.1

Ricavo la probabilità equivalente a 0.1 = 10% con la funzione ERF gaussiana

P(gaussiana-esterna)= 10% -> zgauss = 1.64

Eseguo tutti i ragionamenti di compatibilità come se la ‘t’ ricavata dai miei dati sperimentali fosse 1.64

Poiché zgauss < 2 allora il dato sperimentale è compatibile con il valore atteso

Ho il 10% di probabilità che la differenza tra la mia misura e il valore atteso sia di origine statistica e quindi lo accetto

Se non avessi usato la distribuzione di ‘Student’ avrei concluso la NON compatibilità tra il dato sperimentale e quello atteso . La bassa statistica invece rende la misure compatibili

(13)

N Misure-1

P(t, n )=P(2.35,3) ≈ 90 % 1- P(2.35,3) = 10%

T di student

Gaussiana

P(z)=90 %  z = 1.65

(14)

L’esempio di prima ci dice che

Se avete 4 Misure (cioè 3 GDL) e volete trovare l’intervallo in cui cadono il 90% delle misure (cioè un C.L. del 90%) allora l’intervallo sarà dato da ± tstud  con tstud =2.35.

Se fosse stata usata la statistica gaussiana ‘pura’ avrei dovuto avere un intervallo pari a z z1.65 Altro esempio

Se avete 4 misure (i.e. 4 -> 3 GDL) e volete un risultato ad un C.L. 99.7% cioè volete trovare l’intervallo entro il quale cadono il 99.7 % delle misure allora tstud deve essere pari a circa 9.2. e quindi l’intervallo sarebbe ± tstud

Se fosse stata usata la statistica gaussiana ‘pura’ avrei dovuto avere un intervallo pari a z z3

In questo caso quindi l’intervallo diventa enorme e poco utile/predittivo. Poche misure sono poco predittive.

http://www.tutor-homework.com/statistics_tables/statistics_tables.html

(15)

Livello di confidenza

Abbiamo visto che nel caso di un numero infinito di misure ripetibili ed indipendenti che si distribuiscano secondo una gaussiana il 68 % dei dati sperimentali deve cadere all’interno di una deviazione standard.

In altre parole abbiamo un “livello di confidenza” che, eseguendo una misura più volte, nel 68% dei casi il risultato cadrà entro una deviazione standard.

Spesso, ma non sempre, si sceglie la deviazione standard, un livello di confidenza del 68%, come riferimento.

Ovviamente questo non vale per una distribuzione poissionana o piatta.

Per distribuzioni non gaussiane si fa il viceversa, si dice [x1, x2] al 95% C.L.

Questo significa che il 95% delle misure cadono nell’intervallo [x1, x2]

In generale quando la misura è molto più piccola dell’errore (esempio 0.2 ± 12) anche se la distribuzione è gaussiana si usa il livello di confidenza

- ad esempio [-11.8, 12.2] 68% C.L.

Riferimenti

Documenti correlati

I pezzi prodotti, per poter essere assemblati correttamente, devono avere un certo diametro compreso tra 4.8 e 5.2 cm.. Supponiamo che il diametro dei pezzi prodotti, sempre

ii) (3 pt) Si decide di adottare un test unilaterale destro al 90% per capire se il nuovo metodo di rifornimento aumenta la produzione, basato su un cam- pione di numerosità 20. Se

i) (3 pt) Visualizza un istogramma dei valori relativi a 25 giorni e decide inizialmente di usare una v.a. esponenziale di parametro per il prezzo gior- naliero. Utilizza i valori

Il problema è che esso non può essere calcolato con i metodi analitici elementari, per cui bisogna seguire qualche altra strada6. In particolare, si può verificare che

• Un insieme di tante misure (distribuzione di misure) è stato riassunto da due soli valori: la media e la deviazione standard (oppure l’errore sulla media, che non è altro che

dovremmo misurare ?.. La misura di un campione radioattivo ha dato come risultato 66 conteggi in 16 secondi. Nell’ipotesi che il fenomeno segua una distribuzione di tipo

Trovare media, mediana, moda, varianza e deviazione standard dei seguenti dati non ordinati e non raggruppati... Nel rilevare l’altezza in cm di un gruppo di reclute si ` e ottenuta

9) Una certa sostanza radioattiva impiega 80.000 anni per decrescere del 75% della sua massa iniziale.. Dell'acqua si riversa nel lago in ragione di 100 litri al secondo e contiene