Metodo di massima verosimiglianza (cenni) ‘ Maximum Likelyhood’

(1)

Metodo di massima verosimiglianza (cenni)

‘ Maximum Likelyhood’

In un processo di misura (con misure ripetibili ed indipendenti) sono state fatte N misure differenti, x₁, x₂, x₃, … x_N. Sia m il valore vero (non noto) dell’osservabile e P(m) la distribuzione di probabilità seguita dai dati sperimentali.

Sia m’ la stima del valore vero, a partire dai dati sperimentali, attraverso un qualsiasi algoritmo.

La probabilità di ottenere la sequenza delle misure osservate è dato dal prodotto delle probabilità di avere le singole misure

Secondo il metodo della massima verosimiglianza il valore più probabile per il valore vero m’ è quello che massimizzerà il valore della probabilità P(m,x₁,..x_N)

 ^' ^, ^, ^, ^,..  ⁽ ^' ^, ⁾

3 1 2

1 i

N

N i

P x

x x

P m m





(2)

Nota:

Nell’ipotesi in cui la distribuzione P(m) sia una gaussiana utilizzando il metodo della massima verosimiglianza possiamo dire che:

Il valor medio è il valore più probabile del parametro m della gaussiana

La deviazione standard è il valore più probabile per il parametro s della Gaussiana

Se il valor medio è il valore più probabile per il parametro m della gaussiana, allora attraverso la propagazione degli errori possiamo estrarre la stima dell’errore sul valor medio.

 

2

2 1 '

2 , 1

, )

, (



 



  



^s

m

 m s

s m

x

i

P x e

x P

N

N N N

N N

x x x

N _i _N ⁱ ^x ^x

s s

s s s

s s

m s m s

s m

m m

m



 



 



 

 



 







 





 



 







 



 







 







2 2

2

1 2

..

1

.... 1 1

1 1 ..

2

1 Notate che, poiché le misure

sono ripetute ed indipendenti, hanno tutte la stessa incertezza s

(3)

Analogamente, nel caso le misure ripetute ed indipendenti, abbiano una differente incertezza il metodo della massima verosimiglianza porta alla media pesata

e con la propagazione degli errori si arriva alla definizione dell’errore sulla media pesata

2

1

i i

i i i

i i

w w x w

m   s



2 / 1 2

1





 



 





i

i i

i

w w

s

m

s

(4)

Note e modalità d’uso della regressione lineare

La regressione lineare è un metodo analitico per trovare la migliore linea retta che interpola una serie di punti sperimentali. La regressione lineare utilizza il metodo dei minimi quadrati che può essere considerato un caso particolare del metodo di massima verosimiglianza.

Voi sapete che:

Caso 1

nel caso in cui si abbiano coppie di misure (x_i,y_i) in cui l’errore sulla osservabile x sia

sostanzialmente assente mentre l’errore sulla osservabile y sia COSTANTE di tipo casuale, gaussiano e ascrivibile alla deviazione del punto y dalla linea retta allora possiamo dire che:

 

²

1 2

2 2

2

2 2

2

1







 



 

N

i

i i

y

i y

a

y b

ax b

N y

x N

s

s s

In questo caso s_y da una stima dell’incertezza presente sulle misure in y, valutate sempre il suo senso fisico. Attenzione s_yNON è l’errore sulla Y estrapolata (vedi dopo)

 

²

2

1 2

1









 



 







i i

i i i

i i

i i i

i

x x

N

y x x

y x

a

y x

y x N

b

a bx

y

(5)

 



^x ^x ^x



^N

x

x N x

N

i y y

a

y y

b

2 2 2

2

2 2 2

2

2 1

s s s

 

 

 

 



Nota:

Le incertezze sui parametri della retta diminuiscono:

• aumentando il numero di punti della regressione lineare

• Scalano quadraticamente

• aumentando l’intervallo entro cui ho fatto le misure

•Aumentando cioè il temine

• riducendo l’errore sulle singole misure

• Riducendo cioè s_y



^x² ^ ^x²



Riscriviamo l’errore sui due parametri della retta:

(6)

Esempio Caso 1

Per ottenere la velocità di un corpo si misura la sua posizione a vari tempi. Sapendo che la relazione tra la posizione del corpo s al tempo t è data dalla legge s = v t trovare con la regressione lineare la velocità del corpo. Si ipotizzi di avere un cronometro perfetto.

Notate che nell’esempio non si fa nessuna menzione sull’errore nella misura delle osservabili, viene solamente specificato che l’errore sul tempo è trascurabile rispetto a quello sulla posizione.

Notate che il metodo di regressione lineare valuta in 6.68 cm la deviazione standard su ciascuna misura di posizione. E’ realistica ?

Notate che la regressione lineare evidenzia la presenza di un termine noto. E’ fondamentale interrogarsi sul suo significato fisico. In questo caso per t=0 la posizione del corpo è in -263 quindi ho ottenuto anche la posizione del corpo nell’instante in cui la misura è iniziata.

In altri casi può essere un indizio per la presenza di un errore sistematico nei dati

(7)

Caso 2:

Ipotizziamo ora il caso in cui si abbiano coppie di misure (x_i,y_i) in cui l’errore sulla

osservabile x sia sostanzialmente assente mentre l’errore sulla osservabile y sia COSTANTE di tipo casuale, gaussiano, NOTO sperimentalmente

Sia cioè

Dove ko è l’errore sperimentale sulla variabile y (in generale, essendo per ipotesi costante per tutte le y, è un errore strumentale)

Le formule sono le stesse di prima, cambia solo s_y che stavolta non viene calcolato ma si usa il valore sperimentale.

o y

i y

a

y b

k

x N



 



s

s s

2 2

2

2 2

o y  k s

 

²

2

1 2

1









 



 







i i

i i i

i i

i i i

i

x x

N

y x x

y x

a

y x

y x N

b

a bx

y

(8)

Esempio Caso 2

Per ottenere la velocità di un corpo si misura la sua posizione a vari tempi. Sapendo che la relazione tra la posizione del corpo s al tempo t è data dalla legge s = v t trovare con la regressione lineare la velocità del corpo. Si ipotizzi di avere un cronometro perfetto e che l’errore sulla misura della posizione sia pari a 2 cm

Notate che questa volta viene dato l’errore nella misura delle osservabile y,.

Notate che non sono cambiati i valori di termine noto ed intercetta ma solo le loro incertezze

Risultati del caso 1

(9)

Caso 3.

Cosa succede nel caso sia nota la deviazione standard sull’osservabile x e y.

Supponiamo inizialmente che la deviazione standard sia strumentale e quindi costante per tutte le misure, inoltre sia che s_y > s_x. Il problema può diventare:

Per ottenere la velocità di un corpo si misura la sua posizione a vari tempi. Sapendo che la relazione tra la posizione del corpo s al tempo t è data dalla legge s = v t trovare con la regressione lineare la velocità del corpo. Sia s_y = 2 cm e s_x = 3 s

Come nel caso precedente l’errore sulla posizione è dominante rispetto a quello sul tempo.

L’errore sul tempo tuttavia non è trascurabile.

Per poterci ricondurre al caso precedente dobbiamo 1 -- ricondurre alla ordinata l’incertezza sull’ascissa

2 – utilizzare la misura sperimentale dell’incertezza sull’ordinata

(10)

Per poterci ricondurre al caso precedente dobbiamo 1 -- ricondurre alla ordinata l’incertezza sull’ascissa

in prima approssimazione, sapendo che y = bx+a posso dire che:

quindi

2 – utilizzare la misura sperimentale dell’incertezza sull’ordinata

allora uso come valore di s_y il valore della relazione soprascritta

(exp) (exp)

)

( ² ² ²

2

x y

y tot s b s

s  

x x

y b

x

y s s

s  



 







 

(11)

Esempio CASO 3

Per ottenere la velocità di un corpo si misura la sua posizione a vari tempi. Sapendo che la relazione tra la posizione del corpo s al tempo t è data dalla legge s = v t trovare con la regressione lineare la velocità del corpo. Sia s_y = 2 cm e s_x = 3 s.

t [s] st/t s [cm] ss/s

1 325 0,9% -20 -10,0%

2 375 0,8% 17 11,8%

3 425 0,7% 42 4,8%

4 475 0,6% 94 2,1%

5 525 0,6% 127 1,6%

Notate che non è cambiato il valore dell’intercetta e del termine noto ma sono cambiate le loro incertezze (in questo caso più che dimezzate, ma potrebbero benissimo aumentare).

(12)

Caso 4

Cosa succede nel caso sia nota la deviazione standard sull’osservabile y.

Supponiamo ora di avere una differente incertezza per ciascuna misura sulle y e che non esista incertezza sulla misura dell’osservabile x. Sia inoltre s_y > s_x.

Per ottenere la velocità di un corpo si misura la sua posizione a vari tempi (vedi tabella).

Sapendo che la relazione tra la posizione del corpo s al tempo t è data dalla legge s = v t trovare con la regressione lineare la velocità del corpo.

Allora non è possibile ricondursi ai casi precedenti ed è necessario usare una nuova relazione per estrarre a e b colle rispettive incertezze. La nuova relazione non è altro che la precedente pesata sulle incertezze dei dati sperimentali.

(13)



 

 

 



 

 

 

 



 

 

 

 



 





2 2 2

2 2

2

2 2

1 1

1

i b

i i a

i i i

i i

i

i i i

i i

i i i

i i

x

y x x

y a x

y x

y b x

x x

s s s s

s s

s

Le nuove relazioni diventano (pg. 201 Taylor):

(14)

Esempio Caso 4

Per ottenere la velocità di un corpo si misura la sua posizione a vari tempi (vedi tabella).

Sapendo che la relazione tra la posizione del corpo s al tempo t è data dalla legge s = v t trovare con la regressione lineare la velocità del corpo.

Notate che rispetto ai casi precedenti sono variati sia i valori di a e b sia la stima della loro incertezza

(15)

Nota sull’intercetta in una regressione lineare

Supponiamo di aver misurato il periodo del pendolo al variare della sua lunghezza

Oppure è possibile fare una regressione lineare

Dai dati si può direttamente

estrarre l’accelerazione di gravità per ogni lunghezza

Notate che:

• il valore di g estratto con la regressione lineare è più basso di ogni valore estratto dalle misure

• L’intercetta è differente da zero (negativa) per cui risulterebbe che un pendolo di lunghezza pari a 0.7 cm oscillerebbe con periodo 0,ovviamente un non-senso fisico

(16)

Un termine noto differente dal valore atteso (in questo caso zero) è una evidenza di errore sistematico !

 

 



 4

²



₂

T g  L

In un pendolo il termine noto deve essere nullo, se L=0, allora non ho un pendolo e quindi T=0 1 2

2 1 2

2 2

2

4 L L

T T

a g b

L a

T 

 







 

(17)

sempre g g L

b aL

T

g L g L

L g L

g L T

L L

L

aL T

g L T

misurato

misurato misurato

vero

misurato vero

misurato

2 0

2 2

0 2 2

0 2

2 2

0 2 2

2

è 4 angolare te

coefficien il

mentre

4 0 b noto termine

un Compare

4 ) 4

4 ( ) 4 (

L su o sistematic Errore

ideale 4 Caso







































 il valore dell’accelerazione di gravità ottenuto dalla regressione lineare è differente da quello estratto direttamente con la formula del pendolo.

 Il valore corretto è quello estratto con la regressione lineare, infatti:

 il coefficiente angolare della retta non dipende da L_o  a = 4²/g

 il valore di g estratto direttamente dai dati dipende da L₀

g = 4²(L+L_o)/T²

 Il termine noto indica direttamente Lo cioè l’errore sistematico sulla misura della lunghezza del pendolo

(18)

2 0 2

misurato 0

2 2

2

2 2

2

2 2

0

T b zione approssima

prima in

e 0 noto

termine con

ma

retta una

avere ad

ritorna si

altri agli

rispetto piccolo

molto sia

2 termine

il cui in caso Nel

acquisiti.

dati nei vederlo dovreste

questo e

retta, una

è non quindi

curva La

L x e T

y Sia

costante.

una è T dove

4 2

: quadratica

ma lineare più

è non quindi

relazione la

2 4 )

(

che 4 dice fisica la









































b

T k

y k b ax y

T T

T g L

T

g L T

T T

g L T

T T

T

T su o sistematic Errore

o o misurato o

misurato

o misurato o

misurato o

misurato vero

vero misurato

vero



 anche in questo caso il valore dell’accelerazione di gravità ottenuto dalla regressione lineare è differente da quello estratto direttamente con la formula del pendolo.

 Il processo di regressione lineare non è corretto in quanto l’equazione di partenza non è una

retta e i coefficienti a e b ricavati derivano dalla linearizzazione di una curva

 Il valore estratto dalla regressione, in genere, dovrebbe essere tuttavia meno dipendente dall’errore sistematico

(19)

(20)

Nota importante – Verifica della dipendenza funzionale

La regressione lineare puo essere applicata su un qualsiasi insieme di coppie di punti, Indipendentemente dal fatto che questi punti siano su una retta o meno

Spesso, analizzando i dati, è importante verificare se l’ipotesi che i punti siano su una retta (e quindi l’operazione di regressione lineare) sia verosimile

(21)

Oppure:

Nell’indagine sperimentale può capitare di dover scegliere tra due o piu dipendenze funzionali per i propri dati sperimentali. Il coefficiente di correlazione

NON è uno strumento particolarmente sensibile

Un criterio per verificare una regressione lineare (basato su valutazioni statistiche) è il test del c² che già è stato adoperato per verificare se una distribuzione

sperimentale poteva essere descritta con una distribuzione teorica ipotizzata

Dal valore del c² ridotto, noti i gradi di libertà, si puo’ decidere se sia corretto o meno effettuare una operazione di regressione lineare sui dati sperimentali

   



 



 



 

^N

i y

m N m

i i

m

i ax i b y i ax i b

y

1

2

1

2

( ) ( ) ( ) ( )

s c s

.

2

Re 2 2

 

Lin g Punti

RID

N

c c

(22)

Esempio 1

Esempio 2

(23)

Estrapolazione - Interpolazione

La procedura di calcolo della variabile Y (non misurata) è detta interpolazione quando il valore della x è compreso tra due valori di X misurati. E’ detta invece estrapolazione quando il valore della X è all’esterno dei valori misurati

Il valore della Y estrapolata/interpolata si ottiene applicando la relazione lineare sul valore di x₀

Più complessa risulta l’estrazione dell’incertezza della osservabile interpolata/estrapolata Y infatti:

- Il punto di partenza sono le coppie di misure (x_i,yi)

- da queste coppie di misure sono stati estratti i parametri a, s_a, b, s_b

- da questi parametri vogliamo ora estrarre una y_o (interpolata o estrapolata) a partire da una determinata x₀

- da questi parametri vogliamo ora estrarre la corrispondente s_y0 - posso usare la propagazione degli errori

- Attenzione che stavolta l’errore di a e quello di b sono correlati perche sono estratti da un medesimo dataset

a bx

y

₀



₀



(24)

Estrapolazione - Interpolazione

Devo usare il termine di covarianza nella relazione di propagazione degli errori

Eseguendo un certo ammontare di conti si arriva alla relazione più semplice:

Quindi, come già preannunciato, l’errore sulla Y interpolata/estrapolata NON è la s_y ma qualcosa di più complesso

)

; cov(

2 2

2 0

0

b b a

y a

y b

y a

y a bx

y

b a

y 



 







 



 







 



 







 



 







 





s s

s

   

 

(exp) (exp)

) ( 3

li sperimenta dati

dai data 2

2 1 1

cioè y le sperimenta e

osservabil sulla

errore l'

è :

2

2 2 2

2

1 2

2

1 0 2

2 2 2

0 0 0

x y

y y

y

N

i

i i

y y

N

i i y b

a y

b tot

Caso

ko Caso

ax b N y

Caso Nota

x x x

a bx y

s s

s s s

s s







 



 













(25)

Esempio

Metodo di massima verosimiglianza (cenni) ‘ Maximum Likelyhood’