Metodo dei minimi quadrati
Marcello Fanti
University of Milano and INFN
Verifica di una legge fisica — Esempio
Si vuole verificare una legge oraria s = f (t) — la funzione f (t) viene da ipotesi sul sistema fisico:
un oggetto che cade in un campo di forza uniforme F = mg ⇒ z = z
0+ v
0t − 1 2 gt
2un oggetto sottoposto a una forza elastica F = −k(x − x
0) ⇒ x = x
0+ A cos(ωt − φ)
⇒ Voglio verificare se la legge del moto ipotizzata `e valida
⇒ Voglio determinarne i parametri
(nel 1
◦esempio: z
0, v
0, g ; nel 2
◦esempio: x
0, A, ω, φ) Come procedo?
1 a diversi istanti t
1, t
2, t
3, . . . misuro le posizioni s
1± σ
1, s
2± σ
2, s
3± σ
3, . . .
2 costruisco una tabella di coppie ( t
k; s
k± σ
k) — eventualmente anche i t
kpossono avere incertezze, quindi le coppie saranno
( t
k± σ
t,k; s
k± σ
s,k)
3 costruisco un grafico cartesiano dei punti ( t
k; s
k± σ
k) sugli assi t ; s e cerco di farmi un’idea se i punti sperimentali possono essere descritti da una leffe s = f (t) ipotizzata
(in certi casi si pu` o osservare ad occhio che NON ` E COS`I. . . )
4 poi per` o mi serve un criterio pi` u quantitativo e rigoroso che mi permetta di stabilire se la mia ipotesi s = f (t) `e supportata dai dati, o `e esclusa.
t
1± σ
t,1s
1± σ
s,1t
2± σ
t,2s
2± σ
s,2t
3± σ
t,3s
3± σ
s,3... ...
t
N± σ
t,Ns
N± σ
s,Ns
s
k?
s = s + v t - (g/2) t
0 0 2Verifica di una legge fisica — Formulazione
In generale:
ipotizzo che due grandezze fisiche misurabili X , Y siano legate da una legge Y = f (X , α
1, . . . , α
p) X , Y sono gli “osservabili”
la legge Y = f (X , α
1, . . . , α
p) `e il “modello fisico” e α
1, . . . , α
psono i suoi “parametri”
Si prelevano N dati sperimentali misurando gli osservabili in diverse condizioni del sistema fisico
⇒ (x
1± σ
x1; y
1± σ
y1) , (x
2± σ
x2; y
2± σ
y2) , (x
3± σ
x3; y
3± σ
y3) , . . . 1 la legge Y = f (X , α
1, . . . , α
p) descrive le osservazioni ?
2 come possiamo stimare i valori dei parametri α
1, . . . , α
p? Assunzioni:
X `e la variabile “indipendente”, scelta dallo sperimentatore per selezionare la condizione del sistema fisico
⇒ `e ragionevole assumere che σ
Xabbia impatto trascurabile (poi vedremo come “rilassare” questa assunzione. . . )
le varie misure di Y sono fra loro indipendenti, e le loro incertezze sono Gaussiane Quindi, se il modello ipotizzato Y = f (X , α
1, . . . , α
p) `e corretto:
il valore “vero” (o “aspettato”) di y
kper un dato x
k`e y
kasp= f (x
k; α) (per brevit` a, indichiamo con α ≡ (α
1, . . . , α
p) la totalit` a dei parametri) la densit` a di probabilit` a di misurare y
kentro un intervallino dy
k`e:
d Prob (y
k)
dy
k= G (y
k; y
kasp, σ
k) = 1
√ 2πσ
ke
−1 2
yk −f (xk ;α) σk
2
Principio di massima verosimiglianza
La probabilit` a di avere misure y
1, . . . , y
Nindipendenti `e:
d Prob (y
1, . . . , y
N) =
N
Y
k=1
d Prob (y
k) = 1 (2π)
N/2Y
k
1 σ
k! e
−1 2
P
k
yk −f (xk ;α) σk
2
| {z }
L(α)
· dy
1· · · dy
NLa funzione L(α) `e la funzione di verosimiglianza (in inglese: likelihood function . . . tanto vale saperlo!)
[si ` e voluta enfatizzare la dipendenza dai parametri α, in realt` a L dipende anche dalle misure (x
1, y
1) , . . . , (x
N, y
N) ]
Principio di massima verosimiglianza — (“maximum likelihood”)
“Se il modello ipotizzato Y = f (X , α) `e giusto, allora la migliore stima dei valori dei parametri α `e data dai valori che massimizzano la funzione di verosimiglianza L(α)”
Osservazioni
1 il principio ` e intuitivo: massimizza la probabilit` a di ottenere le misure effettivamente osservate — osservare dei valori di y
1, . . . , y
Nmolto improbabili, per parametri α dati, sarebbe “inverosimile” (“very unlike”), . . . appunto!
2 se il modello ipotizzato — Y = f (X , α) — `e sbagliato, la stima dei valori di α non ha senso
⇒ come fare a vedere se il modello `e sbagliato? ci ritorneremo . . . 3 tecnicamente, si tratta di un problema di massimizzazione
quasi sempre va risolto con metodi numerici iterativi, al computer
in alcuni casi particolari, esiste la soluzione analitica (es.: fit lineare)
Principio dei minimi quadrati
(`e in realt` a una diretta conseguenza del principio di massima verosimiglianza)
L(α) =
N
Y
k=1
d Prob (y
k)
dy
k⇒ − 2 ln L(α) =
N
Y
k=1
−2 ln d Prob (y
k) dy
k[nel calcolo gestire somme invece che prodotti ` e pi` u comodo . . . il −2 davanti sar` a chiaro a breve . . . ]
massimizzare L(α) ⇐⇒ minimizzare −2 ln L(α)
−2 ln L(α) = N ln(2π) + 2 X
k
ln σ
k+ X
k
y
k− f (x
k; α) σ
k 2| {z }
χ2
I parametri α entrano solo in χ
2⇒ per la migliore stima dei parametri α occorre minimizzare χ
2Validit` a del modello
Se il modello ipotizzato Y = f (X ; α) `e corretto,
⇒ la quantit`a y
k− f (x
k; α)
σ
k`e distribuita secondo una Gaussiana unitaria (media=0, dev.standard=1)
⇒ χ
2= X
k
y
k− f (x
k; α) σ
k 2segue la distribuzione di χ
2: f
χ2(ξ; ν)
Poich´e ho N osservazioni, ma ricavo p parametri, i gradi di libert` a sono ν = N − p
⇒ Da χ
2(minimizzato) e ν posso ricavare “quanto bene” il modello descrive i dati, nel modo usuale:
1 ipotizzo un modello: Y = f (X ; α) 2 calcolo il χ
2dalle misure : χ
2(mis)= X
k
y
k− f (x
k; α) σ
k 2— minimizzato rispetto ai parametri α
3 calcolo la probabilit` a che, dato il modello ipotizzato, le mie misure diano un χ
2peggiore di quello effettivamente ottenuto:
p = Prob
χ
2> [χ
2]
(mis)=
Z
+∞[χ2](mis)
d ξ f
χ2(ξ; ν)
4 se p `e al disotto di una soglia prestabilita (per es. p < 0.05) ⇒ scarto il modello ipotizzato (cio`e Y = f (X ; α)) . . . altrimenti lo accetto, e i valori dei parametri α che minimizzano il χ
2sono la migliore stima
NOTA: questo criterio mi consente di scartare un’ipotesi, ma NON mi consente di concludere che un’ipotesi `e quella
GIUSTA!
Fit lineare — formulazione
Il modello ipotizzato in questo caso `e lineare: Y = A + B · X
⇒ χ
2= X
k
[y
k− (A + B · x
k)]
2σ
k2Per trovare A, B occorre minimizzare χ
2, esiste la soluzione analitica
0 = ∂χ
2∂A = 2 X
k
A + Bx
k− y
kσ
k2= 2
"
X
k
1 σ
k2!
A + X
k
x
kσ
k2!
B − X
k
y
kσ
k2!#
0 = ∂χ
2∂B = 2 X
k
(A + Bx
k− y
k)x
kσ
2k= 2
"
X
k
x
kσ
k2!
A + X
k
x
k2σ
k2!
B − X
k
x
ky
kσ
2k!#
Definiamo i “pesi” w
k def= 1
σ
k2e le quantit` a:
S
w def= X
k
w
k; S
wx def= X
k
w
kx
k; S
wxx def= X
k
w
kx
k2; S
wy def= X
k
w
ky
k; S
wxy def= X
k
w
kx
ky
kS
wS
wxS
wxS
wxxA B
=
S
wyS
wxy⇒
A B
= 1
S
wS
wxx− (S
wx)
2S
wxx−S
wx−S
wxS
wS
wyS
wxyFit lineare — soluzione
Risultato del fit lineare Y = A + BX :
A = S
wxxS
wy− S
wxS
wxy∆
B = S
wS
wxy− S
wxS
wy∆ Ricorda: w
k= 1
σ
k2⇒ nel calcolare S
w ...= X
k
w
k(. . . ) le misure pi` u precise hanno un peso maggiore (giusto!)
S
w= X
k
w
kS
wx= X
k
w
kx
kS
wxx= X
k
w
kx
k2S
wy= X
k
w
ky
kS
wxy= X
k
w
kx
ky
k∆ = S
wS
wxx− (S
wx)
2Senza dimostrazione:
σ
A2= S
wxx∆ ; σ
B2= S
w∆ NOTA: σ
A, σ
B≈ 1
w ≈ σ ⇒ misure pi` u imprecise d` anno maggiori incertezze su A, B (ovvio!)
Fit lineare — esempio
Si vuole determinare la costante elastica k di una molla, appendendo diverse masse m
1, . . . , m
Ne misurando le lunghezze `
1, . . . , `
Ndella molla.
Legge ipotizzata: F = k(` − `
0) ⇒ ` = `
0+ g k m
⇒ poniamo X ≡ m , Y ≡ ` ⇒ Y = A + BX con A ≡ `
0e B ≡ g
⇒ costruiamo la seguente tabella: k
dati sperimentali calcolo dei S
w ...calcolo del χ
2X ≡ massa m (g) Y ≡ lunghezza ` (cm) w wx wy wx
2wxy y − (A + Bx ) y − (A + Bx) σ
2(σ
mtrascurabile) (σ
`= 0.1 cm)
10 12.9 100 1000 1290 10000 12900
20 13.3 100 2000 1330 40000 26600
30 13.6 100 3000 1360 90000 40800
40 14.2 100 4000 1420 160000 56800
50 14.7 100 5000 1470 250000 73500
60 14.9 100 6000 1490 360000 89400
70 15.4 100 7000 1540 490000 107800
80 16.1 100 8000 1610 640000 128800
90 16.5 100 9000 1650 810000 148500
Somme ⇒ 900 45000 13160 2850000 685100
⇒ si ricava A = (12.36 ± 0.07) cm e B = (0.0452 ± 0.0013) cm/g = (0.452 ± 0.013) m/kg
MA IL MODELLO ` E BUONO ???
Fit lineare — esempio (validit` a del modello)
Per verificare se il modello ipotizzato (F = k(` − `
0)) `e coerente con i dati, devo ricorrere al test del χ
2: ora che ho stimato A, B posso riempire le ultime 2 colonne della tabella:
dati sperimentali calcolo dei S
w ...calcolo del χ
2X ≡ massa m (g) Y ≡ lunghezza ` (cm) w wx wy wx
2wxy y − (A + Bx ) y − (A + Bx) σ
2(σ
mtrascurabile) (σ
`= 0.1 cm)
10 12.9 100 1000 1290 10000 12900 0.084 0.71
20 13.3 100 2000 1330 40000 26600 0.033 0.11
30 13.6 100 3000 1360 90000 40800 -0.119 1.41
40 14.2 100 4000 1420 160000 56800 0.029 0.09
50 14.7 100 5000 1470 250000 73500 0.078 0.61
60 14.9 100 6000 1490 360000 89400 -0.174 3.02
70 15.4 100 7000 1540 490000 107800 -0.126 1.58
80 16.1 100 8000 1610 640000 128800 0.123 1.51
90 16.5 100 9000 1650 810000 148500 0.071 0.51
Somme ⇒ 900 45000 13160 2850000 685100 9.54
Ho 9 misure, ricavo 2 parametri ⇒ ho ν = 7 gradi di libert` a ⇒ χ ˜
2= χ
2ν = 1.36
⇒ Prob
χ
2> [χ
2]
(mis); ν = 7
= 21.7% ⇒ il modello `e accettabile.
Assumendo g = 9.806 m/s
2con incertezza trascurabile, k = g
B = 21.69 . . . N/m; inoltre σ
kk = σ
BB ⇒ σ
k= 0.6 N/m
⇒ k = (21.7 ± 0.6) N/m
Osservazione: la 6
amisura d` a un grosso contributo (' 3) al χ
2, dobbiamo “preoccuparci”? |y − y
(asp)|/σ ' 1.7 ⇒ Prob' 8% ⇒ su 9
Fit lineare — caso particolare: errori tutti uguali
In tal caso tutte le σ
ksono uguali (⇒ σ
y), quindi anche tutti i “pesi” w
k= 1
σ
k2si fattorizzano fuori dalle somme S
w ...: Definiamo le quantit` a:
S
x def= X
k
x
k; S
xx def= X
k
x
k2; S
y def= X
k
y
k; S
xy def= X
k
x
ky
k; ∆
0 def= N · S
xx− (S
x)
2e otteniamo:
A = S
xxS
y− S
xS
xy∆
0; B = N · S
xy− S
xS
y∆
0Cio`e A, B non dipendono da σ
yAttenzione, per` o:
σ
A2= S
xx∆
0σ
y2; σ
B2= N
∆
0σ
y2Cio`e `e sempre vero che σ
A, σ
B∝ σ
yAnche se siete in condizioni di errori tutti uguali, NON DIMENTICATELI:
vi servono per valutare le incertezze su A, B, e anche per verificare la VALIDIT` A del modello (test del χ
2)
Estrapolazione dalla retta del fit
Supponiamo che da un insieme di misure (x
1; y
1± σ
1) , (x
2; y
2± σ
2) , . . . , (x
N; y
N± σ
N) avete trovato la retta Y = A + BX in cui conoscete A ± σ
A, B ± σ
B. Supponiamo che il chi
2`e “buono”, cosicch´e la vostra relazione lineare descrive bene i dati.
Ora volete usarla, per esempio per prevedere il valore di y ad un dato x . Ovviamente y
(asp)= A + Bx , ma la sua incertezza?
Le quantit` a A, B che avete calcolato hanno incertezze correlate,
x y
x y
x y
Cov[A,B] < 0 Cov[A,B] > 0 Cov[A,B] ~ 0
per cui σ
2y(asp)
= σ
A2+ x
2σ
B2+ 2x Cov [A; B]
[ricorda: se le incertezze di 2 quantit` a a, b sono correlate, vuol dire che Cov [a; b]
def= ρ
abσ
aσ
b; in tal caso se c = a + b la propagazione delle incertezze ` e σ
2c= σ
a2+ σ
b2+ 2Cov [a; b] ≡ σ
2a+ σ
b2+ 2ρ
abσ
aσ
b]
La formula per la covarianza di A, B `e Cov [A; B] = − S
wx∆ (senza dimostrazione . . . )
Fit lineare — incertezze anche su x
Prelevo misure (x
k± σ
xk; y
k± σ
yk), con σ
xknon trascurabili.
Non posso pi` u assumere y
k(asp)= f (x
k; α), perch´e x
k(misurato) 6= x
k(vero). Definisco: z
k≡ y
k− (A + Bx
k) — ovviamente z
k(asp)= 0 e σ
2zk
= σ
y2k
+ B
2σ
2xk
quindi χ
2= X
k
z
k− z
k(asp)σ
zk!
2= X
k
(y
k− (A + Bx
k))
2σ
y2k
+ B
2σ
x2k
La minimizzazione analitica non `e pi` u possibile, per il B che compare al denominatore, si deve procedere per iterazioni successive:
0 si trascura σ
xke si considera solo σ
yk⇒ si trova una retta con coefficiente B
(0);
se trovo B
(0)σ
xkσ
ykl’approssimazione era valida ⇒ siamo a posto 1 usiamo pesi w
k= 1
σ
y2k
+ B
2σ
x2k
e trovo una retta con coefficiente B ± σ
Bse |B − B
(0)| σ
BOK, abbiamo la retta
2 . . . in caso contrario si deve reiterare dal punto [1] finch´e la condizione [2] non `e soddisfatta
NOTA: mettete i vostri punti su un grafico. Se l’andamento lineare a occhio `e buono, normalmente basta svolgere le
operazioni [0]–[2] senza reiterare.
Fit lineare — caso disperato: non si conoscono σ x , σ y
Ricetta: si assume σ
xtrascurabile e σ
ycostante, da stimare dai dati stessi,
assumendo che la relazione fra X e Y sia DAVVERO una retta — non sar` a cio`e possibile verificarlo !!!!
σ
y=
r P
k
[y
k− (A + Bx
k)]
2N − 2
(notate la somiglianza con la deviazione standard?)
Stiamo cercando di “stirare” le barre di errore in modo da adattarsi alla retta . . . ATTENZIONE: il test del χ
2non ha pi` u nessun senso!!!
. . . provare per credere: χ
2 def= X
k