Metodo dei minimi quadrati

(1)

Metodo dei minimi quadrati

Marcello Fanti

University of Milano and INFN

(2)

Verifica di una legge fisica — Esempio

Si vuole verificare una legge oraria s = f (t) — la funzione f (t) viene da ipotesi sul sistema fisico:

un oggetto che cade in un campo di forza uniforme F = mg ⇒ z = z

₀

+ v

₀

t − 1 2 gt

²

un oggetto sottoposto a una forza elastica F = −k(x − x

₀

) ⇒ x = x

₀

+ A cos(ωt − φ)

⇒ Voglio verificare se la legge del moto ipotizzata `e valida

⇒ Voglio determinarne i parametri

(nel 1

^◦

esempio: z

₀

, v

₀

, g ; nel 2

^◦

esempio: x

₀

, A, ω, φ) Come procedo?

1 a diversi istanti t

₁

, t

₂

, t

₃

, . . . misuro le posizioni s

₁

± σ

₁

, s

₂

± σ

₂

, s

₃

± σ

₃

, . . .

2 costruisco una tabella di coppie ( t

_k

; s

_k

± σ

_k

) — eventualmente anche i t

_k

possono avere incertezze, quindi le coppie saranno

( t

_k

± σ

_t,k

; s

_k

± σ

_s,k

)

3 costruisco un grafico cartesiano dei punti ( t

_k

; s

_k

± σ

_k

) sugli assi t ; s e cerco di farmi un’idea se i punti sperimentali possono essere descritti da una leffe s = f (t) ipotizzata

(in certi casi si pu` o osservare ad occhio che NON ` E COS`I. . . )

4 poi per` o mi serve un criterio pi` u quantitativo e rigoroso che mi permetta di stabilire se la mia ipotesi s = f (t) `e supportata dai dati, o `e esclusa.

t

₁

± σ

_t,1

s

₁

± σ

_s,1

t

₂

± σ

_t,2

s

₂

± σ

_s,2

t

₃

± σ

_t,3

s

₃

± σ

_s,3

... ...

t

_N

± σ

_t,N

s

_N

± σ

_s,N

s

_k

?

s = s + v t - (g/2) t

0 0 2

(3)

Verifica di una legge fisica — Formulazione

In generale:

ipotizzo che due grandezze fisiche misurabili X , Y siano legate da una legge Y = f (X , α

₁

, . . . , α

_p

) X , Y sono gli “osservabili”

la legge Y = f (X , α

₁

, . . . , α

_p

) `e il “modello fisico” e α

₁

, . . . , α

_p

sono i suoi “parametri”

Si prelevano N dati sperimentali misurando gli osservabili in diverse condizioni del sistema fisico

⇒ (x

₁

± σ

_x₁

; y

₁

± σ

_y₁

) , (x

₂

± σ

_x₂

; y

₂

± σ

_y₂

) , (x

₃

± σ

_x₃

; y

₃

± σ

_y₃

) , . . . 1 la legge Y = f (X , α

₁

, . . . , α

_p

) descrive le osservazioni ?

2 come possiamo stimare i valori dei parametri α

₁

, . . . , α

_p

? Assunzioni:

X `e la variabile “indipendente”, scelta dallo sperimentatore per selezionare la condizione del sistema fisico

⇒ `e ragionevole assumere che σ

_X

abbia impatto trascurabile (poi vedremo come “rilassare” questa assunzione. . . )

le varie misure di Y sono fra loro indipendenti, e le loro incertezze sono Gaussiane Quindi, se il modello ipotizzato Y = f (X , α

₁

, . . . , α

_p

) `e corretto:

il valore “vero” (o “aspettato”) di y

_k

per un dato x

_k

`e y

_k^asp

= f (x

_k

; α) (per brevit` a, indichiamo con α ≡ (α

₁

, . . . , α

_p

) la totalit` a dei parametri) la densit` a di probabilit` a di misurare y

_k

entro un intervallino dy

_k

`e:

d Prob (y

_k

)

dy

_k

= G (y

_k

; y

_k^asp

, σ

_k

) = 1

√ 2πσ

_k

e

⁻

1 2

yk −f (xk ;α) σk

2

(4)

Principio di massima verosimiglianza

La probabilit` a di avere misure y

₁

, . . . , y

_N

indipendenti `e:

d Prob (y

₁

, . . . , y

_N

) =

N

Y

k=1

d Prob (y

_k

) = 1 (2π)

^N/2

Y

k

1 σ

_k

! e

⁻

1 2

P

k

yk −f (xk ;α) σk

2

| {z }

L(α)

· dy

₁

· · · dy

_N

La funzione L(α) `e la funzione di verosimiglianza (in inglese: likelihood function . . . tanto vale saperlo!)

[si ` e voluta enfatizzare la dipendenza dai parametri α, in realt` a L dipende anche dalle misure (x

₁

, y

₁

) , . . . , (x

_N

, y

_N

) ]

Principio di massima verosimiglianza — (“maximum likelihood”)

“Se il modello ipotizzato Y = f (X , α) `e giusto, allora la migliore stima dei valori dei parametri α `e data dai valori che massimizzano la funzione di verosimiglianza L(α)”

Osservazioni

1 il principio ` e intuitivo: massimizza la probabilit` a di ottenere le misure effettivamente osservate — osservare dei valori di y

₁

, . . . , y

_N

molto improbabili, per parametri α dati, sarebbe “inverosimile” (“very unlike”), . . . appunto!

2 se il modello ipotizzato — Y = f (X , α) — `e sbagliato, la stima dei valori di α non ha senso

⇒ come fare a vedere se il modello `e sbagliato? ci ritorneremo . . . 3 tecnicamente, si tratta di un problema di massimizzazione

quasi sempre va risolto con metodi numerici iterativi, al computer

in alcuni casi particolari, esiste la soluzione analitica (es.: fit lineare)

(5)

Principio dei minimi quadrati

(`e in realt` a una diretta conseguenza del principio di massima verosimiglianza)

L(α) =

N

Y

k=1

d Prob (y

_k

)

dy

_k

⇒ − 2 ln L(α) =

N

Y

k=1

−2 ln d Prob (y

_k

) dy

_k

[nel calcolo gestire somme invece che prodotti ` e pi` u comodo . . . il −2 davanti sar` a chiaro a breve . . . ]

massimizzare L(α) ⇐⇒ minimizzare −2 ln L(α)

−2 ln L(α) = N ln(2π) + 2 X

k

ln σ

_k

+ X

k

y

_k

− f (x

_k

; α) σ

_k

2

| {z }

χ²

I parametri α entrano solo in χ

²

⇒ per la migliore stima dei parametri α occorre minimizzare χ

²

(6)

Validit` a del modello

Se il modello ipotizzato Y = f (X ; α) `e corretto,

⇒ la quantit`a y

_k

− f (x

_k

; α)

σ

_k

`e distribuita secondo una Gaussiana unitaria (media=0, dev.standard=1)

⇒ χ

²

= X

k

y

_k

− f (x

_k

; α) σ

_k

2

segue la distribuzione di χ

²

: f

_χ2

(ξ; ν)

Poich´e ho N osservazioni, ma ricavo p parametri, i gradi di libert` a sono ν = N − p

⇒ Da χ

²

(minimizzato) e ν posso ricavare “quanto bene” il modello descrive i dati, nel modo usuale:

1 ipotizzo un modello: Y = f (X ; α) 2 calcolo il χ

²

dalle misure : χ

²

(mis)

= X

k

y

_k

− f (x

_k

; α) σ

_k

2

— minimizzato rispetto ai parametri α

3 calcolo la probabilit` a che, dato il modello ipotizzato, le mie misure diano un χ

²

peggiore di quello effettivamente ottenuto:

p = Prob

χ

²

> [χ

²

]

^(mis)

=

Z

+∞

[χ²]^(mis)

d ξ f

_χ2

(ξ; ν)

4 se p `e al disotto di una soglia prestabilita (per es. p < 0.05) ⇒ scarto il modello ipotizzato (cio`e Y = f (X ; α)) . . . altrimenti lo accetto, e i valori dei parametri α che minimizzano il χ

²

sono la migliore stima

NOTA: questo criterio mi consente di scartare un’ipotesi, ma NON mi consente di concludere che un’ipotesi `e quella

GIUSTA!

(7)

Fit lineare — formulazione

Il modello ipotizzato in questo caso `e lineare: Y = A + B · X

⇒ χ

²

= X

k

[y

_k

− (A + B · x

_k

)]

²

σ

_k²

Per trovare A, B occorre minimizzare χ

²

, esiste la soluzione analitica

0 = ∂χ

²

∂A = 2 X

k

A + Bx

_k

− y

_k

σ

_k²

= 2

"

X

k

1 σ

_k²

!

A + X

k

x

_k

σ

_k²

!

B − X

k

y

_k

σ

_k²

!#

0 = ∂χ

²

∂B = 2 X

k

(A + Bx

_k

− y

_k

)x

_k

σ

²_k

= 2

"

X

k

x

_k

σ

_k²

!

A + X

k

x

_k²

σ

_k²

!

B − X

k

x

_k

y

_k

σ

²_k

!#

Definiamo i “pesi” w

_k ^def

= 1

σ

_k²

e le quantit` a:

S

_w ^def

= X

k

w

_k

; S

_wx ^def

= X

k

w

_k

x

_k

; S

_wxx ^def

= X

k

w

_k

x

_k²

; S

_wy ^def

= X

k

w

_k

y

_k

; S

_wxy ^def

= X

k

w

_k

x

_k

y

_k

S

_w

S

_wx

S

_wx

S

_wxx

A B

=

S

_wy

S

_wxy

⇒

A B

= 1

S

_w

S

_wxx

− (S

_wx

)

²

S

_wxx

−S

_wx

−S

_wx

S

_w

S

_wy

S

_wxy

(8)

Fit lineare — soluzione

Risultato del fit lineare Y = A + BX :

A = S

_wxx

S

_wy

− S

_wx

S

_wxy

∆

B = S

_w

S

_wxy

− S

_wx

S

_wy

∆ Ricorda: w

_k

= 1

σ

_k²

⇒ nel calcolare S

_{w ...}

= X

k

w

_k

(. . . ) le misure pi` u precise hanno un peso maggiore (giusto!)

S

_w

= X

k

w

_k

S

_wx

= X

k

w

_k

x

_k

S

_wxx

= X

k

w

_k

x

_k²

S

_wy

= X

k

w

_k

y

_k

S

_wxy

= X

k

w

_k

x

_k

y

_k

∆ = S

_w

S

_wxx

− (S

_wx

)

²

Senza dimostrazione:

σ

_A²

= S

_wxx

∆ ; σ

_B²

= S

_w

∆ NOTA: σ

_A

, σ

_B

≈ 1

w ≈ σ ⇒ misure pi` u imprecise d` anno maggiori incertezze su A, B (ovvio!)

(9)

Fit lineare — esempio

Si vuole determinare la costante elastica k di una molla, appendendo diverse masse m

₁

, . . . , m

_N

e misurando le lunghezze `

₁

, . . . , `

_N

della molla.

Legge ipotizzata: F = k(` − `

₀

) ⇒ ` = `

₀

+ g k m

⇒ poniamo X ≡ m , Y ≡ ` ⇒ Y = A + BX con A ≡ `

₀

e B ≡ g

⇒ costruiamo la seguente tabella: k

dati sperimentali calcolo dei S

_{w ...}

calcolo del χ

²

X ≡ massa m (g) Y ≡ lunghezza ` (cm) w wx wy wx

²

wxy y − (A + Bx ) y − (A + Bx) σ

2

(σ

_m

trascurabile) (σ

_`

= 0.1 cm)

10 12.9 100 1000 1290 10000 12900

20 13.3 100 2000 1330 40000 26600

30 13.6 100 3000 1360 90000 40800

40 14.2 100 4000 1420 160000 56800

50 14.7 100 5000 1470 250000 73500

60 14.9 100 6000 1490 360000 89400

70 15.4 100 7000 1540 490000 107800

80 16.1 100 8000 1610 640000 128800

90 16.5 100 9000 1650 810000 148500

Somme ⇒ 900 45000 13160 2850000 685100

⇒ si ricava A = (12.36 ± 0.07) cm e B = (0.0452 ± 0.0013) cm/g = (0.452 ± 0.013) m/kg

MA IL MODELLO ` E BUONO ???

(10)

Fit lineare — esempio (validit` a del modello)

Per verificare se il modello ipotizzato (F = k(` − `

₀

)) `e coerente con i dati, devo ricorrere al test del χ

²

: ora che ho stimato A, B posso riempire le ultime 2 colonne della tabella:

dati sperimentali calcolo dei S

w ...

calcolo del χ

²

X ≡ massa m (g) Y ≡ lunghezza ` (cm) w wx wy wx

²

wxy y − (A + Bx ) y − (A + Bx) σ

2

(σ

_m

trascurabile) (σ

_`

= 0.1 cm)

10 12.9 100 1000 1290 10000 12900 0.084 0.71

20 13.3 100 2000 1330 40000 26600 0.033 0.11

30 13.6 100 3000 1360 90000 40800 -0.119 1.41

40 14.2 100 4000 1420 160000 56800 0.029 0.09

50 14.7 100 5000 1470 250000 73500 0.078 0.61

60 14.9 100 6000 1490 360000 89400 -0.174 3.02

70 15.4 100 7000 1540 490000 107800 -0.126 1.58

80 16.1 100 8000 1610 640000 128800 0.123 1.51

90 16.5 100 9000 1650 810000 148500 0.071 0.51

Somme ⇒ 900 45000 13160 2850000 685100 9.54

Ho 9 misure, ricavo 2 parametri ⇒ ho ν = 7 gradi di libert` a ⇒ χ ˜

²

= χ

²

ν = 1.36

⇒ Prob

χ

²

> [χ

²

]

^(mis)

; ν = 7

= 21.7% ⇒ il modello `e accettabile.

Assumendo g = 9.806 m/s

²

con incertezza trascurabile, k = g

B = 21.69 . . . N/m; inoltre σ

_k

k = σ

_B

B ⇒ σ

_k

= 0.6 N/m

⇒ k = (21.7 ± 0.6) N/m

Osservazione: la 6

^a

misura d` a un grosso contributo (' 3) al χ

²

, dobbiamo “preoccuparci”? |y − y

^(asp)

|/σ ' 1.7 ⇒ Prob' 8% ⇒ su 9

(11)

Fit lineare — caso particolare: errori tutti uguali

In tal caso tutte le σ

_k

sono uguali (⇒ σ

_y

), quindi anche tutti i “pesi” w

_k

= 1

σ

_k²

si fattorizzano fuori dalle somme S

_{w ...}

: Definiamo le quantit` a:

S

_x ^def

= X

k

x

_k

; S

_xx ^def

= X

k

x

_k²

; S

_y ^def

= X

k

y

_k

; S

_xy ^def

= X

k

x

_k

y

_k

; ∆

^{0 def}

= N · S

_xx

− (S

_x

)

²

e otteniamo:

A = S

_xx

S

_y

− S

_x

S

_xy

∆

⁰

; B = N · S

_xy

− S

_x

S

_y

∆

⁰

Cio`e A, B non dipendono da σ

_y

Attenzione, per` o:

σ

_A²

= S

_xx

∆

⁰

σ

_y²

; σ

_B²

= N

∆

⁰

σ

_y²

Cio`e `e sempre vero che σ

_A

, σ

_B

∝ σ

_y

Anche se siete in condizioni di errori tutti uguali, NON DIMENTICATELI:

vi servono per valutare le incertezze su A, B, e anche per verificare la VALIDIT` A del modello (test del χ

²

)

(12)

Estrapolazione dalla retta del fit

Supponiamo che da un insieme di misure (x

₁

; y

₁

± σ

₁

) , (x

₂

; y

₂

± σ

₂

) , . . . , (x

_N

; y

_N

± σ

_N

) avete trovato la retta Y = A + BX in cui conoscete A ± σ

_A

, B ± σ

_B

. Supponiamo che il chi

²

`e “buono”, cosicch´e la vostra relazione lineare descrive bene i dati.

Ora volete usarla, per esempio per prevedere il valore di y ad un dato x . Ovviamente y

^(asp)

= A + Bx , ma la sua incertezza?

Le quantit` a A, B che avete calcolato hanno incertezze correlate,

x y

Cov[A,B] < 0 Cov[A,B] > 0 Cov[A,B] ~ 0

per cui σ

²

y^(asp)

= σ

_A²

+ x

²

σ

_B²

+ 2x Cov [A; B]

[ricorda: se le incertezze di 2 quantit` a a, b sono correlate, vuol dire che Cov [a; b]

^def

= ρ

_ab

σ

_a

σ

_b

; in tal caso se c = a + b la propagazione delle incertezze ` e σ

²_c

= σ

_a²

+ σ

_b²

+ 2Cov [a; b] ≡ σ

²_a

+ σ

_b²

+ 2ρ

_ab

σ

_a

σ

_b

]

La formula per la covarianza di A, B `e Cov [A; B] = − S

_wx

∆ (senza dimostrazione . . . )

(13)

Fit lineare — incertezze anche su x

Prelevo misure (x

_k

± σ

_x_k

; y

_k

± σ

_y_k

), con σ

_x_k

non trascurabili.

Non posso pi` u assumere y

_k^(asp)

= f (x

_k

; α), perch´e x

_k

(misurato) 6= x

_k^(vero)

. Definisco: z

_k

≡ y

_k

− (A + Bx

_k

) — ovviamente z

_k^(asp)

= 0 e σ

²_z

k

= σ

_y²

k

+ B

²

σ

²_x

k

quindi χ

²

= X

k

z

_k

− z

_k^(asp)

σ

_z_k

!

2

= X

k

(y

_k

− (A + Bx

_k

))

²

σ

_y²

k

+ B

²

σ

_x²

k

La minimizzazione analitica non `e pi` u possibile, per il B che compare al denominatore, si deve procedere per iterazioni successive:

0 si trascura σ

_x_k

e si considera solo σ

_y_k

⇒ si trova una retta con coefficiente B

⁽⁰⁾

;

se trovo B

⁽⁰⁾

σ

_x_k

σ

_y_k

l’approssimazione era valida ⇒ siamo a posto 1 usiamo pesi w

_k

= 1

σ

_y²

k

+ B

²

σ

_x²

k

e trovo una retta con coefficiente B ± σ

_B

se |B − B

⁽⁰⁾

| σ

_B

OK, abbiamo la retta

2 . . . in caso contrario si deve reiterare dal punto [1] finch´e la condizione [2] non `e soddisfatta

NOTA: mettete i vostri punti su un grafico. Se l’andamento lineare a occhio `e buono, normalmente basta svolgere le

operazioni [0]–[2] senza reiterare.

(14)

Fit lineare — caso disperato: non si conoscono σ _x , σ _y

Ricetta: si assume σ

_x

trascurabile e σ

_y

costante, da stimare dai dati stessi,

assumendo che la relazione fra X e Y sia DAVVERO una retta — non sar` a cio`e possibile verificarlo !!!!

σ

_y

=

r P

k

[y

_k

− (A + Bx

_k

)]

²

N − 2

(notate la somiglianza con la deviazione standard?)

Stiamo cercando di “stirare” le barre di errore in modo da adattarsi alla retta . . . ATTENZIONE: il test del χ

²

non ha pi` u nessun senso!!!

. . . provare per credere: χ

^{2 def}

= X

k

[y

_k

− (A + Bx

_k

)]

²

σ

_y²

= N − 2

. . . ma ν = N − 2 ⇒ ˜ χ

²

= 1 esattamente (e per forza!)

(15)

Linearizzazione di leggi diverse

Esempio: il pendolo legge fisica: T = 2π s

` g

pongo X ≡ ` Y ≡ T

²

⇒ Y = 4π

²

g

X ⇒ faccio il fit lineare ⇒



 



 



A ± σ

_A

`e compatibile con 0?

B ± σ

_B

⇒ g = 4π

²

B ; σ

_g

g = σ

_B

B

ATTENZIONE: anche se i σ

_`

e i σ

_T

sono tutti uguali, σ

_y

= 2T σ

_T

quindi saranno diversi ⇒ `e necessario il fit “pesato”

Esempio: leggi di potenza legge fisica η = αξ

^β

Esempi: legge di Coulomb: F = k q

²

r

²

; legge do Keplero: R

³

= K T

²

; . . .

⇒ si passa ai logaritmi naturali: Y = ln η X = ln ξ

⇒ Y = (ln α) + βX Attenzione: σ

_Y

= σ

_y

y ; σ

_X

= σ

_x

x ⇒ anche qui ci aspettiamo di usare un fit “pesato”

Dal fit lineare ricavo (B ± σ

_B

) ≡ (β ± σ

_β

) e (A ± σ

_A

) da cui α = e

^A

e σ

_α

= α · σ

_A

Esempio: legge esponenziale: legge fisica A = A

₀

e

^−γt

definisco Y = ln A X = t

⇒ Y = ln A

₀

− βX — anche qui, σ

_Y

= σ

_A

A