L6. Relazioni tra variabili: regressione lineare

(1)

Trattamento e Analisi statistica dei dati sperimentali

Modulo II : Sintesi dei dati sperimentali

L6. Relazioni tra variabili: regressione lineare

Prof. Carlo Meneghini

dip. di Scienze Università Roma Tre e-mail: [email protected]

(2)

Grafici a dispersione (xy)

(3)

La relazione funzionale Y=f(x)

X[u.m.]

x_i y_i

y[u.m.]

Y= variabile dipendente X=variabile indipendente

Y = f(X)

(4)

La relazione Lineare

X[u.m.]

x_i y_i

y[u.m.]

Y = mX+c

Variabile esplicativa variabile

risposta

Quali sono i parametri della relazione

(Lineare)?

Esiste una relazione tra x e y?

Relazione funzionale Effetti stocastici

Quale è il rischio che sia un effetto spurio, dovuto

al caso e all'incertezza delle misure?

(5)

Retta di regressione

c mx

y

_i^th

=

_i^th

+

Problema:

calcolare i parametri (m, c) per la retta di regressione:

 =



 



 ∑ −

= N

i

i th

i

y

y MIN

1

2 exp

) (

 

 



 ∑ + −

= N

i

i th

i

c y

mx MIN

1

2 exp

)

(

(6)

Retta di regressione: fogli di calcolo

Problema:

calcolare i parametri (m, c) e le

statistiche (incertezza, etc...) per la retta di regressione

c mx

y

_i^th

=

_i^th

+

a. la retta di regressione sul grafico (M1_L5)

non fornisce valori utilizzabili da altre celle non fornisce le incertezze

b. le funzioni PENDENZA e INTERCETTA sono poco versatili:

non consentono di imporre il passaggio per l’origine non riportano le incertezze sui parametri

(7)

Retta di regressione: fogli di calcolo

Problema:

calcolare i parametri (m, c) e le

statistiche (incertezza, etc...) per la retta di regressione

c mx

y = +

REGR.LIN(y_nota; [x_nota]; [cost]; [stat])

m σ_m

c σ_c N_lib R²

Coefficiente di

determinazione σ_y

La funzione REGR.LIN fornisce dettagli importanti quali incertezze e

informazioni statistiche aggiuntive.

(vedi lez. M1_L5 per l'uso della funzione in forma di matrice)

(8)

Retta di regressione

Pendenza: m Intercetta: c

Errore standard sulla pendenza: σm

Errore standard sull’intercetta: σc

Coefficiente di determinazione

R²

n

_lib

SS_reg SS_red

σ_y

F

deviazione standard sulla stima di y

gradi di lib.

Statistica della funzione F, corso avanzato!

∑

⁻

i

th

i y

y ^exp)²

(

∑

⁻

i

i th

i y

y ^exp)² (

lib i

i th

i

n y

∑

⁽y ⁻ ^exp⁾²

(9)

=INDICE(regr.lin(y;x;1;1);1;1) => m coeff. angolare

=INDICE(regr.lin(y;x;1;1);2;1) => σ_m incertezza su m

=INDICE(regr.lin(y;x;1;1);1;2) => c intercetta

=INDICE(regr.lin(y;x;1;1);2;2) => σ_C incertezza su c

= INDICE...

Retta di regressione: fogli di calcolo

m σ_m

c σ_c N_lib R²

Coefficiente di

determinazione σ_y

La funzione REGR.LIN alloca le informazioni un una

matrice interna 5

_r

x2

_c

. La funzione INDICE legge il dato contenuto in una determinata posizione di memoria

=INDICE(Matrice;riga;Colonna)

(10)

Prerequisiti per La regressione Lineare

E' lecito usare una retta di regressione?

m e c sono effettivamente i parametri del modello che meglio approssima di dati se sono verificate le seguanti condizioni:

A. i valori misurati x_i sono noti con errore trascurabile

B. il valore atteso di y_i è proprio y_i = mx_i + c (correttezza del modello) C. i valori y_i seguono una distribuzione normale attorno al valor medio

y_i con la stessa deviazione standard (omoschedastici)

D. I valori misurati y_i sono tutti indipendenti (indipendenza delle misure)

(11)

Prerequisiti per La regressione Lineare

A. i valori misurati x_i sono noti con errore trascurabile

Usare come variabile

indipendente (esplicativa) quella

che ha l'errore minore

(12)

Prerequisiti per La regressione Lineare

B. il valore atteso di y_i è proprio µ_i = mx_i + c (correttezza del modello)

Accertarsi che il modello

ipotizzato sia un modello lineare

(13)

Prerequisiti per La regressione Lineare

C. i valori seguono una distribuzione normale attorno al valor medio con la stessa deviazione standard (omoschedastici)

D. I valori misurati y_i sono tutti indipendenti (indipendenza delle misure)

Sono prerequisiti spesso difficili da verificare (C) o da rispettare (D)

exp

yi y_i

(14)

R

²

: La retta è un buon modello per i dati?

R²=coefficiente di determinazione

0 ≤ R² ≤ 1 ☺

(15)

Indici e Grafici a dispersione

le y₁, y₂, y₃, y₄ hanno la stessa media, stessa correlazione, stessa retta

di regressione:

5 .

4 7

, 3 , 2 ,

1 =

y

816 .

4 0

, 3 , 2 ,

1 =

r

x x

f₁_,₂_,₃_,₄( ) = 3 + 0.5

Gli indici da soli non sono sufficienti a caratterizzare la relazione tra dati: un grafico a

dispersione fornisce dettagli importanti, anche se qualitativi

(16)

Indici e Grafici a dispersione

Osservare la distribuzione dei residui ci può dare informazioni aggiuntive

sulla bontà del modello di regressione adottato

c mx

y

_i^th

=

_i

+

exp i th

i

= y − y

ε

(17)

Linearizzazione

(18)

Linearizzazione Esempio

Misurata la forza F(N) tra due magneti in funzione della

distanza x(cm)

x n

F = K

La forza tra due magneti aumenta al diminuire della distanza con una legge di potenza il cui esponete dipende dalla forma

dei magneti.

(19)

Linearizzazione Esempio

Misurata la forza F(N) tra due magneti in funzione della

distanza x(cm)

x

n

F = K

La forza tra due magneti aumenta al diminuire della distanza con una legge di potenza il cui esponete dipende dalla forma

dei magneti.

L6. Relazioni tra variabili: regressione lineare

Trattamento e Analisi statistica dei dati sperimentali

Modulo II : Sintesi dei dati sperimentali