Trattamento e Analisi statistica dei dati sperimentali
Modulo II : Sintesi dei dati sperimentali
L6. Relazioni tra variabili: regressione lineare
Prof. Carlo Meneghini
dip. di Scienze Università Roma Tre e-mail: carlo.meneghini@uniroma3.it
Grafici a dispersione (xy)
La relazione funzionale Y=f(x)
X[u.m.]
xi yi
y[u.m.]
Y= variabile dipendente X=variabile indipendente
Y = f(X)
La relazione Lineare
X[u.m.]
xi yi
y[u.m.]
Y = mX+c
Variabile esplicativa variabile
risposta
Quali sono i parametri della relazione
(Lineare)?
Esiste una relazione tra x e y?
Relazione funzionale Effetti stocastici
Quale è il rischio che sia un effetto spurio, dovuto
al caso e all'incertezza delle misure?
Retta di regressione
c mx
y
ith=
ith+
Problema:
calcolare i parametri (m, c) per la retta di regressione:
=
∑ −
= N
i
i th
i
y
y MIN
1
2 exp
) (
∑ + −
= N
i
i th
i
c y
mx MIN
1
2 exp
)
(
Retta di regressione: fogli di calcolo
Problema:
calcolare i parametri (m, c) e le
statistiche (incertezza, etc...) per la retta di regressione
c mx
y
ith=
ith+
a. la retta di regressione sul grafico (M1_L5)
non fornisce valori utilizzabili da altre celle non fornisce le incertezze
b. le funzioni PENDENZA e INTERCETTA sono poco versatili:
non consentono di imporre il passaggio per l’origine non riportano le incertezze sui parametri
Retta di regressione: fogli di calcolo
Problema:
calcolare i parametri (m, c) e le
statistiche (incertezza, etc...) per la retta di regressione
c mx
y = +
REGR.LIN(y_nota; [x_nota]; [cost]; [stat])
m σm
c σc Nlib R2
Coefficiente di
determinazione σy
La funzione REGR.LIN fornisce dettagli importanti quali incertezze e
informazioni statistiche aggiuntive.
(vedi lez. M1_L5 per l'uso della funzione in forma di matrice)
Retta di regressione
Pendenza: m Intercetta: c
Errore standard sulla pendenza: σm
Errore standard sull’intercetta: σc
Coefficiente di determinazione
R2
n
libSSreg SSred
σy
F
deviazione standard sulla stima di y
gradi di lib.
Statistica della funzione F, corso avanzato!
∑
−i
th
i y
y exp)2
(
∑
−i
i th
i y
y exp)2 (
lib i
i th
i
n y
∑
(y − exp)2=INDICE(regr.lin(y;x;1;1);1;1) => m coeff. angolare
=INDICE(regr.lin(y;x;1;1);2;1) => σm incertezza su m
=INDICE(regr.lin(y;x;1;1);1;2) => c intercetta
=INDICE(regr.lin(y;x;1;1);2;2) => σC incertezza su c
= INDICE...
Retta di regressione: fogli di calcolo
m σm
c σc Nlib R2
Coefficiente di
determinazione σy
La funzione REGR.LIN alloca le informazioni un una
matrice interna 5
rx2
c. La funzione INDICE legge il dato contenuto in una determinata posizione di memoria
=INDICE(Matrice;riga;Colonna)
Prerequisiti per La regressione Lineare
E' lecito usare una retta di regressione?
m e c sono effettivamente i parametri del modello che meglio approssima di dati se sono verificate le seguanti condizioni:
A. i valori misurati xi sono noti con errore trascurabile
B. il valore atteso di yi è proprio yi = mxi + c (correttezza del modello) C. i valori yi seguono una distribuzione normale attorno al valor medio
yi con la stessa deviazione standard (omoschedastici)
D. I valori misurati yi sono tutti indipendenti (indipendenza delle misure)
Prerequisiti per La regressione Lineare
E' lecito usare una retta di regressione?
A. i valori misurati xi sono noti con errore trascurabile
Usare come variabile
indipendente (esplicativa) quella
che ha l'errore minore
Prerequisiti per La regressione Lineare
E' lecito usare una retta di regressione?
B. il valore atteso di yi è proprio µi = mxi + c (correttezza del modello)
Accertarsi che il modello
ipotizzato sia un modello lineare
Prerequisiti per La regressione Lineare
E' lecito usare una retta di regressione?
C. i valori seguono una distribuzione normale attorno al valor medio con la stessa deviazione standard (omoschedastici)
D. I valori misurati yi sono tutti indipendenti (indipendenza delle misure)
Sono prerequisiti spesso difficili da verificare (C) o da rispettare (D)
exp
yi yi
R
2: La retta è un buon modello per i dati?
R2=coefficiente di determinazione
0 ≤ R2 ≤ 1 ☺
Indici e Grafici a dispersione
le y1, y2, y3, y4 hanno la stessa media, stessa correlazione, stessa retta
di regressione:
5 .
4 7
, 3 , 2 ,
1 =
y
816 .
4 0
, 3 , 2 ,
1 =
r
x x
f1,2,3,4( ) = 3 + 0.5
Gli indici da soli non sono sufficienti a caratterizzare la relazione tra dati: un grafico a
dispersione fornisce dettagli importanti, anche se qualitativi
Indici e Grafici a dispersione
Osservare la distribuzione dei residui ci può dare informazioni aggiuntive
sulla bontà del modello di regressione adottato
c mx
y
ith=
i+
exp i th
i
i
= y − y
ε
Linearizzazione
Linearizzazione Esempio
Misurata la forza F(N) tra due magneti in funzione della
distanza x(cm)
x n
F = K
La forza tra due magneti aumenta al diminuire della distanza con una legge di potenza il cui esponete dipende dalla forma
dei magneti.
Linearizzazione Esempio
Misurata la forza F(N) tra due magneti in funzione della
distanza x(cm)
x
nF = K
La forza tra due magneti aumenta al diminuire della distanza con una legge di potenza il cui esponete dipende dalla forma
dei magneti.