R e g re s s io n e
•Concetto utilizzato quando entrambi i caratteri (X e Y) sono quantitativi •In questo caso si preferisce utilizzare direttamente la distribuzione doppia unitaria •Solitamente si intende che la variabile Y dipenda da X . Quindi X èchiamata variabile indipendente (o esplicativa) mentre Y èchiamata variabile dipendente (o risposta).ynxn
……
y2x2
y1x1
YX
•L’obiettivo ècapire come X influenza Y e approssimare tale relazione tramite una semplice funzione matematica •Un’analisi preliminare può essere effettuata tramite un grafico a dispersione che consiste nel rappresentare punti di coordinate
()xfy= ()niyxii,,1,,K= Esempio •Per un collettivodi n = 6 impresesonostate rilevatele modalità deicaratterinumerodi dipendenti( X ) e fatturato(Y ). •Sulla base di questidatisivuolestabilirecome ilnumerodi dipendentiinfluenza ilfatturatodi un’impresa.
7,59
8,312
6,87
4,58
5,210
9,215
FatturatoDipendenti
•Dalgraficoa dispersionesinota cheal cresceredi X cresceY.
R e g re s s io n e lin e a re s e m p lic e
•In questo ambito, per approssimare la relazione tra Y e X si utilizza una funzione lineare doveβ0(intercetta) eβ1(coefficiente angolare) sono chiamati parametri della retta interpolatrice. •I parametri della retta (β0eβ1) vanno scelti in modo da approssimare al meglio la relazione tra Ye X, ossia minimizzando l’errore di previsione. Il metodo normalmente utilizzato a tale fine èconosciuto con il nome di metodo dei minimi quadrati.XY10ββ+=
M e to d o d e i m in im i q u a d ra ti
•Per un certo valore dei parametri (β0eβ1) si definisce valore teorico (o previsto) corrispondente alla i-esima osservazione •Il corrispondente errore di previsione (o residuo) è •La somma dei quadrati dei residui èuna misura complessiva dell’errore di previsione, definita comeiixy10ˆββ+= iiiyyeˆ−= ()()()∑∑ ==−−=−=
n iii
n iiixyyyG 1
2 10 1
2 10ˆ,ββββ •Il metodo dei minimi quadrati consiste nel minimizzare la somma dei quadrati dei residui, G(β0,β1), rispetto ai parametri β0eβ1 •Si può dimostrare che il minimo si raggiunge quando il coefficiente angolare e l’intercetta sono pari, rispettivamente, a •La retta di regressione di Y da X si ottiene sostituendo aβ0e β1i corrispondenti valori trovati con il metodo dei minimi quadrati
xye X
XY 1021ˆˆˆββ σσ β−== iixy10ˆˆˆββ+=
Esempio •Per ilcollettivodi n = 6 impresesiha: 1,361-0,6817,59 18,783
2,536
0,369
5,236
0,286
11,036 41,5
8,3
6,8
4,5
5,2
9,2
yi 42,83361,0
3,36112
10,0287
4,6948
0,02810
23,36115
xi()()yyxxii−−()2 xxi− 139,76833,422 ==Xσ
17,10661==x 92,665,41==y 13,36783,18==XYσ 439,0 6833,42
6783,18 ˆ 1==β 458,2167,10439,0917,6ˆ 0=⋅−=β
•Il calcolodellavarianzae covarianzapuòessereeffettuatocon le formulesemplificatenelmodoseguente 81,067,57,59 440,7
99,6
47,6
36,0
52,0
138,0 41,5
8,3
6,8
4,5
5,2
9,2
yi 663,061,0
144,012
49,07
64,08
100,010
225,015
xiiiyx2 ix 13,3917,6167,1067,440=⋅−=XYσ 139,7167,10666322 =−=Xσ
In d ic e d i d e te rm in a z io n e
•Per misurare la bontàdell’adattamento della retta ai punti si può utilizzare lavarianza residuadata da •La devianza residua èsempre non negativa e quanto piùè vicina a 0, tanto migliore èla bontàdell’adattamento della retta ai punti. •Il massimo della varianza residua èdato dalla varianza totale di Y, •La differenza tra la devianza totale e quella residua èchiamata devianza spiegata che èsempre non negativa()
( )
∑∑ ==−−=−=n iii
n iiixy nyy nSQE 1
2 10 1
2ˆˆ1 ˆ1 ββ ()2 1
2 1
2211 yy nyy nSQT
n ii
n iiiY−=−==∑∑ ==σ ()∑ =−=−=
n iiiyy nSQESQTSQR 1
2 ˆ1 •E’quindi possibile costruire un indice relativo (varia tra 0 e 1) per misurare la bontàdell’adattamento, chiamato di indice di determinazione, come •Una formula alternativa per l’indice di determinazione è
SQT
SQR SQT
SQE R=−=12 222 2 YXXY R σσσ =
•interpolazione perfetta •interpolazione quasi perfetta
⇒=12 R 92,02 =R
•interpolazione buona •interpolazione pessima
72,02 =R 02,02 =R
Esempio •Per ilcollettivodi n = 6 impresesiha: 8,0314
1,1989
0,3357
1,6179
2,1507
2,7014
0,0268 56,256,40517,59 41,5
7,7206
5,5280
5,9665
6,8436
9,0362 41,5
8,3
6,8
4,5
5,2
9,2
yi 303,3161,0
68,8912
46,247
20,258
27,0410
84,6415
xi()2 ˆyyi− 707,2917,6631,30322 =−==SQTYσ 506,0 707,2339,1 12 =−=R
iyˆ2 iy 339,16031,8==SQE
P re v is io n e
•Una volta calcolati i parametri della retta di regressione (β0,β1), èpossibile prevedere il valore di Y in corrispondenza di un nuovo valore di X indicato con xn+1. Il valore previsto si calcola come: •La previsione èparticolarmente utilizzata nell’analisi di serie storiche quando, ad esempio, si vuole prevedere il prodotto interno lordo di un paese in base ai valori osservati di questo indicatore in un certo periodo di tempo.1101ˆˆˆ+++=nnxyββ Esempio •Sulla base deidatidell’esempioprecedentesivuoleprevedere ilfatturoper un’impresacheha 20 dipendenti. Si ha: 229,1120439,0458,2ˆ7=⋅+=y