ESPLORAZIONE DEI DATI CON SINTESI NUMERICHE: RELAZIONI TRA VARIABILI
(parte 2)
Regressione lineare: residui
Se indichiamo con ˆy i valori previsti (stimati) e y i valori effettivi della variabile risposta allora iresidui
Residui = ˆy − y
forniscono una misura dell’errore di previsione in corrispondenza di ogni osservazione.
I residui sono rappresentati in uno scatterplot come la distanza verticale fra ogni punto e la retta stimata.
Regressione lineare: residui
Se indichiamo con ˆy i valori previsti (stimati) e y i valori effettivi della variabile risposta allora iresidui
Residui = ˆy − y
forniscono una misura dell’errore di previsione in corrispondenza di ogni osservazione.
I residui sono rappresentati in uno scatterplot come la distanza verticale fra ogni punto e la retta stimata.
Regressione lineare: metodo dei minimi quadrati.
I coefficienti della retta di regressione vengono calcolati in modo da minimizzare la somma delle distanze al quadrato di ogni punto rispetto alla retta che si vuole stimare, si minimizzano quindi i residui:
min(Somma dei residui al quadrato) = min
∑
residui2== min
n
∑
i=1
(yi− ˆyi)2
La retta stimata in questo modo approssima al meglio il valor medio della variabile risposta.
Regressione lineare: metodo dei minimi quadrati.
I coefficienti della retta di regressione vengono calcolati in modo da minimizzare la somma delle distanze al quadrato di ogni punto rispetto alla retta che si vuole stimare, si minimizzano quindi i residui:
min(Somma dei residui al quadrato) = min
∑
residui2== min
n
∑
i=1
(yi− ˆyi)2
La retta stimata in questo modo approssima al meglio il valor medio della variabile risposta.
Regressione lineare: metodo dei minimi quadrati.
L’utilizzo del metodo dei minimi quadri fornisce alcune proprietà per la retta di regressione.
• Essa ha alcuni residui positivi e altri negativi, per cui la somma dei residui, così come la loro media, è pari a 0. Questo implica che previsioni ”troppo” basse sono bilanciate da previsioni ”troppo” alte.
• La retta passa per il punto di coordinate (¯x, ¯y). Per cui passa per il centro della distribuzione.
Regressione lineare: metodo dei minimi quadrati.
L’utilizzo del metodo dei minimi quadri fornisce alcune proprietà per la retta di regressione.
• Essa ha alcuni residui positivi e altri negativi, per cui la somma dei residui, così come la loro media, è pari a 0.
Questo implica che previsioni ”troppo” basse sono bilanciate da previsioni ”troppo” alte.
• La retta passa per il punto di coordinate (¯x, ¯y). Per cui passa per il centro della distribuzione.
Regressione lineare: metodo dei minimi quadrati.
L’utilizzo del metodo dei minimi quadri fornisce alcune proprietà per la retta di regressione.
• Essa ha alcuni residui positivi e altri negativi, per cui la somma dei residui, così come la loro media, è pari a 0.
Questo implica che previsioni ”troppo” basse sono bilanciate da previsioni ”troppo” alte.
• La retta passa per il punto di coordinate (¯x, ¯y). Per cui passa per il centro della distribuzione.
Regressione lineare: stime dei minimi quadrati.
Data la retta di regressione
ˆy = a + bx
applicando il metodo dei minimi quadrati si ha che
b=Cov(x, y) s2x = rsy
sx mentre
a= ¯y − b¯x .
Regressione lineare: stime dei minimi quadrati.
Data la retta di regressione
ˆy = a + bx
applicando il metodo dei minimi quadrati si ha che b=Cov(x, y)
s2x = rsy
sx
mentre
a= ¯y − b¯x .
Regressione lineare: stime dei minimi quadrati.
Data la retta di regressione
ˆy = a + bx
applicando il metodo dei minimi quadrati si ha che b=Cov(x, y)
s2x = rsy
sx mentre
a= ¯y − b¯x .
Regressione lineare: r-quadro.
I risultati di una regressione lineare sono tanto più accurati quanto più la relazione tra le variabili è effettivamente lineare.
Esiste un indice che permette di verificare l’adeguatezza del modello lineare ai dati:r-quadro.
Il coefficiente r-quadro nella regressione lineare con una sola variabile esplicativa è il quadrato del coefficiente di correlazione. Questo coefficiente sintetizza l’errore che si commette stimando i valori di y tramite la retta di regressione, ˆy = a + bx, invece di considerare direttamente il suo valor medio, ossia ˆy = ¯y .
Il modo più frequente di interpretare r2 è come proporzione di variabilità della y spiegata dalla relazione lineare con la x.
Regressione lineare: r-quadro.
I risultati di una regressione lineare sono tanto più accurati quanto più la relazione tra le variabili è effettivamente lineare.
Esiste un indice che permette di verificare l’adeguatezza del modello lineare ai dati:r-quadro.
Il coefficiente r-quadro nella regressione lineare con una sola variabile esplicativa è il quadrato del coefficiente di correlazione. Questo coefficiente sintetizza l’errore che si commette stimando i valori di y tramite la retta di regressione, ˆy = a + bx, invece di considerare direttamente il suo valor medio, ossia ˆy = ¯y .
Il modo più frequente di interpretare r2 è come proporzione di variabilità della y spiegata dalla relazione lineare con la x.
Regressione lineare: r-quadro.
I risultati di una regressione lineare sono tanto più accurati quanto più la relazione tra le variabili è effettivamente lineare.
Esiste un indice che permette di verificare l’adeguatezza del modello lineare ai dati:r-quadro.
Il coefficiente r-quadro nella regressione lineare con una sola variabile esplicativa è il quadrato del coefficiente di correlazione.
Questo coefficiente sintetizza l’errore che si commette stimando i valori di y tramite la retta di regressione, ˆy = a + bx, invece di considerare direttamente il suo valor medio, ossia ˆy = ¯y .
Il modo più frequente di interpretare r2 è come proporzione di variabilità della y spiegata dalla relazione lineare con la x.
Regressione lineare: r-quadro.
I risultati di una regressione lineare sono tanto più accurati quanto più la relazione tra le variabili è effettivamente lineare.
Esiste un indice che permette di verificare l’adeguatezza del modello lineare ai dati:r-quadro.
Il coefficiente r-quadro nella regressione lineare con una sola variabile esplicativa è il quadrato del coefficiente di correlazione.
Questo coefficiente sintetizza l’errore che si commette stimando i valori di y tramite la retta di regressione, ˆy = a + bx, invece di considerare direttamente il suo valor medio, ossia ˆy = ¯y .
Il modo più frequente di interpretare r2 è come proporzione di variabilità della y spiegata dalla relazione lineare con la x.
Regressione lineare: r-quadro.
I risultati di una regressione lineare sono tanto più accurati quanto più la relazione tra le variabili è effettivamente lineare.
Esiste un indice che permette di verificare l’adeguatezza del modello lineare ai dati:r-quadro.
Il coefficiente r-quadro nella regressione lineare con una sola variabile esplicativa è il quadrato del coefficiente di correlazione.
Questo coefficiente sintetizza l’errore che si commette stimando i valori di y tramite la retta di regressione, ˆy = a + bx, invece di considerare direttamente il suo valor medio, ossia ˆy = ¯y .
Il modo più frequente di interpretare r2 è come proporzione di variabilità della y spiegata dalla relazione lineare con la x.
Regressione lineare: r-quadro.
Si ha che:
−1 < r < 1 ⇒ 0 < r2< 1
Regressione lineare: outlier.
Il risultato della stima risulta fortemente influenzato dalla even- tuale presenza di valori estremamente lontani dal trend seguito dal resto dei valori osservati. In quel caso la retta di regressione tende ad essere attirata da quel punto.
Associazione tra variabili qualitative e quantitative.
E’ possibile osservare la presenza di associazioni anche tra vari- abili categoriche e quantitative.
Se consideriamo il confronto tra due sole variabili il metodo grafico più efficace consiste nell’affiancare i boxplot dei dati costruiti per ciascuna categoria:
Figure:Boxplot affiancati per l’altezza di studenti e studentesse di una scuola.
Associazione tra variabili qualitative e quantitative.
E’ possibile osservare la presenza di associazioni anche tra vari- abili categoriche e quantitative.
Se consideriamo il confronto tra due sole variabili il metodo grafico più efficace consiste nell’affiancare i boxplot dei dati costruiti per ciascuna categoria:
Figure:Boxplot affiancati per l’altezza di studenti e studentesse di una scuola.
Associazione tra variabili qualitative e quantitative.
E’ possibile osservare la presenza di associazioni anche tra vari- abili categoriche e quantitative.
Se consideriamo il confronto tra due sole variabili il metodo grafico più efficace consiste nell’affiancare i boxplot dei dati costruiti per ciascuna categoria:
Figure:Boxplot affiancati per l’altezza di studenti e studentesse
Associazione tra variabili qualitative e quantitative.
Se confrontiamo due variabili quantitative con una qualitativa possiamo visualizzare l’associazione attraverso uno scatterplot che evidenzia la separazione tra i dati in base alle categorie della terza variabile.
Variabili confondenti.
Unavariabile confondente è una variabile, di solito non osser- vata, che influenza l’associazione tra le variabili di interesse in uno studio.
E’ possibile che l’associazione tra due variabili cambi direzione una volta che viene aggiunta nello studio una terza variabile: si parla diParadosso di Simpson.
Il seguente scatterplot mostra la relazione ipotetica tra tasso di criminalità e livello di istruzione, a seconda del livello di urbaniz- zazione.
Variabili confondenti.
Unavariabile confondente è una variabile, di solito non osser- vata, che influenza l’associazione tra le variabili di interesse in uno studio.
E’ possibile che l’associazione tra due variabili cambi direzione una volta che viene aggiunta nello studio una terza variabile: si parla diParadosso di Simpson.
Il seguente scatterplot mostra la relazione ipotetica tra tasso di criminalità e livello di istruzione, a seconda del livello di urbaniz- zazione.
Variabili confondenti.
Unavariabile confondente è una variabile, di solito non osser- vata, che influenza l’associazione tra le variabili di interesse in uno studio.
E’ possibile che l’associazione tra due variabili cambi direzione una volta che viene aggiunta nello studio una terza variabile: si parla diParadosso di Simpson.
Il seguente scatterplot mostra la relazione ipotetica tra tasso di criminalità e livello di istruzione, a seconda del livello di urbaniz- zazione.
Ricapitolazione: esercizio.
Sia dato un campione di osservazioni sulla misurazione del di- ametro del tronco (in cm) e del raggio della chioma (in m) per 10 pini bianchi. Si vuole studiare se la misura del diametro del tronco influenzi il raggio della chioma. Si considera quindi la variabile esplicativa x = diametro e la risposta y = raggio chioma.
I dati rilevati sono i seguenti:
x 5.0 12.7 7.6 17.8 5.1 15.2 10.2 22.9 20.3 10.1 y 0.91 1.83 1.22 2.18 1.22 2.30 1.70 2.74 2.65 1.52 Disegnare il diagramma di dispersione, calcolare covarianza, correlazione e interpretarla. Calcolare i coefficienti della retta