Dipartimento di Scienze politiche, della comunicazione e delle relazioni internazionali - a.a. 2013-2014

(1)

comunicazione e delle relazioni

internazionali - a.a. 2013-2014

(2)

Modello Statistico

In generale un modello statistico è una rappresentazione semplificata, per analogia e necessaria della realtà

derivata da osservazioni sperimentali oltre che da deduzioni logiche

•  Semplificata: esprime una realtà complessa in modo

parsimonioso secondo un principio filosofico, detto “Rasoio di Occam”, secondo cui “nessuna ipotesi deve essere

necessariamente complessa quando un’altra più semplice conduce alla stessa capacità esplicativa”

•  Per analogia: il modello è un’analogia della realtà poiché ne emula gli aspetti fondamentali al fine di ricavare deduzioni e induzioni utili

•  Necessaria: consente di esaminare la complessità del mondo,

della storia, della società mediante l’analisi di relazioni semplici

e di maggiore intelligibilità

(3)

Costruzione di un Modello Statistico

TEORIA

!  Formulazione delle ipotesi

!  Relazione causa-effetto tra più variabili

!  Individuazione delle variabili esplicative

DATI

!  Individuazione della tipologia

!  Trasformazioni preliminari

SPECIFICAZIONE DEL MODELLO

STIMA DEI PARAMETRI

VERIFICA DEL MODELLO

USO del MODELLO

Descrizione, Interpretazione, Previsione, Controllo, Simulazione,………..

SI

NO

(4)

Classificazione dei modelli statistici

I modelli possono essere classificati rispetto a

molteplici criteri in funzione dei dati necessari, dei

metodi di stima, della natura delle variabili coinvolte, della forma della relazione ipotizzata

q  Semplici, multipli o multivariati

q  Lineari, linearizzabili o intrinsecamente non lineari q  Temporali, spaziali o direzionali

q  A componenti matematiche, a variabili fisse (o deterministiche), a componenti stocastiche

(5)

Asimmetria del legame

Il modello statistico implica un legame tra le variabili ma non è simmetrico circa la direzione di casualità tra la

variabile dipendente Y e le variabili esplicative X ₁ ,X ₂ ,…..X _p

X → Y

Se X è la velocità di un autoveicolo e Y rappresenta lo spazio di frenata

allora…..

Se X è l’area in mq di un appartamento e la variabile Y rappresenta il suo

prezzo allora…… Y X → Y → X

Y → X

(6)

La Regressione

X Variabile indipendente Y Variabile dipendente Dipendenza funzionale (o deterministica): ^Y ⁼ ^{f X} ( ^; ^θ )

Da un punto di vista analitico, i valori della Y possono essere determinati senza errore a partire dai soli valori della X;

Dipendenza statistica: ^Y ⁼ ^{f X} ( ^; ^θ ) ⁺ ^e

Il valore della variabile dipendente non è univocamente determinato a partire dal solo valore della variabile esplicativa, potendosi osservare, per ciascun di X, più valori di Y;

Da un punto di vista grafico, la dipendenza statistica implica una funzione che passi fra i punti osservati. Il numero di parametri da determinare dipende, in questo caso, dal tipo di funzione scelta e non dal numero di punti osservati.

X

Da un punto di vista grafico, la dipendenza Y

funzionale implica la definizione di una funzione

che passi per tutti i punti, e che quindi richiede

la determinazione di tanti parametri quanti sono i

punti.

(7)

Specificazione del modello

La specificazione di un modello statistico consiste

nell’esplicitare un legame tra i fenomeni di interesse:

Tale relazione deriva dall’interazione tra conoscenze a priori e risultati sperimentali

In questa fase devono essere individuate le variabili di interesse, come si misurano e il loro ruolo. Inoltre va specificata la forma funzionale della relazione

Y = f (X ₁ , X ₂ ,..., X _p ) + ε

Variabili esplicative

v.c. errore

(8)

Specificazione della forma funzionale della relazione: Esempio

Y = peso X = altezza di un adulto Y = peso di un mattone

X ₁ = lunghezza X ₂ = larghezza

Y = output K = capitale L = lavoro Y = β X + ε

Y = β ^X ₁ ^X ₂ + ε

Y = β ₀ ^K ^β

¹

^L ^β

²

+ ε

Ogni specificazione evidenzia uno o più parametri che devono

essere stimati per poter utilizzare il modello ipotizzato

(9)

X Variabile indipendente Y Variabile dipendente

GRAFICAMENTE……

(10)

Stima dei parametri

Si determina un campione casuale di numerosità n dalla popolazione di riferimento e su ciascuna delle unità

statistiche si rilevano sia il fenomeno da spiegare Y che le cause presumibili X ₁ ,X ₂ ,…..X _p , individuate nella fase di specificazione del modello

(y _i ; x _i1 , x _i2 ,...x _ip ) per i =1, 2,...n

Il modello diventa il seguente:

y _i = f (x _i1 , x _i2 ,...x _ip ; β ) + ε _i per i =1, 2,...n

Parte Deterministica Parte Stocastica

(11)

Stima dei parametri

Nei dati osservati la v.c. si realizza nel numero e _i che è deducibile da: ε _i

e _i = y _i − f (x _i1 , x _{i 2} ,...x _ip ; β ⁾

y _i = f (x _i1 , x _{i 2} ,...x _ip ; β ) + ε _i per i = 1, 2,...n

Le realizzazioni e _i sono note se si conoscono sia la forma funzionale del modello che i parametri β

In tal modo ci si riconduce alla tipica situazione inferenziale nella quale dal campione osservato si cerca di risalire alla determinazione numerica di 1 o più parametri della

popolazione cui applicare un metodo di stima adeguata

(12)

Il termine regressione è stato introdotto da Sir Francis Galton, antropologo inglese, nell’articolo “Regression

towards mediocrity in hereditary stature”Journal of the Anthropological Institute,1885;15:246-263.

Galton dimostrò come “ogni

caratteristica di un individuo è ereditata dalla prole, ma in media ad un livello minore”. Ad esempio, i figli di un

genitore di statura alta sono anch’essi alti, ma in media sono meno alti del genitore. Tale fenomeno, descritto anche graficamente, fu chiamato

regressione e da allora tale termine è rimasto per definire quelle tecniche statistiche che analizzano la relazione tra due o più variabili.

Regressione Lineare Semplice

(13)

La logica della Regressione

Nello studio delle relazioni tra due (o più) variabili, oltre a misurare l’entità (o forza) del legame esistente, spesso si è anche interessati ad accertare come varia una di esse al variare dell’altra (o delle altre), cioè ad individuare un opportuna funzione che metta in relazione due o più variabili (di cui una dipendente e le altre indipendenti o esplicative).

!  Nel caso di una sola variabile indipendente si parla di regressione semplice;

!  In presenza di due o più variabili indipendenti si parla di regressione multipla

Obiettivi

!  Descrizione: rappresentare tramite funzione l andamento in media dei valori di una variabile al variare dell’altra

!  Interpretazione: mettere in evidenza relazioni tra variabili per consentire una spiegazione alla luce di precise teorizzazioni

!  Previsione: valutare il valore che assumerà la variabile dipendente in corrispondenza di un valore noto della variabile indipendente

(esplicativa)

(14)

Se il legame è di tipo lineare ed il numero delle

variabili esplicative è pari ad 1, il modello diviene:

Y = β ₀ + β ₁ X + ε

Per ogni singola osservazione i il modello può essere scritto così:

n 1,..., i

1 ,

0 + + =

= _i _i

i X

Y β β ε

Equazione della

retta Componente

stocastica

Regressione Lineare Semplice

(15)

La Regressione

X Variabile indipendente Y Variabile dipendente

( ^; )

Y = f X θ + e

X Y

La scelta del tipo di funzione: Lineare

Equazione di una retta

b

₀

è l’intercetta sull’asse delle ordinate.

Può essere interpretato come il valore di Y per X=0 (quando ciò ha senso).

b

₁

è il coefficiente angolare della

retta di regressione in quanto funzione

dell’angolo che la retta forma con l’asse delle ascisse. Esprime dunque la pendenza

(positiva, negativa o nulla) della retta.

Esprime anche quanto varia la variabile Y al variare unitario della variabile X.

y = b ₀ + b ₁ x

(16)

Y = α + β ^X

y = + α β X

α

}

y = + α β X y = + α β X

}

α } ^α

Y

⁵

Y

⁴

Y

³

Y

²

Y

¹

Y

X

1

X

2

X

3

X

4

X

Equazione della retta

(17)

Per determinare

l’equazione della retta:

è sufficiente stimare i parametri del modello:

intercetta e coefficiente angolare.

Y = ˆ ˆ β

₀

+ ˆ β

₁

X

Obiettivo geometrico della regressione è determinare l’equazione della retta che meglio approssima i punti di coordinate (X, Y),

sintetizzando l’andamento complessivo medio che si percepisce guardando i dati

Obiettivo geometrico della Regressione

(18)

Minimizzare la distanza verticale tra valori osservati e valori teorici

Occorrerà individuare una retta tale che le quantità:

siano le più piccole possibile.

Il criterio geometrico si traduce nel criterio statistico di trovare stimatori ottimali per i

parametri e sulla base del campione osservato (x _i ,y _i ), i=1,…..n

y ˆ

_i

y

_i

e _i = y _i − ˆy _i = y _i − ( β ₀ + β ₁ ^x _i ⁾ ⁱ = 1,...n

β ₀ β ₁

Analiticamente……

(19)

La Regressione

X Variabile indipendente Y Variabile dipendente

( ^; )

Y = f X θ + e

X Y

La scelta del tipo di funzione: Lineare

La determinazione dei vincoli:

x

_i

y

_i

ˆ

_i

y

e _i ²

i =1

∑ n ⁼ ( ^y ⁱ ^{− ˆ} ^y ⁱ ) ²

i =1

∑ n ^{= min}

0 1

ˆ _i _i

y = b + b x

( ⁰ ¹ ) ²

1 n min

i i

i

y b b x

=

− − =

∑

0 1

b = − y b x ( )

( )

1

Cov XY

b = Var X

(20)

La Regressione

X Variabile indipendente Y Variabile dipendente

( ^; )

Y = f X θ + e

X Y

La scelta del tipo di funzione: Lineare

x

_i

y

_i

ˆ_i y

0 1

b = − y b x

( ) ( )

1

Cov XY b = Var X

E’ l’intercetta sull’asse delle ordinate. Può essere

interpretato come il valore di Y per X=0 (quando ciò ha senso).

0 1

y = b + b x Il punto di coordinate è un punto della retta di

regressione. La retta di

regressione passa, dunque, sempre per il baricentro della nube.

( ^{x y} ^; )

E’ il coefficiente angolare della

retta di regressione in quanto funzione dell’angolo che la retta forma con l’asse delle ascisse. Esprime dunque la pendenza (positiva, negativa o nulla) della retta.

Esprime anche quanto varia la variabile Y al variare unitario della variabile X.

(

^{x y}^;

)

(21)

Proprietà della retta di regressione

y ˆ _i = b ₀ + b ₁ x _i

Ottenuti i valori di b ₀ e b ₁ è immediato disegnare la retta di regressione

(x,y) y

_i

y ˆ

_i

x

_i

− x y

_i

− y

(

⁰ ¹

)

²

1

n

min

i i

i

y b b x

=

− − =

∑

1.  La retta è unica, perché è unico il minimo della funzione:

2.  La retta dei minimi quadrati offre tra tutte le rette possibili lo scostamento più piccolo dai dati (minima somma dei residui al quadrato)

3.  La retta passa sempre per il punto di coordinate

4.  La retta è tale che la media delle osservate coincide con la media delle stimate

5.  Il parametro b ₁ non varia se i dati sono centrati: e

(22)

La Regressione _X Variabile indipendente o esplicativa Y Variabile dipendente

App. mq

(X)

Prezzo in €

(Y) X-M(X) Y-M(Y) [X-M(X)]*[Y-M(Y)]

1 80 212000 -51,0 -202333,3 10.319.000

2 200 313000 69,0 -101333,3 -6.992.000

3 185 717000 54,0 302666,7 16.344.000

4 140 431000 9,0 16666,7 150.000

5 95 270000 -36,0 -144333,3 5.196.000

6 60 261000 -71,0 -153333,3 10.886.667

7 210 431000 79,0 16666,7 1.316.667

8 65 140000 -66,0 -274333,3 18.106.000

9 70 282000 -61,0 -132333,3 8.072.333

10 120 600000 -11,0 185666,7 -2.042.333

11 100 303000 -31,0 -111333,3 3.451.333

12 90 220000 -41,0 -194333,3 7.967.667

13 180 749000 49,0 334666,7 16.398.667

14 220 663000 89,0 248666,7 22.131.333

15 150 623000 19,0 208666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

300 250

200 150

100 50

0 900000 800000 700000 600000 500000 400000 300000 200000

100000 0

15

14 13

12 11

10

9

8

7

6 5

4

3

2

1

(23)

La Regressione

X Variabile indipendente Y Variabile dipendente

( ^; )

Y = f X θ + e

App. mq

(X)

Prezzo in €

(Y) X-M(X) Y-M(Y) [X-M(X)]*[Y-M(Y)]

1 80 212000 -51,0 -202333,3 10.319.000

2 200 313000 69,0 -101333,3 -6.992.000

3 185 717000 54,0 302666,7 16.344.000

4 140 431000 9,0 16666,7 150.000

5 95 270000 -36,0 -144333,3 5.196.000

6 60 261000 -71,0 -153333,3 10.886.667

7 210 431000 79,0 16666,7 1.316.667

8 65 140000 -66,0 -274333,3 18.106.000

9 70 282000 -61,0 -132333,3 8.072.333

10 120 600000 -11,0 185666,7 -2.042.333

11 100 303000 -31,0 -111333,3 3.451.333

12 90 220000 -41,0 -194333,3 7.967.667

13 180 749000 49,0 334666,7 16.398.667

14 220 663000 89,0 248666,7 22.131.333

15 150 623000 19,0 208666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

Media

_X

=131,0 sqm

_X

=54,44

Media

_Y

=414.333,3 sqm

_Y

=197.060,96

300 250

200 150

100 50

0 900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14 13

12 11

10

9

8

7

6 5

4

3

2

1

(24)

La Regressione

X Variabile indipendente Y Variabile dipendente

( ^; )

Y = f X θ + e

App. mq

(X)

Prezzo in €

(Y) X-M(X) Y-M(Y) [X-M(X)]*[Y-M(Y)]

1 80 212000 -51,0 -202333,3 10.319.000

2 200 313000 69,0 -101333,3 -6.992.000

3 185 717000 54,0 302666,7 16.344.000

4 140 431000 9,0 16666,7 150.000

5 95 270000 -36,0 -144333,3 5.196.000

6 60 261000 -71,0 -153333,3 10.886.667

7 210 431000 79,0 16666,7 1.316.667

8 65 140000 -66,0 -274333,3 18.106.000

9 70 282000 -61,0 -132333,3 8.072.333

10 120 600000 -11,0 185666,7 -2.042.333

11 100 303000 -31,0 -111333,3 3.451.333

12 90 220000 -41,0 -194333,3 7.967.667

13 180 749000 49,0 334666,7 16.398.667

14 220 663000 89,0 248666,7 22.131.333

15 150 623000 19,0 208666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

Media

_X

=131,0 sqm

_X

=54,44

Media

_Y

=414.333,3 sqm

_Y

=197.060,96

( ) (

⁻

^µ ) (

^⋅ ⁻

^µ )

= =

∑

115.270.000 7.684.666,7 15

i X i Y

i

x y

Cov XY

n

7.684.666,7 2.592,67 2964,00

= =

0 1

b = − y b x = 414.333,3 2.592,67 131 74.693,5 − × =

( ) ( )

1

Cov XY

b = Var X

(25)

La Regressione ^Y ⁼ ^{f X} ( ^; ^θ ) ⁺ ^e

0 1

y ˆ = b + b x

ˆ 74.693,88 2.592,67

y = + x

App. mq

(X)

Prezzo in € (Y)

1 80 212.000 282.107 -70.107

2 200 313.000 593.227 -280.227

3 185 717.000 554.337 162.663

4 140 431.000 437.667 -6.667

5 95 270.000 320.997 -50.997

6 60 261.000 230.254 30.746

7 210 431.000 619.154 -188.154

8 65 140.000 243.217 -103.217

9 70 282.000 256.181 25.819

10 120 600.000 385.814 214.186

11 100 303.000 333.961 -30.961

12 90 220.000 308.034 -88.034

13 180 749.000 541.374 207.626

14 220 663.000 645.081 17.919

15 150 623.000 463.594 159.406

1.965 6.215.000 6.215.000 0

ˆY Y - Y ˆ

300 250

200 150

100 50

0 900000 800000 700000 600000 500000 400000 300000 200000

100000 0

15

14 13

12 11

10

9

8

7

6 5

4

3

2

1

Media

_X

=131,0 sqm

_X

=54,44

Media

_Y

=414.333,3

sqm

_Y

=197.060,96

(26)

La Regressione ^Y ⁼ ^{f X} ( ^; ^θ ) ⁺ ^e

0 1

y ˆ = b + b x

ˆ 74.693,88 2.592,67

y = + x

App. mq

(X)

Prezzo in € (Y)

1 80 212.000 282.107 -70.107

2 200 313.000 593.227 -280.227

3 185 717.000 554.337 162.663

4 140 431.000 437.667 -6.667

5 95 270.000 320.997 -50.997

6 60 261.000 230.254 30.746

7 210 431.000 619.154 -188.154

8 65 140.000 243.217 -103.217

9 70 282.000 256.181 25.819

10 120 600.000 385.814 214.186

11 100 303.000 333.961 -30.961

12 90 220.000 308.034 -88.034

13 180 749.000 541.374 207.626

14 220 663.000 645.081 17.919

15 150 623.000 463.594 159.406

1.965 6.215.000 6.215.000 0

ˆY Y - Y ˆ

300 250

200 150

100 50

0 900000 800000 700000 600000 500000 400000 300000 200000

100000 0

15

14 13

12 11

10

9

8

7

6 5

4

3

2

e 1

Media

_X

=131,0 sqm

_X

=54,44

Media

_Y

=414.333,3

sqm

_Y

=197.060,96

(27)

La Regressione ^Y ⁼ ^{f X} ( ^; ^θ ) ⁺ ^e

0 1

y ˆ = b + b x

ˆ 74.693,88 2.592,67

y = + x

App. mq

(X)

Prezzo in € (Y)

1 80 212.000 282.107 -70.107

2 200 313.000 593.227 -280.227

3 185 717.000 554.337 162.663

4 140 431.000 437.667 -6.667

5 95 270.000 320.997 -50.997

6 60 261.000 230.254 30.746

7 210 431.000 619.154 -188.154

8 65 140.000 243.217 -103.217

9 70 282.000 256.181 25.819

10 120 600.000 385.814 214.186

11 100 303.000 333.961 -30.961

12 90 220.000 308.034 -88.034

13 180 749.000 541.374 207.626

14 220 663.000 645.081 17.919

15 150 623.000 463.594 159.406

1.965 6.215.000 6.215.000 0

ˆY Y - Y ˆ

300 250

200 150

100 50

0 900000 800000 700000 600000 500000 400000 300000 200000

100000 0

15

14 13

12 11

10

9

8

7

6 5

4

3

2

e 1

Media

_X

=131,0 sqm

_X

=54,44

Media

_Y

=414.333,3

sqm

_Y

=197.060,96

(28)

La Regressione ^Y ⁼ ^{f X} ( ^; ^θ ) ⁺ ^e

0 1

y ˆ = b + b x

ˆ 74.693,88 2.592,67

y = + x

App. mq

(X)

Prezzo in € (Y)

1 80 212.000 282.107 -70.107

2 200 313.000 593.227 -280.227

3 185 717.000 554.337 162.663

4 140 431.000 437.667 -6.667

5 95 270.000 320.997 -50.997

6 60 261.000 230.254 30.746

7 210 431.000 619.154 -188.154

8 65 140.000 243.217 -103.217

9 70 282.000 256.181 25.819

10 120 600.000 385.814 214.186

11 100 303.000 333.961 -30.961

12 90 220.000 308.034 -88.034

13 180 749.000 541.374 207.626

14 220 663.000 645.081 17.919

15 150 623.000 463.594 159.406

1.965 6.215.000 6.215.000 0

ˆY Y - Y ˆ

300 250

200 150

100 50

0 900000 800000 700000 600000 500000 400000 300000 200000

100000 0

15

14 13

12 11

10

9

8

7

6 5

4

3

2

1

Media

_X

=131,0 sqm

_X

=54,44

Media

_Y

=414.333,3

sqm

_Y

=197.060,96

(29)

La Regressione: Interpolazione ed estrapolazione

0 1

y ˆ = b + b x

74.693,88 2.592,67x

= +

App. mq

(X)

Prezzo in € (Y)

1 80 212.000 282.107 -70.107

2 200 313.000 593.227 -280.227

3 185 717.000 554.337 162.663

4 140 431.000 437.667 -6.667

5 95 270.000 320.997 -50.997

6 60 261.000 230.254 30.746

7 210 431.000 619.154 -188.154

8 65 140.000 243.217 -103.217

9 70 282.000 256.181 25.819

10 120 600.000 385.814 214.186

11 100 303.000 333.961 -30.961

12 90 220.000 308.034 -88.034

13 180 749.000 541.374 207.626

14 220 663.000 645.081 17.919

15 150 623.000 463.594 159.406

1.965 6.215.000 6.215.000 0

ˆY Y - Y ˆ

300 250

200 150

100 50

0 900000 800000 700000 600000 500000 400000 300000 200000

100000 0

15

14 13

12 11

10

9

8

7

6 5

4

3

2

1

Qual è il prezzo previsto

di un appartamento di 160 mq? y ˆ 74.693,88 2.592,67 160 = + ⋅ 489.520,7

=

(30)

La Regressione : Interpolazione ed estrapolazione

0 1

y ˆ = b + b x

ˆ 74.693,88 2.592,67

y = + x

App. mq

(X)

Prezzo in € (Y)

1 80 212.000 282.107 -70.107

2 200 313.000 593.227 -280.227

3 185 717.000 554.337 162.663

4 140 431.000 437.667 -6.667

5 95 270.000 320.997 -50.997

6 60 261.000 230.254 30.746

7 210 431.000 619.154 -188.154

8 65 140.000 243.217 -103.217

9 70 282.000 256.181 25.819

10 120 600.000 385.814 214.186

11 100 303.000 333.961 -30.961

12 90 220.000 308.034 -88.034

13 180 749.000 541.374 207.626

14 220 663.000 645.081 17.919

15 150 623.000 463.594 159.406

1.965 6.215.000 6.215.000 0

ˆY Y - Y ˆ

300 250

200 150

100 50

0 900000 800000 700000 600000 500000 400000 300000 200000

100000 0

15

14 13

12 11

10

9

8

7

6 5

4

3

2

1

Qual è il prezzo previsto

di un appartamento di 260 mq?

(31)

Valutazione dell’adattamento: Decomposizione della devianza

È opportuno proporre un indicatore capace di riassumere l’adattamento globale e la capacità esplicativa complessiva del modello in rapporto ai dati campionari.

Ciò avviene mediante l’indice di determinazione multipla, che deriva dalla decomposizione della devianza totale in:

Dove:

Dev(Y ) = Dev( ˆ Y ) + Dev(E)

Dev(Y ) = (y

_i

i=1 n

∑ ^{− y )}

²

Dev( ˆ Y ) = ( ˆ y

_i

i=1 n

∑ ^{− y )}

²

Dev(E) = (y

_i

i=1 n

∑ ^{− ˆy}

ⁱ

⁾

²

⁼ ^e

ⁱ²

i=1 n

∑

Devianza totale dei valori della variabile dipendente;

misura la variazione dei valori di y intorno alla loro media

Devianza dei valori stimati (o dev di regressione);

variazione spiegata attribuibile alla relazione fra X e Y Devianza dei residui (o residua); variazione

attribuibile a fattori estranei alla relazione fra X e Y

(32)

Valutazione dell ’ adattamento

X Y

y

x

( ^{x y} ^; )

0 1

b + b X

(33)

Valutazione dell ’ adattamento

X Y

y

x

( ) (

ⁱ

)

²

i

Dev Y = ∑ y − y

(34)

Valutazione dell ’ adattamento

X Y

y

x

( ) (

ⁱ

)

²

i

Dev Y = ∑ y − y

0 1

b + b X

( ) ^ˆ ( ^ˆ

ⁱ

)

²

i

Dev y = ∑ y − y ^{( )} (

ⁱ

^ˆ )

²

i

Dev e = ∑ y − y

Parte “spiegata” dalla regressione Parte residua

( ) ^ˆ ( ^ˆ

ⁱ

)

²

i

Dev y = ∑ y − y

( ) (

ⁱ

^ˆ

ⁱ

)

²

i

Dev e = ∑ y − y

( ) ^{Dev y} ( ) ^ˆ ^v ( )

Dev Y = + De e

R

²

Indice di

determinazione

( ) ( )

( )

2 2

2

ˆ ˆ

ⁱ

i i i

y y Dev y

R Dev y y y

−

= =

−

∑

0 ≤ R

2

≤ 1

(35)

Valutazione dell ’ adattamento

L ’ indice di determinazione serve a valutare la capacità previsiva del modello statistico ossia il grado di

accostamento tra valori empirici e valori teorici

(36)

La Regressione y ˆ 74.693,88 2.592,67 = + x

App. mq

(X)

Prezzo in € (Y)

1 80 212.000 282.107 -202.333 -132.226 -70.107 40.938.777.778 17.483.727.210 4.915.031.754 2 200 313.000 593.227 -101.333 178.894 -280.227 10.268.444.444 32.003.085.447 78.527.393.139 3 185 717.000 554.337 302.667 140.004 162.663 91.607.111.111 19.601.133.620 26.459.127.322

4 140 431.000 437.667 16.667 23.334 -6.667 277.777.778 544.475.934 44.453.442

5 95 270.000 320.997 -144.333 -93.336 -50.997 20.832.111.111 8.711.614.942 2.600.724.704

6 60 261.000 230.254 -153.333 -184.079 30.746 23.511.111.111 33.885.224.478 945.320.444

7 210 431.000 619.154 16.667 204.821 -188.154 277.777.778 41.951.534.609 35.401.954.462

8 65 140.000 243.217 -274.333 -171.116 -103.217 75.258.777.778 29.280.705.777 10.653.805.643

9 70 282.000 256.181 -132.333 -158.153 25.819 17.512.111.111 25.012.283.333 666.640.808

10 120 600.000 385.814 185.667 -28.519 214.186 34.472.111.111 813.352.938 45.875.646.835

11 100 303.000 333.961 -111.333 -80.373 -30.961 12.395.111.111 6.459.770.030 958.561.153

12 90 220.000 308.034 -194.333 -106.299 -88.034 37.765.444.444 11.299.556.109 7.749.978.661 13 180 749.000 541.374 334.667 127.041 207.626 112.001.777.778 16.139.342.188 43.108.537.570

14 220 663.000 645.081 248.667 230.747 17.919 61.835.111.111 53.244.368.793 321.099.637

15 150 623.000 463.594 208.667 49.261 159.406 43.541.777.778 2.426.614.965 25.410.267.386

1.965 6.215.000 6.215.000 0 0 0 582.495.333.333 298.856.790.373 283.638.542.960

ˆY Y - Y ˆY - Y Y - Yˆ

(37)

La Regressione y ˆ 74.693,88 2.592,67 = + x

App. mq

(X)

Prezzo in € (Y)

1 80 212.000 282.107 40.938.777.778 17.483.727.210 4.915.031.754 2 200 313.000 593.227 10.268.444.444 32.003.085.447 78.527.393.139 3 185 717.000 554.337 91.607.111.111 19.601.133.620 26.459.127.322

4 140 431.000 437.667 277.777.778 544.475.934 44.453.442

5 95 270.000 320.997 20.832.111.111 8.711.614.942 2.600.724.704 6 60 261.000 230.254 23.511.111.111 33.885.224.478 945.320.444 7 210 431.000 619.154 277.777.778 41.951.534.609 35.401.954.462 8 65 140.000 243.217 75.258.777.778 29.280.705.777 10.653.805.643 9 70 282.000 256.181 17.512.111.111 25.012.283.333 666.640.808 10 120 600.000 385.814 34.472.111.111 813.352.938 45.875.646.835 11 100 303.000 333.961 12.395.111.111 6.459.770.030 958.561.153 12 90 220.000 308.034 37.765.444.444 11.299.556.109 7.749.978.661 13 180 749.000 541.374 112.001.777.778 16.139.342.188 43.108.537.570 14 220 663.000 645.081 61.835.111.111 53.244.368.793 321.099.637 15 150 623.000 463.594 43.541.777.778 2.426.614.965 25.410.267.386 1.965 6.215.000 6.215.000 582.495.333.333 298.856.790.373 283.638.542.960

ˆY

(

^{Y - Y}

)

²

(

^ˆ^{Y - Y}

)

²

(

^{Y - Y}^ˆ

)

²

( ) (

ⁱ

)

²

i

Dev Y = ∑ y − y

( ) ^ˆ

_i

⁽ ^ˆ

ⁱ

⁾

²

Dev Y = ∑ y − y

( ) (

ⁱ

^ˆ )

²

i

Dev e = ∑ y − y

= 582.495.333.333

= 298.856.790.373

= 283.638.542.960

( ) ( )

2

Dev Y ˆ R = Dev Y

298.856.790.373 582.495.333.333

= ⁼ ^0,513

(38)

Esercizio 1

(39)

Esercizio 1

(40)

Esercizio 1

Come calcolare i parametri

della retta di regressione???

(41)

Esercizio 1

(42)

Esercizio 1

Formule per il calcolo dell’intercetta

e del coefficiente angolare

(43)

Esercizio 1

(44)

Esercizio 2

(45)

Esercizio 2

Ricaviamo l’intercetta e il

coefficiente angolare

(46)

Esercizio 2

(47)

Dove e come studiare

Esercizio n. 3 Esercizio n. 5 Esercizio n. 8 Esercizio n. 9

File “esercizi statistiche bivariate.pdf”

•  S. Borra, A. Di Ciaccio (2008) – Statistica – Metodologie per le scienze economiche e sociali – McGraw-Hill. Cap. 16 (escluso paragrafo 16.6).

•  D. Piccolo (2004) – Statistica per le decisioni – Il Mulino. Cap. 18

(escluso paragrafi 18.6, 18.7).

(48)

Dipartimento di Scienze politiche, della comunicazione e delle relazioni internazionali - a.a. 2013-2014

comunicazione e delle relazioni

internazionali - a.a. 2013-2014

Modello Statistico

In generale un modello statistico è una rappresentazione semplificata, per analogia e necessaria della realtà

derivata da osservazioni sperimentali oltre che da deduzioni logiche

• Semplificata: esprime una realtà complessa in modo

parsimonioso secondo un principio filosofico, detto “Rasoio di Occam”, secondo cui “nessuna ipotesi deve essere

necessariamente complessa quando un’altra più semplice conduce alla stessa capacità esplicativa”

• Per analogia: il modello è un’analogia della realtà poiché ne emula gli aspetti fondamentali al fine di ricavare deduzioni e induzioni utili

• Necessaria: consente di esaminare la complessità del mondo,

della storia, della società mediante l’analisi di relazioni semplici

e di maggiore intelligibilità

Costruzione di un Modello Statistico

USO del MODELLO

Descrizione, Interpretazione, Previsione, Controllo, Simulazione,………..

SI

NO

Classificazione dei modelli statistici

I modelli possono essere classificati rispetto a

molteplici criteri in funzione dei dati necessari, dei

metodi di stima, della natura delle variabili coinvolte, della forma della relazione ipotizzata

q Semplici, multipli o multivariati

q Lineari, linearizzabili o intrinsecamente non lineari q Temporali, spaziali o direzionali

q A componenti matematiche, a variabili fisse (o deterministiche), a componenti stocastiche

Asimmetria del legame

Il modello statistico implica un legame tra le variabili ma non è simmetrico circa la direzione di casualità tra la

variabile dipendente Y e le variabili esplicative X 1 ,X 2 ,…..X p

X → Y

Se X è la velocità di un autoveicolo e Y rappresenta lo spazio di frenata

allora…..

Se X è l’area in mq di un appartamento e la variabile Y rappresenta il suo

prezzo allora…… Y X → Y → X

Y → X

La Regressione

X Variabile indipendente Y Variabile dipendente Dipendenza funzionale (o deterministica): Y = f X ( ; θ )

Da un punto di vista analitico, i valori della Y possono essere determinati senza errore a partire dai soli valori della X;

Dipendenza statistica: Y = f X ( ; θ ) + e

Il valore della variabile dipendente non è univocamente determinato a partire dal solo valore della variabile esplicativa, potendosi osservare, per ciascun di X, più valori di Y;

Da un punto di vista grafico, la dipendenza statistica implica una funzione che passi fra i punti osservati. Il numero di parametri da determinare dipende, in questo caso, dal tipo di funzione scelta e non dal numero di punti osservati.

X

Da un punto di vista grafico, la dipendenza Y

funzionale implica la definizione di una funzione

che passi per tutti i punti, e che quindi richiede

la determinazione di tanti parametri quanti sono i

punti.

Specificazione del modello

La specificazione di un modello statistico consiste

nell’esplicitare un legame tra i fenomeni di interesse:

Tale relazione deriva dall’interazione tra conoscenze a priori e risultati sperimentali

In questa fase devono essere individuate le variabili di interesse, come si misurano e il loro ruolo. Inoltre va specificata la forma funzionale della relazione

Y = f (X 1 , X 2 ,..., X p ) + ε

Variabili esplicative

v.c. errore

Specificazione della forma funzionale della relazione: Esempio

Y = peso X = altezza di un adulto Y = peso di un mattone

X 1 = lunghezza X 2 = larghezza

Y = output K = capitale L = lavoro Y = β X + ε

Y = β X 1 X 2 + ε

Y = β 0 K β

L β

+ ε

Ogni specificazione evidenzia uno o più parametri che devono

essere stimati per poter utilizzare il modello ipotizzato

X Variabile indipendente Y Variabile dipendente

GRAFICAMENTE……

Stima dei parametri

Si determina un campione casuale di numerosità n dalla popolazione di riferimento e su ciascuna delle unità

statistiche si rilevano sia il fenomeno da spiegare Y che le cause presumibili X 1 ,X 2 ,…..X p , individuate nella fase di specificazione del modello

(y i ; x i1 , x i2 ,...x ip ) per i =1, 2,...n

Il modello diventa il seguente:

y i = f (x i1 , x i2 ,...x ip ; β ) + ε i per i =1, 2,...n

Parte Deterministica Parte Stocastica

Stima dei parametri

Nei dati osservati la v.c. si realizza nel numero e i che è deducibile da: ε i

e i = y i − f (x i1 , x i 2 ,...x ip ; β )

y i = f (x i1 , x i 2 ,...x ip ; β ) + ε i per i = 1, 2,...n

Le realizzazioni e i sono note se si conoscono sia la forma funzionale del modello che i parametri β

In tal modo ci si riconduce alla tipica situazione inferenziale nella quale dal campione osservato si cerca di risalire alla determinazione numerica di 1 o più parametri della

popolazione cui applicare un metodo di stima adeguata

•  Semplificata: esprime una realtà complessa in modo

•  Per analogia: il modello è un’analogia della realtà poiché ne emula gli aspetti fondamentali al fine di ricavare deduzioni e induzioni utili

•  Necessaria: consente di esaminare la complessità del mondo,

q  Semplici, multipli o multivariati

q  Lineari, linearizzabili o intrinsecamente non lineari q  Temporali, spaziali o direzionali

q  A componenti matematiche, a variabili fisse (o deterministiche), a componenti stocastiche

variabile dipendente Y e le variabili esplicative X ₁ ,X ₂ ,…..X _p

X Variabile indipendente Y Variabile dipendente Dipendenza funzionale (o deterministica): ^Y ⁼ ^{f X} ( ^; ^θ )

Dipendenza statistica: ^Y ⁼ ^{f X} ( ^; ^θ ) ⁺ ^e

Y = f (X ₁ , X ₂ ,..., X _p ) + ε

X ₁ = lunghezza X ₂ = larghezza

Y = β ^X ₁ ^X ₂ + ε

Y = β ₀ ^K ^β

^L ^β

statistiche si rilevano sia il fenomeno da spiegare Y che le cause presumibili X ₁ ,X ₂ ,…..X _p , individuate nella fase di specificazione del modello

(y _i ; x _i1 , x _i2 ,...x _ip ) per i =1, 2,...n

y _i = f (x _i1 , x _i2 ,...x _ip ; β ) + ε _i per i =1, 2,...n

Nei dati osservati la v.c. si realizza nel numero e _i che è deducibile da: ε _i

e _i = y _i − f (x _i1 , x _{i 2} ,...x _ip ; β ⁾

y _i = f (x _i1 , x _{i 2} ,...x _ip ; β ) + ε _i per i = 1, 2,...n

Le realizzazioni e _i sono note se si conoscono sia la forma funzionale del modello che i parametri β

!  Nel caso di una sola variabile indipendente si parla di regressione semplice;

!  In presenza di due o più variabili indipendenti si parla di regressione multipla

!  Descrizione: rappresentare tramite funzione l andamento in media dei valori di una variabile al variare dell’altra

!  Interpretazione: mettere in evidenza relazioni tra variabili per consentire una spiegazione alla luce di precise teorizzazioni

!  Previsione: valutare il valore che assumerà la variabile dipendente in corrispondenza di un valore noto della variabile indipendente

Y = β ₀ + β ₁ X + ε

= _i _i

( ^; )

y = b ₀ + b ₁ x

Y = α + β ^X

α } ^α