• Non ci sono risultati.

Statistica. Regressione. Francesco Pauli A.A. 2016/2017

N/A
N/A
Protected

Academic year: 2022

Condividi "Statistica. Regressione. Francesco Pauli A.A. 2016/2017"

Copied!
51
0
0

Testo completo

(1)

Statistica

Regressione

Francesco Pauli

A.A. 2016/2017

(2)

Ricchezza e salute

Income per Person of the World

Life Expectancy of the World

Liechtenstein

Antigua

&Barbuda Dominica

Palau

Nauru Tuvalu

Seychelles St. Kitts

& Nevis Andorra San Marino

Monaco

Andorra

St.Lucia Panama

Sao Tome and Principe

Tonga Samoa

Grenada

Brunei

Comoros

Djibouti

Equatorial Guinea Gabon

Luxembourg

Namibia

Swaziland Timor-Leste Micronesia

Trinidad and Tobago Albania

Bhutan

Kiribati Kosovo

Cyprus

Maldives

Slovenia

Suriname Belize

Mauritius Bahamas Malta

Vanuatu

Montenegro Estonia

Gambia

Guinea-Bissau Lesotho

Botswana Mongolia

Oman

Qatar Iceland

Barbados

Bahrain Cape

Verde

Latvia

SolomonIslands

Macedonia

Fiji Guyana

Jamaica St.Vincentand G.

Armenia

Lithuania Uruguay

Mauritania Moldova

Kuwait

Congo, Rep.

Liberia

Bosnia and H. Croatia

Lebanon Israel

Costa Rica Puerto Rico

New Zealand

Georgia

Central African Rep.

Sweden Singapore Norway Ireland Finland

Austria

Turkmenistan

Slovak Rep.

Kyrgyzstan

Eritrea

Denmark Taiwan

Papua New Guinea

Hong Kong

United Arab Emirates

South Sudan

Switzerland

Hungary

Belarus Azerbaijan Dom.R.

Bulgaria Serbia

Burundi

Libya Nicaragua Palestine

Sierra Leone

Laos

Benin

Guinea

Somalia Tajikistan

Togo

El Salvador Honduras ParaguayJordan

Poland

Bolivia

Haiti

Czech Rep.

Portugal

Tunisia

Rwanda

Greece Belgium Cuba

Chad Senegal

Zimbabwe

Zambia Cambodia

Ecuador

Guatemala

Burkina Faso Malawi Niger

Mali

Kazakhstan

Netherlands Chile

Romania

Cameroon

Sri Lanka

Cote d'Ivoire

Angola Madagascar

Syria

Australia

Mozambique Yemen North Korea

Afghanistan Ghana Nepal

Sudan

Saudi Arabia Peru Venezuela

Malaysia Morocco

Uzbekistan

Italy Spain

UK Germany Canada France South Korea

Philippines Vietnam

Ethiopia

Egypt Turkey Iran

Dem. Rep. Congo

Thailand

South Africa Myanmar

Colombia

Ukraine

Tanzania Kenya

Argentina

Algeria

Iraq

Uganda

China

Bangladesh Indonesia

Pakistan

USA

Russia Brazil

Nigeria

Japan

Mexico

India

2011 data for all 193 UN Members and for Hong Kong, Kosovo, Palestine, Puerto Rico and Taiwan.

Documentation and pdf version for print at:

3 or

less10100 1000

millions Colour by region

Size by population

If you want to see more data visit:

www.gapminder.org

Free to copy, share and remix, but attribute to Gapminder Foundation.

Version 11 September 2012

map layout by Paolo Fausone

gapminder.org/downloads/world-pdf

GAPMINDER WORLD 2012

Mapping the Wealth and Health of Nations Healthy

Poor Rich

Sick

50

500 1 000 2 000 5 000 10 000 20 000 50 000

60 70 80

55 65 75

income per personin US Dollars (GDP/capita, PPP$ inflation adjusted, log scale)

life expectancyin years

(3)

Un esempio pi` u semplice: dati

Altezza Peso

1 160 60

2 174 60

3 173 58

4 168 63

5 175 68

6 170 61

7 179 90

8 165 65

9 160 60

10 158 45

11 176 70

12 170 75

13 158 59

14 180 55

15 197 75

16 181 89

17 190 98

18 157 55

19 180 98

20 170 57

21 187 92

22 182 72

23 160 60

24 181 72

25 165 52

26 164 52

Altezza Peso

27 187 82

28 174 70

29 158 57

30 180 82

31 178 59

32 180 76

33 169 68

34 168 57

35 185 75

36 147 39

37 161 47

38 190 71

39 170 65

40 160 50

41 187 81

42 167 53

43 185 70

44 182 80

45 173 60

46 180 72

47 175 58

48 188 80

49 165 48

50 189 84

51 187 64

52 187 65

Altezza Peso

53 170 54

54 170 55

55 180 99

56 175 63

57 175 70

58 175 65

59 165 50

60 162 47

61 178 64

62 165 48

63 159 48

64 160 45

65 175 70

66 178 82

67 170 57

68 182 82

69 169 56

70 168 50

71 172 62

72 175 65

73 176 85

74 177 70

75 176 58

76 179 62

77 160 50

78 170 67

79 175 80

(4)

Diagramma di dispersione: una relazione lineare

150 160 170 180 190

405060708090100

Altezza

Peso

E evidente una relazione, che potrebbe essere adeguatamente descritta da` una linea retta.

(5)

Un primo modello

Adottiamo l’ipotesi di una relazione lineare.

Possiamo allora pensare ad un modello del tipo

(Peso) = α + β(Altezza) + (errore)

dove l’errore esprime la parte delle oscillazioni del peso non legate all’altezza (o, meglio, che una funzione lineare dell’altezza non riesce a spiegare).

Un modello di questo tipo viene chiamato modello di regressione lineare semplice.

(6)

Modelli di regressione lineare semplice

y = α + βx + errore.

y variabile risposta o dipendente mentre

x variabile esplicativa o indipendente o regressore. α intercetta

β coefficiente angolare

α e β sono i parametri del modello. Il problema `e ora come

“determinare” α e β.

(7)

Rette “vicine” ai dati

150 160 170 180 190

405060708090100

Altezza

Peso

Vogliamo una linea retta che si “avvicini” ai punti.

(8)

Minimi quadrati: idea

Sembra ragionevole scegliere per i parametri due valori, ˆα e ˆβ, in modo tale che la retta di regressione “riproduca” bene i nostri dati, ovvero in modo tale che

y1 ≈ α + ˆˆ βx1

y2 ≈ α + ˆˆ βx2 ...

yN ≈ α + ˆˆ βxN

Per rendere “operativa” l’idea, dobbiamo decidere

- in che senso interpretiamo gli ≈ che abbiamo scritto e - come combiniamo tra di loro le varie approssimazioni.

(9)

Distanza tra i punti e la retta

x

y

dist. verticale al quadrato dist. vert.

dist. oriz.

dist. geometrica

Diverse opzioni sono ragionevoli

Appare logico guardare alle distanze verticali, visto che vediamo la retta come approssimazione del valore di y .

`E matematicamene conveniente usare i quadrati delle distanze.

(10)

Retta dei minimi quadrati

Scegliamo i due parametri minimizzando

s2(α, β) =

N

X

i =1

(yi− α − βxi)2

ovvero scegliendo ˆα e ˆβ in maniera tale che s2( ˆα, ˆβ) ≤ s2(α, β) per qualsivoglia α ∈ R e β ∈ R.

In questo caso si dice che i parametri sono stati calcolati utilizzando il metodo dei minimi quadrati.

(11)

Propriet` a dei minimi quadrati

La media aritmetica minimizza la somma (e quindi la media) dei quadrati degli scarti delle singole osservazioni da una costante a.

Sia a un numero qualsiasi. Allora

N

X

i =1

(yi − a)2 =

N

X

i =1

(yi− y )2+ N(y − a)2 (1)

Dimostrazione.

NB: tutte le sommatorie vanno da 1 a N X(yi− a)2=X

(yi− a + y − y )2=

= X

[(yi− y ) + (y − a)]2=

= X h

(yi− y )2+ (y − a)2+ 2(y − a)(yi− y )i

=

= X

(yi− y )2+X

(y − a)2+ 2(y − a)X

(yi− y ) =

= X

(yi− y )2+ N(y − a)2+ 2(y − a) × 0.

Quindi, quando a = y , la quantit`aP(yi− a)2`e minima.

(12)

Minimi quadrati: determinazione dei parametri

(1) Fissato β ad un qualunque valore, il problema diventa

inf

α∈R N

X

i =1

(yi− α − βxi)2= inf

α∈R N

X

i =1

(zi− α)2

con zi = yi− βxi.

La costante che minimizza la media dei quadrati degli scarti da un valore `e la media aritmetica delle zi.

Quindi

ˆ α = 1

N

N

X

i =1

zi= 1 N

N

X

i =1

(yi− βxi) = y − βx

dove y e x indicano rispettivamente la media delle yi e quella delle xi.

(13)

Minimi quadrati: determinazione dei parametri

(continua)

(2) La quantit`a da minimizzare diventa quindi

s2( ˆα, β) =

N

X

i =1

[yi− y − β(xi− x)]2.

Derivando rispetto a β e mettendo a zero la derivata si ottiene l’equazione (per β)

−2

N

X

i =1

(xi− x)[(yi− y ) − β(xi− x)] = 0,

che possiamo riscrivere come

N

X

i =1

(xi− x)(yi− y ) = β

N

X

i =1

(xi− x)2.

(14)

Minimi quadrati: determinazione dei parametri

(continua)

SePN

i =1(xi− x)2> 0, l’equazione precedente ammette l’unica soluzione β =ˆ

PN

i =1(xi− x)(yi− y ) PN

i =1(xi− x)2

Esercizio: verificare che questa soluzione corrisponde ad un punto di minimo.

Si noti che

β =ˆ PN

i =1(xi− x)(yi− y ) PN

i =1(xi− x)2 = PN

i =1(xi− x)(yi− y )/N PN

i =1(xi− x)2/N = σXY σX2 .

(15)

Minimi quadrati: determinazione dei parametri

(continua)

Quindi

ˆ

α = y − ˆβx

β =ˆ σXY

σX2 = ρσY σX

dove y , x , σX2 e σXY sono rispettivamente la media della variabile risposta, la media e la varianza della variabile esplicativa e la covarianza tra risposta e esplicativa.

Deve valere σX2 > 0. Questo `e molto ragionevole: β ci dice come varia la risposta al variare della esplicativa, ma se σ2X = 0 l’esplicativa non `e variata affatto nei dati disponibili.

(16)

Calcolo delle stime

Sostituendo i valori del campione si ha n = 79 e

1 N

n

X

i =1

xi = 1

791.3688 × 104= 173.27, 1 N

n

X

i =1

yi= 1

795178 = 65.544,

1 N

n

X

i =1

xi2= 1

792.3791 × 106= 3.0115 × 104, 1 N

n

X

i =1

xiyi = 1

799.049 × 105= 1.1454 × 104,

Si ha allora

β =ˆ Pn

i =1(yi− ¯y )(xi− ¯x ) Pn

i =1(xi− ¯x )2 = Pn

i =1xiyi/n − ¯x ¯y Pn

i =1xi2/n − ¯x2 = 9.049 × 105/79 − 173.27 × 65.544

2.3791 × 106/79 − 173.272 = 1.0531

ˆ

α = ¯y − ˆβ ¯x = 65.544 − 1.0531 × 173.27 = −116.93,

(17)

Diagramma di dispersione con retta di regressione

150 160 170 180 190

405060708090100

Altezza

Peso

La capacit`a di descrivere le variazione del peso sembra discreta, naturalmente c’`e una certa variabilit`a intorno alla retta stessa.

(18)

Valori osservati, previsti (o teorici), residui

Le seguenti quantit`a sono di interesse.

yi valore osservato per Y sulla i -sima unit`a statistica ˆ

yi valore previsto (o teorico) per Y sulla i -sima unit`a statistica:

ˆ

yi = ˆα + ˆβxi

ri residuo per la i -sima unit`a statistica: ri = yi − ˆα − ˆβxi.

Il valore previsto sta sulla retta di regressione stimata; i residui misurano la distanza tra il valore osservato e la retta di regressione.

(19)

Modelli stimato, valori teorici, residui

Il modello stimato `e

yi = −116.93 + 1.0531xi + (errore).

Valori teorici:

ˆ

yi = ˆα + ˆβxi ad esempio, x5 = 168 e quindi

ˆ

y5 = −116.93 + 1.0531 × (168) = 60.11.

Residui

ri = yi − ˆα − ˆβxi ad esempio

r5= 57 − 60.11 = −3.11.

(20)

Graficamente

Altezza yi

y^

i= α^+ β^ xi

xi

(21)

Propriet` a dei residui: media

E facile verificare che la media dei residui `` e nulla.

N

X

i =1

ri =

n

X

i =1

(yi − ˆyi)

=

n

X

i =1

(yi − ˆα − ˆβxi)

=

N

X

i =1

yi− N ˆα − ˆβ

N

X

i =1

xi

= Ny − N(y − ˆβx ) − N ˆβx

= 0

(22)

Varianza dei residui

σ2R = 1 N

N

X

i =1

ri2

=

n

X

i =1

(yi− ˆα − ˆβxi)2

= 1

N

N

X

i =1

[(yi− y ) − ˆβ(xi− x)]2

= 1

N

N

X

i =1

(yi− y )2+βˆ2 N

N

X

i =1

(xi− x)22 ˆβ N

N

X

i =1

(xi− x)(yi− y )

= σ2Y + ˆβ2σX2 − 2 ˆβσXY

= σ2Y + σ2XYX2 − 2σ2XYX2

= σ2Y − σ2XYX2

(23)

Scomposizione della varianza

n

X

i =1

(yi − ¯y )2 =

n

X

i =1

(yi − ˆyi+ ˆyi − ¯y )2

=

n

X

i =1

(yi − ˆyi)2+

n

X

i =1

(ˆyi− ¯y )2+ 2

n

X

i =1

(yi − ˆyi)(ˆyi− ¯y )

=

n

X

i =1

(yi − ˆyi)2+

n

X

i =1

(ˆyi− ¯y )2 poich´e

n

X

i =1

(yi− ˆyi)(ˆyi− ¯y ) =

n

X

i =1

(yi− ˆα − ˆβxi)( ˆα + ˆβxi− ¯y )

=

n

X

i =1

(yi− ¯y + ˆβ ¯x − ˆβxi)(¯y − ˆβ ¯x + ˆβxi− ¯y )

=

n

X

i =1

(yi− ¯y − ˆβ(xi− ¯x )) ˆβ(xi− ¯x ) = 0 cfr Passo 2 sopra

(24)

Scomposizione della varianza

1 N

Pn

i =1(yi − ¯y )2 = N1 Pn

i =1(yi − ˆyi)2 + N1 Pn

i =1(ˆyi − ¯y )2

varianza varianza varianza

totale residui valori teorici

(spiegata)

y y

(25)

Varianza dei residui (cont)

I La varianza dei residui, che coincide con la media dei quadrati dei residui, `e sempre non pi`u grande della varianza della risposta.

I Pu`o essere utilizzata per avere una “idea numerica” della bont`a di adattamento del modello ai dati.

I Pi`u σ2R `e piccola, pi`u la retta di regressione “spiega” le variazioni della risposta. Quando σR2 = 0, tutti le osservazioni giacciono sulla retta di regressione.

I Quando σXY = 0, cio`e in assenza di una relazione lineare, σ2R = σY2.

(26)

Coefficiente di determinazione

La frazione della varianza della risposta (Y) spiegata dal modello di regressione lineare semplice `e data da

R2 = 1 − σR2 σ2Y

0 ≤ R2≤ 1

R2 = 1 −→ σR2 = 0 : il modello spiega perfettamente la risposta.

R2 = 0 −→ σR2 = σY2 : il modello non spiega per niente.

(27)

Esempio: peso e altezza

y = 65.544 σX2 = 92.507 σXY = 97.191.

Inoltre

n

X

i =1

yi2 = 3.5377 × 105 Quindi

σ2Y = 3.5377 × 105/79 − 65.5442= 182.08 e perci`o

σR2 = 182.08 − 97.1912/92.507 = 79.9678303 Il coefficiente di determinazione vale

R2 = 1 − 79.9678303/182.08 = 0.5608094, ovvero il modello spiega il 56.1% della varianza della risposta.

(28)

Esempio: forte relazione lineare

ρ = 0.9581 R2= 0.9179 ˆ

α = −0.015458 β = 1.0478ˆ

(29)

Esempio: forte relazione lineare bis

ρ = −0.9135 R2= 0.8344 ˆ

α = −0.0097761 β = −0.9788ˆ

(30)

Esempio: relazione lineare

ρ = 0.5132 R2= 0.2634 ˆ

α = 0.014617 β = 0.91287ˆ

(31)

Esempio: relazione forte, ben approssimata da una retta, ma non lineare

ρ = 0.9833 R2= 0.9669 ˆ

α = −7.1706 β = 5.6811ˆ

(32)

Esempio: relazione forte, non lineare al punto che non ` e rilevata

ρ = −0.146 R2= 0.02133

ˆ

α = 0.31443 β = −0.08578ˆ

(33)

Rilevare le non linearit` a

L’analisi grafica negli esempi sopra `e pi`u che sufficiente, tuttavia `e spesso utile fare un grafico dei residui contro i valori delle esplicative.

xi ei=yi−y^

i

(

xi, ei

)

(34)

Esempi

y 0

(35)

Esempio 1

y 0

(36)

Esempio 2

y

0

(37)

Esempio 3

y 0

(38)

Ricchezza e salute

Semplifichiamo, e consideriamo solo le due grandezze ricchezza GDP per capita Purchasing Power Parity

salute Speranza di vita

50 60 70 80

Richezza (GDP per capita, PPP) x1000

Speranza di vita

1 2 5 10 25 50 100

(39)

Retta di regressione

Stimiamo la relazione

(salute) = α + β log10(ricchezza) + (errore) ne risulta

ˆ

α = 14.235, β = 14.144ˆ con

R2 = 0.6326

(40)

Retta di regressione

50 60 70 80

Richezza (GDP per capita, PPP) x1000

Speranza di vita

1 2 5 10 25 50 100

(41)

... su scala orginale

50 60 70 80

Richezza (GDP per capita, PPP) x1000

Speranza di vita

1 25 50 75 100

(42)

Nascita della regressione (e il perch´ e del nome)

Il metodo `e stato sviluppato intorno al 1888 da Sir Francis Galton (1822-1911) sociologo, psicologo, antropologo, esploratore,

geografo, ecc. e anche statistico.

altezze dei genitori e dei figli, in figura una sua rappresentazione (non usuale oggi) dei dati.

Galton nota che

I genitori alti tendono ad avere figli alti,

I ma non cos`ı alti come loro.

chiama questo fenomeno ‘regressione verso la media’.

(43)

Nascita della regressione (e il perch´ e del nome)

Il metodo `e stato sviluppato intorno al 1888 da Sir Francis Galton (1822-1911) sociologo, psicologo, antropologo, esploratore,

geografo, ecc. e anche statistico.

Tra le altre cose lavora sulla relazione tra le altezze dei genitori e dei figli, in figura una sua rappresentazione (non usuale oggi) dei dati.

Galton nota che

I genitori alti tendono ad avere figli alti,

I ma non cos`ı alti come loro.

chiama questo fenomeno ‘regressione verso la media’.

(44)

Regressione verso la media

Partiamo dalle osservazioni (xi, yi) e standardizziamole, consideriamo cio`e

˜

xi = xi− ¯x σx

, y˜i = yi − ¯y σy

x e y misurano, in unit`a di deviazione standard, lo scarto di un’osservazione dalla media.

La retta di regressione tra x e y `e

˜

y = ρxyx˜ dove, si noti, ρxy = ρx ˜˜y.

(45)

Regressione verso la media

−2 −1 0 1 2

−2

−1 0 1 2

~x

y~

~ y = ρ

xy

~ x

(46)

Relazione ; causa ed effetto

Attenzione all’interpretazione!

I Quando mettiamo in relazione due variabili e troviamo una forte associazione `e forte la tentazione di interpretarlo come se x

“causasse” y o viceversa.

I Una relazione statistica, anche stretta, tra y e x non implica una relazione causa effetto.

I Per esempio, entrambe potrebbero essere legate a una terza variabile, che le “causa” entrambe.

I Ci sono metodi statistici per l’inferenza su relazioni causa effetto ma richiedono una maggiore sofisticazione oppure un campione costruito in un certo modo.

I I prossimi esempi vengono dal sito www.tylervigen.com

(47)

La scienza rende il mondo arido e triste

18 20 22 24 26 28 5.5

6.0 6.5 7.0 7.5 8.0 8.5 9.0

US spending on science ... (x1000)

Suicides by ... (x1000)

La correlazione `e 0.992, ma diminuire la spesa per scienza e tecnologia non `e una strategia per diminuire i suicidi.

Quale potrebbe essere una spiegazione per questa correlazione?

(48)

Nicolas Cage un pericolo per i nuotatori (in piscina)

90 100 110 120

# film di N.Cage

# annegati in piscina

1 2 3 4

La correlazione `e 0.666 ma ...

Notare come il grafico sopra suggerisca una relazione molto stretta, ridimensionata dal diagramma di dispersione: quello sopra non

`

e un buon modo di rappresentare due serie storiche.

(49)

da Repubblica - Donna

(50)

L’analisi statistica

Et`a preferita per il partner rispetto alla propria, distinguendo uomini e donne.

20 25 30 35 40 45 50

20304050

Donne

Età

Età preferita per il partner

20 25 30 35 40 45 50

20304050

Uomini

Età

Età preferita per il partner

(51)

L’analisi statistica

Et`a preferita per il partner rispetto alla propria, distinguendo uomini e donne.

20 25 30 35 40 45 50

20304050

Donne

Età

Età preferita per il partner

r = 0.982

20 25 30 35 40 45 50

20304050

Uomini

Età

Età preferita per il partner

r = 0.287

Riferimenti

Documenti correlati