• Non ci sono risultati.

Esempio: presenza/assenza patologie cardiologiche per 100 soggetti di età anni TIS_II 1

N/A
N/A
Protected

Academic year: 2022

Condividi "Esempio: presenza/assenza patologie cardiologiche per 100 soggetti di età anni TIS_II 1"

Copied!
35
0
0

Testo completo

(1)

Esempio: presenza/assenza patologie cardiologiche per

100 soggetti di età 20-69 anni

(2)

TIS_II 2

Esempio: presenza/assenza patologie cardiologiche per

100 soggetti di età 20-69 anni

(3)

Esempio: presenza/assenza patologie cardiologiche per

100 soggetti di età 20-69 anni

(4)

TIS_II 4

Forme funzionali non lineari

å

=

=

=

i k ik

i

P Y b X

Y ) ( 1 ) (

E

1

0 £ pi £ vincolo

îí

= ì 0 1 Yi

®1 pi

¥ - ipi ®

p

i 1

i

p z p

= -

* 1

> 0

¥ +

¥ -

÷÷ø çç ö

è æ

= -

i e i

p z p

log 1

*

* ÷

ø ç ö

è æ

= -

x x x

log 1 )

logit(

trasformazioni di

p

i per eliminare il vincolo:

(5)

Forme funzionali non lineari

å

=

÷÷ = ø çç ö

è æ

-i i bkXik zi p

p log 1

se

risolvendo per

p

i

i i i

p z p

e e

÷÷ø

=

çç ö è æ

- log 1

funzione logistica )

exp(

1

) exp(

i

i iz

p z

= + zi ® -¥

i ® z

® 0 pi

®1 pi

vi sono anche altre trasformazioni possibili

(6)

TIS_II 6

) ( 2 )

2 exp(

) 1 F(

2

z u du

z =

ò

z - = F

¥

-

s p

) 1 , 0 ( N u = Normal

probit

¥

-

Logistic

¥

-

5 .

0 1 exp( )

) ) exp(

(

F z

z z

= +

Risultati molto simili: differenza nelle prob. stimate < .02

(7)

Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2a)

Definizione di odd(s) (quota)

– Odds (tabelle Jx2) n.b.: non coinvolge i totali marginali

(rapporto tra probabilità relative a due risultati Y data la stessa condizione X)

odds > 1 = risultato 1 è più probabile del risultato 2, data la condizione j (successo più probabile che insuccesso)

– Log Odds o logit

j j j

j j

j

2 1 /

1 / 1 /

2 / 1

1

p

p p

p p

p

=

= -

j j j

j

j j

j j

n n n

n

n n

2 1 .

2

. 1

/ 2

/ 1

/

/ =

p = p

1 ) log(

) log(

/ 1 / 1 /

2 / 1

j j j

j

p p p

p

= -

(8)

Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2b)

odds di vittima bianca per omicida bianco (Agresti e Finlay, 1997):

prop. vittime bianche: 4686/4990 = .939; prop. vittime nere: 304/4990 =.061 .939/ .061 =15.4 (per un omicida bianco 15.4 vittime bianche per 1 nera)

(4686/4990)/(304/4990) = n11/n21= (4686/304) = 15.4

odds di vittima bianca per omicida nero

849/5393 = .157 (per un omicida nero .157 vittime bianche per 1 nera) (5393/849 = 1/.157= 6.4 vittime nere per ogni bianca)

j j j

j

j j

j j

n n n

n

n n

2 1 .

2

. 1

/ 2

/ 1

/

/ =

p

=

p

Razza omicida Vittima bianca Vittima nera Totale

Bianca 4686 304 4990

Nera 849 5393 6242

(9)

Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2c)

• Rapporto tra odds:

Odds ratio (cross product ratio)

Range non simmetrico: (1, ∞) se > 1 e (0,1) se < 1 Odds ratio simmetrico nelle due variabili

Non dipende dalle marginali

12 21

22 11

2 / 2 2

/ 1 1 / 2 1

/

1

/ /

p p

p p p

p p

p =

(10)

TIS_II 10

Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2d)

j j j

j

j j

j j

n n n

n

n n

2 1 .

2

. 1

/ 2

/ 1

/

/ =

p

=

p

Razza omicida Vittima bianca Vittima nera Totale

Bianca 4686 304 4990

Nera 849 5393 6242

odds ratio vittime :

odds per omicida bianco / odds per omicida nero = (4686/304/( 849/5393) = 15.4/.157 = 97.9

= (4686) (5393) / (304) (849) cross-product ratio

per un omicida bianco l’odds di colpire una vittima bianca è pari a quasi 100 volte quello di un omicida nero

Si usa anche Log odds ratio

(11)

Odds = in tabelle (2x2) rapporto tra il n.ro di casi (frequenza) relativi ad una data categoria e il n.ro di casi della categoria “complementare”

probabilità che un individuo scelto a caso appartenga alla categoria di interesse piuttosto che ad un altra

tabelle (IXJ): (I-1) (J-1) odds ratio locali (tra categorie adiacenti)

(Attenzione a celle con frequenza pari a 0)

Voto

Membro

di org.ne Non membro di

org.ne Totale

689 298 987

No 232 254 486

Totale 921 552 1473

Odds di voto = 987/486 =2.03 (marginal odds)

Odds di voto rispetto al non voto data l’appartenenza ad una organizzazione (conditional odds)

1.membri = 689/232 = 2.97 2.non membri = 298/254 = 1.17

Odds ratio per Voto e Appartenenza = Confronto tra conditionals

odds = (689/232) / (298/254) = (689x254) / (232x298) = 2.53 Relazione positiva tra le due variabili con odds (rapporto tra probabilità) di voto tra chi è membro di organizzazione 2.53 volte maggiore rispetto ai non membri

(12)

TIS_II 12

Costruzione di modelli per dati categoriali

Necessità di costruzione di un modello formale (in generale a partire dagli odds) in presenza di dati complessi e in grado di trattare varie situazioni:

1. variabile risposta e esplicativa dicotomiche (più semplice, vedi tab.2x2) 2. esplicativa politomica

3. insieme di variabili esplicative (qualitative e quantitative) 4. insieme di variabili “risposta”

(tutte le variabili hanno lo stesso ruolo – distribuzione congiunta – o due o più variabili risposta date le altre – distribuzione congiunta delle risposte ma condizionata –, in generale modelli multivariati:

modelli log-lineari)

5. variabile risposta ordinale

Caso 1:

oppure come baseline con

coefficiente = effetto della categoria j della variabile esplicativa

Caso 4: modelli log-lineari, formulazione generale:

frequenze (log) delle celle della tabella come funzioni di parametri (collegati agli odds e agli odds ratio) che rappresentano le caratteristiche delle esplicative e delle eventuali associazioni (interazioni) tra loro (effetti additivi)

å

=

=

+ - =

=

j j

j j

j j

j

b con

j

b a

0 2

, 1

1 ) log(

) log(

/ 1 / 1 /

2 / 1

p p p

p

1 = 0 b

bj

(13)

Modello di regressione logistica

=

= )1 (Yi

P

logit

logistic probability unit 1 exp( ) ) ) exp(

F(

i i i

z z z

= +

) exp(

1

) exp(

å å

= +

ik k

ik k

X b

X b

relazione non lineare tra P(Yi = 1) e Xik

difficile stabilire l’effetto al variare di X

(14)

TIS_II 14

Interpretazione dei coefficienti b

k

b

k determina la direzione dell’effetto (positivo o negativo) ma la “grandezza” dipende dalla “grandezza” di

z

(e quindi dai valori di tutte le Xik)

calcolo della P(Yi = 1) in corrispondenza di valori particolari:

valori medi e/o valori estremi

k i

i P Y b

Y

P( =1) (1- ( =1)) fattore di attenuazione

logit bk

z z

z ×

× +

+ 1 exp( )

1 )

exp(

1

) exp(

derivata di P(Yi = 1) rispetto a Xk

k k k

b z b

dX z Y

d exp( 2) ( )

2 1 )

1

P( = = - 2 º F

probit p

(15)

Assunzioni per stima e inferenza

2a. P(Yi =1| Xi) = F

å

bk Xik probit

) exp(

1

) ) exp(

| 1

(

å å

= +

=

ik k

ik i k

i b X

X X b

Y

2b. P logit

3. Y1,Y2,...Yn statisticamente indipendenti

{ }

i n

Yi Î 0,1 =1,..., 1.

4. Xik non esiste perfetta o quasi perfetta multicollinearità tra di loro

(16)

TIS_II 16

Stime di massima verosimiglianza

)

| 1

P( i ik

i Y X

p = =

)

| 0 P(

1- pi = Yi = Xik

i yi

y i i ik

i X p p

Y | ) = (1- )1-

P( probabilità di osservare

il risultato

Y

i

Õ

=

- -

= n

i

i y

iyi p i

p X

Y

1

)1

1 ( )

|

P( = L (Y|X, b)

probabilità (verosimiglianza) di osservare quel particolare campione di valori

Y

i dati gli

X

ik

funzione di verosimiglianza che massimizza = L (Y|X, b)

algoritmi iterativi ( metodo Newton - Raphson e metodo scoring)

(17)

Proprietà stimatori MLE

Inferenza

a. significatività dei coefficienti k : ) 2

( ˆ

ˆ >

k k

b SE

b bˆk ± t(n-k,a)SE(bˆk )

b. test basato sul rapporto delle funzioni di verosimiglianza

1 2

0 log ) ~ 1

(log

2 - -

- L L ck

(log) L0 verosimiglianza quando tutti i coefficienti sono pari a 0 (tranne intercetta)

(log) L1 verosimiglianza per il modello completo per grandi campioni circa come OLS

(correttezza, efficienza, normalità)

(18)

TIS_II 18

Inferenza (2)

c. significatività di insiemi di coefficienti:

g numero di coefficienti pari a 0

1 2

2 log ) ~

(log

2 L - L cg

-

L1 modello completo

L2 modello in cui alcune variabili (e quindi i relativi coefficienti) sono assunti non influenti

d. bontà dell’adattamento

proporzione di casi correttamente classificati e qualcos’ altro…

(19)

Modello logit - Interpretazione dei coefficienti

cZ bX

p a

p p ÷ = + +

ø ç ö

è æ

= - log 1 )

logit(

ln(X) funzione monotona crescente

l’effetto di b su ln(p/1-p) è pari ad un effetto di eb su (p/1-p)

X p a

p ) 0.10 ln(1 = +

Es. -

10 . 0 1 )

ln( Þ D =

D - b X

p p

11 . 1 1

1 )

ln( ­ =

= -

-p b

p

p e e p

b positivo aumento nell’odds

1. b positivo (0.10)

modello logit (a 2 variabili X e Z) (modello lineare nel logit)

incremento variabile X si riflette, nel modello logistico, in funzione degli odds

considerando il

rapporto tra odds o odds ratio (OR)

(20)

TIS_II 20

Interpretazione dei coefficienti

2. b = 0

eb =1 odds = 1

10 . 0 1 )

ln( ¯ =

- b

p p

3. b negativo (-0.10) diminuzione nell’odds di x rispetto a x+1

90 .

1 ¯ = 0

-

eb

p p

Se X età in anni: per ogni anno in più l’odds che si verifichi l’evento è 0.90 volte [100.(1-0.90)] l’odds calcolato rispetto all’età considerata

(21)

Variabili indipendenti con più di due categorie

eCS dCP

cIP Age

b p a

p = + × + + +

- ) ln(1

istruzione

’nessuna istruzione’ = categoria base, IP, CP e CS variabili indicatrici Gli

odds

si possono scrivere

c Age b

ea

p

p = + × +

1- istruzione primaria incompleta IP (scuola dell’obbligo non completata)

d Age b

ea

p

p = + × + -

1 istruzione primaria completa CP (scuola dell’obbligo)

istruzione secondaria completa CS (diploma) nessuna istruzione

e Age b

ea

p

p = + × + -

1

Age b

ea

p

p = + × -

1

come si confrontano 2 gruppi? rapporto tra odds

(1 - p =

1/1 + exp(z))

(22)

TIS_II 22

Variabili indipendenti con più di due categorie

Per confrontare un’istruzione primaria incompleta con nessuna istruzione = baseline

per un’età fissata (Age)

c Age

b a

c Age b a

e e e none

IP = ++× × + = )

odds(

) odds(

analogamente il confronto fra un’istruzione primaria completa e incompleta

d c d

Age b a

c Age b a

e e e CP

IP -

+

× +

+

×

+ =

) = odds(

)

odds( differenza tra i valori dei

coefficienti

esempio

CS CP

IP p Age

p ) 1.76 0.02 0.22 0.52 0.66

ln(1 = - - + + +

-

(23)

Interpretazione usando probabilità stimate

eCS dCP

cIP Age

b p a

p = + × + + +

- ) ln(1

) exp(

1

) ˆ exp(

eCS dCP

cIP Age

b a

eCS dCP

cIP Age

b p a

+ +

+

× + +

+ +

+

×

= +

Age età

IP scuola dell’obbligo non completata CP scuola dell’obbligo

CS diploma

Per es. Per una donna di 30 anni che non ha completato la scuola dell’obbligo quale è la probabilità di sposarsi prima dei 25 anni ?

) 30

exp(

1

) 30

ˆ exp(

c b

a

c b

p a

+

× + +

+

×

= +

Si possono calcolare le probabilità stimate per ogni particolare combinazione di caratteristiche

farlo per tutte le combinazioni porterebbe a confusione,

(24)

TIS_II 24

Interpretazione

1. calcolando un range

presentando i valori massimi, minimi e il valor medio di Problema: come conoscere le caratteristiche che portano alla

probabilità massima e minima?

2. presentando una tabella con le probabilità stimate per le varie modalità

Si calcola un range di probabilità per una singola variabile di interesse mantenendo costanti sulla media gli altri valori (o in altri valori opportuni)

(25)

Esempio /1

(Dati da DHS Program – Demographic and Health Surveys, USAID)

Si vogliono predire le caratteristiche delle donne che si sposano presto (campione di donne di età compresa tra 30 e 40 anni)

p = probabilità di sposarsi prima dei 25 anni

Variabili esplicative:

istruzione

bassa media alta

residenza urbana

rurale

etnia han

altro età al momento

dell’indagine

calcolata come differenza X - 30

(26)

TIS_II 26

Esempio /2

è necessario definire le variabili indicatrici:

occorrono 1 variabile per residenza U

etnia E

2 variabili per istruzione M H altrimentimedia

istruzione 0 se

1 îí

= ì M

L’equazione diventa

A b E b U b H b M b p a

p ) 1 2 3 4 5

ln(1 = + + + + +

- istruzione

residenza

etnia età

(27)

Esempio /3

prob sposarsi prima dei 25 anni

prob NON sposarsi prima dei 25 anni

bi stimato SE(bi) OR (Odds ratio)=ebi istruzione

media -0.23 0.11 0.79

alta -0.40 0.17 0.67

bassa 0.00 1.00

residenza

urbana -0.19 0.09 0.82

etnia

han -0.21 0.09 0.81

0.02 0.01 1.02

età

-0.20 0.08 1.81

costante - p =

p 1

Gli odds per l’istruzione sono:

media:bassa = e-0.23 = 0.79 alta:bassa = e-0.40 = 0.67

(28)

TIS_II 28

Esempio /4

Valori medi delle variabili (indipendenti) X Le medie sono:

istruzione media

alta 0.30

0.35

residenza

urbana 0.56

etnia

han 0.80 età 36.7

Si possono calcolare le probabilità stimate per ogni

variabile, tenendo costanti le altre variabili sul loro valore medio

(29)

Esempio /5

L’equazione di partenza è:

AGE HAN

URB HED

p MED

p ) 0.20 0.23 0.40 0.19 0.21 0.02

ln(1 = - - - - - +

-

Per una donna con istruzione media si ha

) 7 . 6 ( 02 . 0 ) 8 . 0 ( 21 . 0 ) 56 . 0 ( 19 . 0 ) 0 . 0 ( 40 . 0 ) 0 . 1 ( 23 . 0 20 . 0 1 )

ln( = - - - - - +

- p p

media alta

costante istruzione residenza urbana

(valore medio)

etnia han (media)

età

(valore medio espresso come scarto dai 30 anni) 57

. 0 1 )

ln( = -

- p p

36 . 1 0

ˆ 0.57

57 .

0 =

= +- - e p e

k kX b b* =

å

probabilità di sposarsi prima dei 25 anni per una donna di istruzione media e etnia, residenza, età media del campione

(30)

TIS_II 30

Esempio /6

urbana rurale

-0.63 -0.44

0.35 0.39 residenza

han -0.59 0.36

etnia

altro -0.38 0.41

alta media

-0.74

bassa

-0.57

0.32 0.36

-0.34 0.41

istruzione

å b

k

X

k

P = exp( å b

k

X

k

) / 1 + exp( å b

k

X

k

)

(31)

Probabilità stimate

Le probabilità più alte saranno combinazioni delle categorie con i coefficienti positivi più alti.

Quelle più basse dalle categorie con i coefficienti negativi.

Esempio: probabilità più bassa

0 . 1 20

. 0 21

. 0 19

. 0 40

. 0

*= - + - + - + - = -

b

alta

istruzione residenza

urbana etnia han costante

L’età più bassa è 0 in quanto AGE è età della donna - 30 268941

. 1 0

ˆ 1.01.0 =

= +- - e p e

27 .

= 0

(32)

TIS_II 32

probabilità più alta

Probabilità stimate

00 . 0 20

. 0 )

10 ( 02 . 0 00

. 0 00

. 0 00

. 0

*= + + + + - =

b

bassa

istruzione residenza

rurale altra etnia

costante età: 40 anni

L’età 40 viene codificata come 10 (40 - 30) 50

. 1 0

ˆ 0.00

00 .

0 =

= +

e p e

Si può fare lo stesso per ogni combinazione di caratteristiche

(33)

Interpretazione dei coefficienti

Esempio Variabile dipendente: uso dei contraccettivi

b SE(b)

istruzione

alta 0.8 0.20

media 0.6 0.14

bassa 0.0

1. L’effetto di un’istruzione alta consiste nell’aumento della probabilità di usare contraccettivi

22 . 2 odds = e0.8 =

2 4 2 . 0 8 .

0 = >

La prob di usare contraccettivi rispetto alla prob di non usarli (odds ratio) è 2.22 relativamente alla

categoria base (bassa istruzione).

Il coefficiente è significativo

2. L’effetto di un’istruzione alta relativamente a un’istruzione media è dato da e0.8-0.6 = e0.2 =1.22

(34)

TIS_II 34

22 .

2 1

. 0 6

. 0 8 .

0 - = e =

Effetto di un’istruzione alta e rispetto a una media:

b* = 0.2 è significativo?

M H

M H

b b

H

b b

H

¹

= :

:

1 0

Test

) se(

2 . 0 )

se(

0

M H

M H

M H

b b

b b

b t b

= - -

-

= -

) ,

cov(

2 ) var(

) var(

)

se(bH -bM = bH + bM - bH bM

var(bH) = se(b

[

H)

]

2

cov (bH ,bM) si ottiene dalla matrice di varianza / covarianza calcolata nei vari software anche se, in genere, non

mostrata per default opzioni specifiche

Interpretazione dei coefficienti

(35)

Interpretazione dei coefficienti

La matrice di varianze e covarianze appare nel modo seguente

b

H

b

M

b

H

b

M

0.0400 0.0031 0.0031 0.0196

= 0.142

23 . 0 0534 .

0 0062

. 0 0196 .

0 04 . 0 )

se(bH -bM = + - = =

Allora

La funzione test vale 0.87 23

. 0

20 .

0 =

Non vi è una differenza significativa sul fenomeno fra istruzione alta (

b

M) e media (

b

H)

Riferimenti

Documenti correlati

Alla fine della sperimentazione, i risultati positivi degli alunni hanno rivelato non solo una maggiore disinvoltura nella lingua straniera, ma anche la proposta

[r]

Si supponga che il primo macchinario abbia una produzione doppia rispetto agli altri due, cio` e una scatola scelta a caso ha probabilit` a 1/2 di essere prodotta dal primo

1. Quattro rilevazioni di una certa variabile danno i seguenti risultati: 0, −3, 1, x, dove x ` e un valore incognito.. Si vuole capire quale di due farmaci sia pi` u efficace

[r]

E’ da notare che il libro di testo (vedi pag.32) indica genericamente con punto di sella qualunque punto stazionario che non sia anche punto estremante (cioè massimo o minimo);..

Dopo averli rappresentati nel piano cartesiano, stabilire se i seguenti insiemi risultano aperti, chiusi e compatti.. `e aperto, dunque coincide con il suo interno C = C , non

Come per le funzioni ad una sola variabile si definisce DOMINIO DI UNA FUNZIONE A due VARIABILI l'insieme dei valori che possono essere attribuiti alle variabili indipendenti