Esempio: presenza/assenza patologie cardiologiche per
100 soggetti di età 20-69 anni
TIS_II 2
Esempio: presenza/assenza patologie cardiologiche per
100 soggetti di età 20-69 anni
Esempio: presenza/assenza patologie cardiologiche per
100 soggetti di età 20-69 anni
TIS_II 4
Forme funzionali non lineari
å
=
=
=
i k iki
P Y b X
Y ) ( 1 ) (
E
1
0 £ pi £ vincolo
îí
= ì 0 1 Yi
®1 pi
¥ - ipi ®
p
i 1
i
p z p
= -
* 1
> 0
¥ +
¥ -
÷÷ø çç ö
è æ
= -
i e i
p z p
log 1
*
* ÷
ø ç ö
è æ
= -
x x x
log 1 )
logit(
trasformazioni di
p
i per eliminare il vincolo:Forme funzionali non lineari
å
=÷÷ = ø çç ö
è æ
-i i bkXik zi p
p log 1
se
risolvendo per
p
ii i i
p z p
e e
÷÷ø=
çç ö è æ
- log 1
funzione logistica )
exp(
1
) exp(
i
i iz
p z
= + zi ® -¥
+¥
i ® z
® 0 pi
®1 pi
vi sono anche altre trasformazioni possibili
TIS_II 6
) ( 2 )
2 exp(
) 1 F(
2
z u du
z =
ò
z - = F¥
-
s p
) 1 , 0 ( N u = Normal
probit¥
- +¥
Logistic
¥
- +¥
5 .
0 1 exp( )
) ) exp(
(
F z
z z
= +
Risultati molto simili: differenza nelle prob. stimate < .02
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2a)
Definizione di odd(s) (quota)
– Odds (tabelle Jx2) n.b.: non coinvolge i totali marginali
(rapporto tra probabilità relative a due risultati Y data la stessa condizione X)
odds > 1 = risultato 1 è più probabile del risultato 2, data la condizione j (successo più probabile che insuccesso)
– Log Odds o logit
j j j
j j
j
2 1 /
1 / 1 /
2 / 1
1
p
p p
p p
p
== -
j j j
j
j j
j j
n n n
n
n n
2 1 .
2
. 1
/ 2
/ 1
/
/ =
p = p
1 ) log(
) log(
/ 1 / 1 /
2 / 1
j j j
j
p p p
p
= -
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2b)
• odds di vittima bianca per omicida bianco (Agresti e Finlay, 1997):
prop. vittime bianche: 4686/4990 = .939; prop. vittime nere: 304/4990 =.061 .939/ .061 =15.4 (per un omicida bianco 15.4 vittime bianche per 1 nera)
(4686/4990)/(304/4990) = n11/n21= (4686/304) = 15.4
• odds di vittima bianca per omicida nero
849/5393 = .157 (per un omicida nero .157 vittime bianche per 1 nera) (5393/849 = 1/.157= 6.4 vittime nere per ogni bianca)
j j j
j
j j
j j
n n n
n
n n
2 1 .
2
. 1
/ 2
/ 1
/
/ =
p
=p
Razza omicida Vittima bianca Vittima nera TotaleBianca 4686 304 4990
Nera 849 5393 6242
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2c)
• Rapporto tra odds:
Odds ratio (cross product ratio)
Range non simmetrico: (1, ∞) se > 1 e (0,1) se < 1 Odds ratio simmetrico nelle due variabili
Non dipende dalle marginali
12 21
22 11
2 / 2 2
/ 1 1 / 2 1
/
1
/ /
p p
p p p
p p
p =
TIS_II 10
Confronto tra probabilità per l’analisi delle relazioni tra variabili categoriali (2d)
j j j
j
j j
j j
n n n
n
n n
2 1 .
2
. 1
/ 2
/ 1
/
/ =
p
=p
Razza omicida Vittima bianca Vittima nera TotaleBianca 4686 304 4990
Nera 849 5393 6242
odds ratio vittime :
odds per omicida bianco / odds per omicida nero = (4686/304/( 849/5393) = 15.4/.157 = 97.9
= (4686) (5393) / (304) (849) cross-product ratio
per un omicida bianco l’odds di colpire una vittima bianca è pari a quasi 100 volte quello di un omicida nero
Si usa anche Log odds ratio
Odds = in tabelle (2x2) rapporto tra il n.ro di casi (frequenza) relativi ad una data categoria e il n.ro di casi della categoria “complementare”
probabilità che un individuo scelto a caso appartenga alla categoria di interesse piuttosto che ad un’ altra
tabelle (IXJ): (I-1) (J-1) odds ratio locali (tra categorie adiacenti)
(Attenzione a celle con frequenza pari a 0)
Voto
Membro
di org.ne Non membro di
org.ne Totale
Sì 689 298 987
No 232 254 486
Totale 921 552 1473
Odds di voto = 987/486 =2.03 (marginal odds)
Odds di voto rispetto al non voto data l’appartenenza ad una organizzazione (conditional odds)
1.membri = 689/232 = 2.97 2.non membri = 298/254 = 1.17
Odds ratio per Voto e Appartenenza = Confronto tra conditionals
odds = (689/232) / (298/254) = (689x254) / (232x298) = 2.53 Relazione positiva tra le due variabili con odds (rapporto tra probabilità) di voto tra chi è membro di organizzazione 2.53 volte maggiore rispetto ai non membri
TIS_II 12
Costruzione di modelli per dati categoriali
Necessità di costruzione di un modello formale (in generale a partire dagli odds) in presenza di dati complessi e in grado di trattare varie situazioni:
1. variabile risposta e esplicativa dicotomiche (più semplice, vedi tab.2x2) 2. esplicativa politomica
3. insieme di variabili esplicative (qualitative e quantitative) 4. insieme di variabili “risposta”
(tutte le variabili hanno lo stesso ruolo – distribuzione congiunta – o due o più variabili risposta date le altre – distribuzione congiunta delle risposte ma condizionata –, in generale modelli multivariati:
modelli log-lineari)
5. variabile risposta ordinale
Caso 1:
oppure come baseline con
coefficiente = effetto della categoria j della variabile esplicativa
Caso 4: modelli log-lineari, formulazione generale:
frequenze (log) delle celle della tabella come funzioni di parametri (collegati agli odds e agli odds ratio) che rappresentano le caratteristiche delle esplicative e delle eventuali associazioni (interazioni) tra loro (effetti additivi)
å
==
+ - =
=
j j
j j
j j
j
b con
j
b a
0 2
, 1
1 ) log(
) log(
/ 1 / 1 /
2 / 1
p p p
p
1 = 0 b
bj
Modello di regressione logistica
=
= )1 (Yi
P
logit
logistic probability unit 1 exp( ) ) ) exp(
F(
i i i
z z z
= +
) exp(
1
) exp(
å å
= +
ik k
ik k
X b
X b
relazione non lineare tra P(Yi = 1) e Xik
difficile stabilire l’effetto al variare di X
TIS_II 14
Interpretazione dei coefficienti b
kb
k determina la direzione dell’effetto (positivo o negativo) ma la “grandezza” dipende dalla “grandezza” diz
(e quindi dai valori di tutte le Xik)
calcolo della P(Yi = 1) in corrispondenza di valori particolari:
valori medi e/o valori estremi
k i
i P Y b
Y
P( =1) (1- ( =1)) fattore di attenuazione
logit bk
z z
z ×
× +
+ 1 exp( )
1 )
exp(
1
) exp(
derivata di P(Yi = 1) rispetto a Xk
k k k
b z b
dX z Y
d exp( 2) ( )
2 1 )
1
P( = = - 2 º F
probit p
Assunzioni per stima e inferenza
2a. P(Yi =1| Xi) = F
å
bk Xik probit) exp(
1
) ) exp(
| 1
(
å å
= +
=
ik k
ik i k
i b X
X X b
Y
2b. P logit
3. Y1,Y2,...Yn statisticamente indipendenti
{ }
i nYi Î 0,1 =1,..., 1.
4. Xik non esiste perfetta o quasi perfetta multicollinearità tra di loro
TIS_II 16
Stime di massima verosimiglianza
)
| 1
P( i ik
i Y X
p = =
)
| 0 P(
1- pi = Yi = Xik
i yi
y i i ik
i X p p
Y | ) = (1- )1-
P( probabilità di osservare
il risultato
Y
iÕ
=- -
= n
i
i y
iyi p i
p X
Y
1
)1
1 ( )
|
P( = L (Y|X, b)
probabilità (verosimiglianza) di osservare quel particolare campione di valori
Y
i dati gliX
ikfunzione di verosimiglianza bˆ che massimizza = L (Y|X, b)
algoritmi iterativi ( metodo Newton - Raphson e metodo scoring)
Proprietà stimatori MLE
Inferenza
a. significatività dei coefficienti bˆk : ) 2
( ˆ
ˆ >
k k
b SE
b bˆk ± t(n-k,a)SE(bˆk )
b. test basato sul rapporto delle funzioni di verosimiglianza
1 2
0 log ) ~ 1
(log
2 - -
- L L ck
(log) L0 verosimiglianza quando tutti i coefficienti sono pari a 0 (tranne intercetta)
(log) L1 verosimiglianza per il modello completo per grandi campioni circa come OLS
(correttezza, efficienza, normalità)
TIS_II 18
Inferenza (2)
c. significatività di insiemi di coefficienti:
g numero di coefficienti pari a 0
1 2
2 log ) ~
(log
2 L - L cg
-
L1 modello completo
L2 modello in cui alcune variabili (e quindi i relativi coefficienti) sono assunti non influenti
d. bontà dell’adattamento
proporzione di casi correttamente classificati e qualcos’ altro…
Modello logit - Interpretazione dei coefficienti
cZ bX
p a
p p ÷ = + +
ø ç ö
è æ
= - log 1 )
logit(
ln(X) funzione monotona crescente
l’effetto di b su ln(p/1-p) è pari ad un effetto di eb su (p/1-p)
X p a
p ) 0.10 ln(1 = +
Es. -
10 . 0 1 )
ln( Þ D =
D - b X
p p
11 . 1 1
1 )
ln( =
= -
-p b
p
p e e p
b positivo aumento nell’odds
1. b positivo (0.10)
modello logit (a 2 variabili X e Z) (modello lineare nel logit)
incremento variabile X si riflette, nel modello logistico, in funzione degli odds
considerando il
rapporto tra odds o odds ratio (OR)
TIS_II 20
Interpretazione dei coefficienti
2. b = 0
eb =1 odds = 110 . 0 1 )
ln( ¯ =
- b
p p
3. b negativo (-0.10) diminuzione nell’odds di x rispetto a x+1
90 .
1 ¯ = 0
-
eb
p p
Se X età in anni: per ogni anno in più l’odds che si verifichi l’evento è 0.90 volte [100.(1-0.90)] l’odds calcolato rispetto all’età considerata
Variabili indipendenti con più di due categorie
eCS dCP
cIP Age
b p a
p = + × + + +
- ) ln(1
istruzione
’nessuna istruzione’ = categoria base, IP, CP e CS variabili indicatrici Gli
odds
si possono scriverec Age b
ea
p
p = + × +
1- istruzione primaria incompleta IP (scuola dell’obbligo non completata)
d Age b
ea
p
p = + × + -
1 istruzione primaria completa CP (scuola dell’obbligo)
istruzione secondaria completa CS (diploma) nessuna istruzione
e Age b
ea
p
p = + × + -
1
Age b
ea
p
p = + × -
1
come si confrontano 2 gruppi? rapporto tra odds
(1 - p =
1/1 + exp(z))
TIS_II 22
Variabili indipendenti con più di due categorie
Per confrontare un’istruzione primaria incompleta con nessuna istruzione = baseline
per un’età fissata (Age)
c Age
b a
c Age b a
e e e none
IP = ++× × + = )
odds(
) odds(
analogamente il confronto fra un’istruzione primaria completa e incompleta
d c d
Age b a
c Age b a
e e e CP
IP -
+
× +
+
×
+ =
) = odds(
)
odds( differenza tra i valori dei
coefficienti
esempio
CS CP
IP p Age
p ) 1.76 0.02 0.22 0.52 0.66
ln(1 = - - + + +
-
Interpretazione usando probabilità stimate
eCS dCP
cIP Age
b p a
p = + × + + +
- ) ln(1
) exp(
1
) ˆ exp(
eCS dCP
cIP Age
b a
eCS dCP
cIP Age
b p a
+ +
+
× + +
+ +
+
×
= +
Age età
IP scuola dell’obbligo non completata CP scuola dell’obbligo
CS diploma
Per es. Per una donna di 30 anni che non ha completato la scuola dell’obbligo quale è la probabilità di sposarsi prima dei 25 anni ?
) 30
exp(
1
) 30
ˆ exp(
c b
a
c b
p a
+
× + +
+
×
= +
Si possono calcolare le probabilità stimate per ogni particolare combinazione di caratteristiche
farlo per tutte le combinazioni porterebbe a confusione,
TIS_II 24
Interpretazione
1. calcolando un range
presentando i valori massimi, minimi e il valor medio di pˆ Problema: come conoscere le caratteristiche che portano alla
probabilità massima e minima?
2. presentando una tabella con le probabilità stimate per le varie modalità
Si calcola un range di probabilità per una singola variabile di interesse mantenendo costanti sulla media gli altri valori (o in altri valori opportuni)
Esempio /1
(Dati da DHS Program – Demographic and Health Surveys, USAID)Si vogliono predire le caratteristiche delle donne che si sposano presto (campione di donne di età compresa tra 30 e 40 anni)
p = probabilità di sposarsi prima dei 25 anni
Variabili esplicative:
istruzione
bassa media alta
residenza urbana
rurale
etnia han
altro età al momento
dell’indagine
calcolata come differenza X - 30
TIS_II 26
Esempio /2
è necessario definire le variabili indicatrici:
occorrono 1 variabile per residenza U
etnia E
2 variabili per istruzione M H altrimentimedia
istruzione 0 se
1 îí
= ì M
L’equazione diventa
A b E b U b H b M b p a
p ) 1 2 3 4 5
ln(1 = + + + + +
- istruzione
residenza
etnia età
Esempio /3
prob sposarsi prima dei 25 anni
prob NON sposarsi prima dei 25 anni
bi stimato SE(bi) OR (Odds ratio)=ebi istruzione
media -0.23 0.11 0.79
alta -0.40 0.17 0.67
bassa 0.00 1.00
residenza
urbana -0.19 0.09 0.82
etnia
han -0.21 0.09 0.81
0.02 0.01 1.02
età
-0.20 0.08 1.81
costante - p =
p 1
Gli odds per l’istruzione sono:
media:bassa = e-0.23 = 0.79 alta:bassa = e-0.40 = 0.67
TIS_II 28
Esempio /4
Valori medi delle variabili (indipendenti) X Le medie sono:
istruzione media
alta 0.30
0.35
residenza
urbana 0.56
etnia
han 0.80 età 36.7
Si possono calcolare le probabilità stimate per ogni
variabile, tenendo costanti le altre variabili sul loro valore medio
Esempio /5
L’equazione di partenza è:
AGE HAN
URB HED
p MED
p ) 0.20 0.23 0.40 0.19 0.21 0.02
ln(1 = - - - - - +
-
Per una donna con istruzione media si ha
) 7 . 6 ( 02 . 0 ) 8 . 0 ( 21 . 0 ) 56 . 0 ( 19 . 0 ) 0 . 0 ( 40 . 0 ) 0 . 1 ( 23 . 0 20 . 0 1 )
ln( = - - - - - +
- p p
media alta
costante istruzione residenza urbana
(valore medio)
etnia han (media)
età
(valore medio espresso come scarto dai 30 anni) 57
. 0 1 )
ln( = -
- p p
36 . 1 0
ˆ 0.57
57 .
0 =
= +- - e p e
k kX b b* =
å
probabilità di sposarsi prima dei 25 anni per una donna di istruzione media e etnia, residenza, età media del campione
TIS_II 30
Esempio /6
urbana rurale
-0.63 -0.44
0.35 0.39 residenza
han -0.59 0.36
etnia
altro -0.38 0.41
alta media
-0.74
bassa
-0.57
0.32 0.36
-0.34 0.41
istruzione
å b
kX
kP = exp( å b
kX
k) / 1 + exp( å b
kX
k)
Probabilità stimate
Le probabilità più alte saranno combinazioni delle categorie con i coefficienti positivi più alti.
Quelle più basse dalle categorie con i coefficienti negativi.
Esempio: probabilità più bassa
0 . 1 20
. 0 21
. 0 19
. 0 40
. 0
*= - + - + - + - = -
b
alta
istruzione residenza
urbana etnia han costante
L’età più bassa è 0 in quanto AGE è età della donna - 30 268941
. 1 0
ˆ 1.01.0 =
= +- - e p e
27 .
= 0
TIS_II 32
probabilità più alta
Probabilità stimate
00 . 0 20
. 0 )
10 ( 02 . 0 00
. 0 00
. 0 00
. 0
*= + + + + - =
b
bassa
istruzione residenza
rurale altra etnia
costante età: 40 anni
L’età 40 viene codificata come 10 (40 - 30) 50
. 1 0
ˆ 0.00
00 .
0 =
= +
e p e
Si può fare lo stesso per ogni combinazione di caratteristiche
Interpretazione dei coefficienti
Esempio Variabile dipendente: uso dei contraccettivi
b SE(b)
istruzione
alta 0.8 0.20
media 0.6 0.14
bassa 0.0 —
1. L’effetto di un’istruzione alta consiste nell’aumento della probabilità di usare contraccettivi
22 . 2 odds = e0.8 =
2 4 2 . 0 8 .
0 = >
La prob di usare contraccettivi rispetto alla prob di non usarli (odds ratio) è 2.22 relativamente alla
categoria base (bassa istruzione).
Il coefficiente è significativo
2. L’effetto di un’istruzione alta relativamente a un’istruzione media è dato da e0.8-0.6 = e0.2 =1.22
TIS_II 34
22 .
2 1
. 0 6
. 0 8 .
0 - = e =
Effetto di un’istruzione alta e rispetto a una media:
b* = 0.2 è significativo?
M H
M H
b b
H
b b
H
¹
= :
:
1 0
Test
) se(
2 . 0 )
se(
0
M H
M H
M H
b b
b b
b t b
= - -
-
= -
) ,
cov(
2 ) var(
) var(
)
se(bH -bM = bH + bM - bH bM
€
var(bH) = se(b
[
H)]
2cov (bH ,bM) si ottiene dalla matrice di varianza / covarianza calcolata nei vari software anche se, in genere, non
mostrata per default opzioni specifiche
Interpretazione dei coefficienti
Interpretazione dei coefficienti
La matrice di varianze e covarianze appare nel modo seguente
b
Hb
Mb
Hb
M0.0400 0.0031 0.0031 0.0196
= 0.142
23 . 0 0534 .
0 0062
. 0 0196 .
0 04 . 0 )
se(bH -bM = + - = =
Allora
La funzione test vale 0.87 23
. 0
20 .
0 =
Non vi è una differenza significativa sul fenomeno fra istruzione alta (