1
STIMA DI MODELLI DI SOPRAVVIVENZA PARAMETRICI
•
Stima di modelli di sopravvivenza parametrici – uscite per morte e altra causa•
Modelli di sopravvivenza parametrici con componenti di regressione2
USCITE PER MORTE E PER ALTRA CAUSA
Supponiamo di avere osservato n individui e di disporre di dati individuali esatti, riassunti per ogni individuo i dal vettore delle età
(
yi, zi,θ
i,φ
i,)
i =1 K, , n essendoyi l’età esatta di ingresso in osservazione zi l’età esatta di uscita pianificata
θ
i l’età esatta di uscita per morte (θ
i = 0 se l’individuo i non è uscito per morte)φ
i l’età esatta di uscita per altra causa (φ
i = 0 se l’individuo i non è uscito per altra causa)Obiettivo: stimare la funzione di sopravvivenza di un modello di sopravvivenza parametrico
3
Modello di sopravvivenza a due cause di eliminazione: morte ed altra causa
Sia
Tx durata di permanenza nella collettività per un individuo presente all’età x
(
( ), ( ))
min xd xw
x T T
T = essendo
) (d
Tx durata di permanenza nella collettività finché non si ha l’uscita per morte, per un individuo presente nella collettività all’età x
) (w
Tx durata di permanenza nella collettività finché non si ha l’uscita per altra causa, per un individuo presente nella collettività all’età x
Siano
) (
)
( 0( )
)
( t P T t
S d = d > funzione di sopravvivenza (parametrica) relativa al n.a. T0(d) )
( )
( 0( )
)
( t P T t
S w = w > funzione di sopravvivenza (parametrica) relativa al n.a. T0(w)
4
( )
t a d( )
td) ( )
(
µ
µ
= t ≥ 0( )
t a w( )
tw) ( )
(
µ
µ
= t ≥ 0essendo
( ) ( )
t
t T
t t
T P t
x
d x d
x t
d
∆
>
∆ +
= ≤ + ∆ →
) ( )
(
0 )
( lim
µ
( ) ( )
t
t T
t t
T P t
x
xw xw
t w
∆
>
∆ +
= ≤ + ∆ →
) ( )
(
0 )
( lim
µ
le intensità marginali di eliminazione e
( ) ( )
t
t T C
t t
T t P
x
a x x
t d
∆
>
=
∆ +
= ≤ + ∆ →
1 lim ,
0 )
µ
(
( ) ( )
t
t T C
t t
T t P
x
a x x
t w
∆
>
=
∆ +
= ≤ + ∆ →
2 lim ,
0 )
µ
(le intensità di uscita per le varie cause, dove C =1 denota l’evento “uscita per morte” e
= 2
C denota l’evento uscita per altra causa
5
In ipotesi di uscite non informative sussiste la relazione di Karup
) ( ) ( )
( w
x t d x t x
t p τ = p′ p′
essendo
( )
) (
) exp (
) (
) (
0 ) ( )
(
x S
t x du S
u x
p d
t d d d
x t
= +
− ∫ +
′ =
µ
( )
) (
) exp (
) (
) (
0
) ( )
(
x S
t x du S
u x
p w
t w w w
x t
= +
− ∫ +
′ =
µ
6
Stima con il metodo della massima verosimiglianza
Per scrivere la verosimiglianza delle osservazioni
(
yi, zi,θ
i,φ
i,)
i =1 K, , ndefiniamo, per ogni i =1 K, ,n, i n.a.
)
T(i durata aleatoria di permanenza dell’individuo i nella collettività
Nota: T(i) ha determinazioni
]
0, zi − yi]
Si definiscono{
i i zi}
S = l'individuo èpresentenellacollettività all'età survival
{
i i i}
D = l'individuo esceper morteall'età
θ
death{
i i i}
W = l'individuo esceper altracausa all'età
φ
withdrawal7
Se l’individuo i è presente nella collettività all’età di uscita pianificata:
i i
i z y
T( ) = −
) (
) ( )
( ) ) (
( ( )
) ( )
( ) ) (
( )
( )
) ( (
i w
i w
i d
i w d
y y z d y y y z
y z i
i i
y S
z S
y S
z p S
p p
y z T
P
i i i i
i i i
i
i = ′ ⋅ ′ = ⋅
=
−
= − τ − −
Se l’individuo i esce per morte all’età esatta
θ
i:i i
i y
T( ) =
θ
−( ) ( )
d( )
ii w
i w
i d
i d i
d y y
i i C
T S y
S y
S p S
y f
i i
i
µ θ θ θ µ θ
θ
θ (τ) ( ) (( )) (( )) ( ), ( )
) ( )
( ) 1 (
, = ⋅ = ⋅ ⋅
− −
Se l’individuo i esce per altra causa all’età esatta
φ
i:i i
i y
T( ) =
φ
−( ) ( )
w( )
ii w
i w
i d
i d i
w y y
i i C
T S y
S y
S p S
y f
i i
i
µ φ φ φ µ φ
φ
φ (τ) ( ) (( )) (( )) ( ), ( )
) ( )
( ) 2 (
, = ⋅ = ⋅ ⋅
− −
8
In ipotesi di indipendenza stocastica dei n.a. T(i) la verosimiglianza delle osservazioni è
( ) ( )
∏ − ⋅ ∏ −
∏ = − ⋅
= ∈ i∈D T C i i i∈W T C i i S
i i i i
y f
y f
y z T
P
L ( ( ) ) ,
θ
,1 ,φ
,2( ) ( )
∏ ⋅ ⋅ ∏ ⋅
∏ ⋅
= ∈ − ∈ −
∈ −
D
i i W w i
y y i
d y y
S
i z y y
i i i i
i i i
i
i p(τ) θ p(τ)
µ
( )θ
φ p(τ)µ
( )φ
∏ ⋅ ⋅
= i∈S w i
i w
i d
i d
y S
z S
y S
z S
) (
) ( )
( ) (
) (
) ( )
( ) (
( )
⋅∏ ⋅ ⋅
⋅i∈D d i
i w w i i
d d i
y S
S y
S
S
θ θ µ
( )θ
) (
) ( )
( ) (
) (
) ( )
( ) (
∏ ⋅ ⋅
( )
⋅i∈W w i
i w
i w
i d
i d
y S
S y S
S
φ φ µ
( )φ
) (
) ( )
( ) (
) (
) ( )
( ) (
9
Poiché
( )
( ))
( ( ) ( )
)
( d i
d i d i
f
S
θ
⋅µ θ
=θ
( )( ) ( )( )
(w)( i) w iw i
f
S
φ
⋅µ φ
=φ
si ha
( )
⋅ ∏ ⋅∏ ⋅
∏ ⋅
= ∈ ∈ i∈W d i
i d D
i d i
i d
i d S
i d i
i d
y S
S y
S S y
S
z L S
) (
) ( )
( ) ( )
( ) (
) (
) ) (
( )
( ) ( )
( )
(
θ µ θ φ
( )
∏ ⋅
∏ ⋅
∏ ⋅
⋅ ∈ ∈ i∈W w i
i w
i w D
i w i
i w S
i w i
i w
y S
S y
S S y
S
z
S
θ φ µ
( )φ
) (
) ( )
( ) ( )
( ) (
) (
) ( )
( ) ( )
( ) (
∏ ⋅
∏ ⋅
∏ ⋅
= ∈ ∈ i∈W d i
i d D
i d i
i d S
i d i
i d
y S
S y
S f y
S
z S
) (
) ( )
( ) ( )
( ) (
) (
) ( )
( ) ( )
( )
(
θ φ
⋅ ∏
⋅ ∏
⋅ ∏
∈
∈
∈ i W w i
i w D
i w i
i w S
i w i
i w
y S
f y
S S y
S
z S
) (
) ( )
( ) ( )
( ) (
) (
) ( )
( ) ( )
( )
(
θ φ
10
Quindi
) ( )
(d w
L L
L = ⋅
con
⋅ ∏
⋅ ∏
= ∏
∈
∈
∈ i W d i
i d D
i d i
i d S
i d i
i d d
y S
S y
S f y
S
z L S
) (
) ( )
( ) ( )
( ) (
) (
) ( )
( ) ( )
( ) ) (
(
θ φ
e
⋅ ∏
⋅ ∏
= ∏
∈
∈
∈ i W w i
i w D
i w i
i w S
i w i
i w w
y S
f y
S S y
S
z L S
) (
) ( )
( ) ( )
( ) (
) (
) ( )
( ) ( )
( ) ) (
(
θ φ
Quindi per stimare la funzione di sopravvivenza S(d)(t) si porrà
)
maxL(d
mentre per stimare la funzione di sopravvivenza S(w)(t) si porrà
)
maxL(w
11
Stima di massima verosimiglianza della funzione di sopravvivenza S(d)(t)
⋅ ∏
⋅ ∏
= ∏
∈
∈
∈ i D d i
i d W
i d i
i d S
i d i
i d d
y S
f y
S S y
S
z L S
) (
) ( )
( ) ( )
( ) (
) (
) ( )
( ) ( )
( ) ) (
(
φ θ
dove
) ( )
( ( )
)
( S t
t d t d
f d = − d
Si nota che le informazioni sulle uscite per altra causa sono trattate come le informazioni sulla sopravvivenza all’età di uscita pianificata
Se il modello di sopravvivenza parametrico per la durata aleatoria di vita T0(d) è assegnato mediante l’intensità istantanea di mortalità
µ
(d )( )
t la verosimiglianza può essere scritta nel modo seguente( ) ( )
∏( ) ( )
− ∫
∏ ⋅
− ∫
∏ ⋅
− ∫
= ∈ ∈ i∈D d i
y d W
i y
d S
i
z y
d
d i
i i
i i
i
dt t dt
t dt
t
L( ) exp
µ
( ) exp φµ
( ) exp θµ
( )µ
( )θ
12
Con riferimento all’i-esimo individuo osservato, indichiamo con ti la determinazione del n.a. T(i), si ha
∈
−
∈
−
∈
−
=
D i y
W i y
S i y
z t
i i
i i
i i i
se se se
θ
φ
Consideriamo inoltre l’indicatore di evento
∈
∪
= ∈
D i
W S
di i
se 1
se
0
la verosimiglianza L(d) relativa agli n individui osservati può allora essere scritta come segue
( ) ( ( ) )
∏
+
− ∫ +
= = n i
d i i t d
i d
d i i
t y ds
s y L
1
) ( 0
) ( )
( exp
µ µ
13
Indicata con
( )
∫ +
= t d
y t y s ds
H
0 )
) (
(
µ
La funzione di rischio integrata la verosimiglianza L(d) diventa
( ) ( ( ) )
∏
− +
= = n i
d i i d i
y
d i
i t y t
H L
1
) ( )
( exp ( )
µ
e quindi si ottiene la seguente espressione per la log-verosimiglianza
( )
( )
∑ +
+
∑−
= = =
n
i d i i
i n
i y i
d H t d y t
L i
1
) ( 1
)
( ( ) log
log
µ
Per ottenere quindi la stima di massima verosimiglianza di un modello di sopravvivenza parametrico, disponendo di dati individuali esatti, è sufficiente specificare la struttura della intensità istantanea di mortalità
µ
(d )( )
t e della relativa funzione di rischio integrato Hy(t)14
S.J. Richards (2012), “A handbook of parametric survival models for actuarial use”, Scandinavian Actuarial Journal
V. Table 1. Some actuarial mortality laws and their corresponding integrated hazard functions.
15
MODELLI DI SOPRAVVIVENZA PARAMETRICI CON COMPONENTI DI REGRESSIONE
Supponiamo di avere osservato n individui e di disporre di dati individuali esatti.
Per ogni individuo i sono inoltre note le determinazioni di un insieme di variabili esplicative invarianti nel tempo (variabili concomitanti). I dati osservati sono allora
(
yi, zi,θ
i,φ
i,xi)
i =1 K, , n essendoyi l’età esatta di ingresso in osservazione zi l’età esatta di uscita pianificata
θ
i l’età esatta di uscita per morte (θ
i = 0 se l’individuo i non è uscito per morte)φ
i l’età esatta di uscita per altra causa (φ
i = 0 se l’individuo i non è uscito per altra causa)xi determinazioni di un vettore di variabili esplicative (es. sesso, stato di salute, ecc.)
16
Obiettivo: stimare un modello di sopravvivenza parametrico con delle variabili esplicative introdotte nel modello per mezzo di una struttura di regressione Con riferimento al n.a.
)
T(i durata aleatoria di permanenza dell’individuo i nella collettività indichiamo con
)
;
)(
(
i d t
S x la funzione di sopravvivenza
( )
id) t x;
µ
( la funzione di rischio (intensità istantanea di mortalità)( )
i i di d
d t S t t
f ( )( ;x ) = ( )( ;x )⋅
µ
( ) ;x la funzione di densitàrelative alla durata aleatoria di vita dell’individuo i, caratterizzato dal vettore delle variabili esplicative (variabili concomitanti) xi
17
Indicata con ti la determinazione del n.a. T(i), relativo all’i-esimo individuo osservato
∈
−
∈
−
∈
−
=
D i y
W i y
S i y
z t
i i
i i
i i i
se se se
θ
φ
e dato l’indicatore di evento
∈
∪
= ∈
D i
W S
di i
se 1
se 0
si ottiene la seguente espressione della verosimiglianza L(d) relativa agli n individui osservati
( )
( )
∏
+ +
= = n i
d i i i d i
i d
i i i
d d i
t y y
S
t y L S
1
) ( )
( ) ) (
( ;
)
; (
)
;
( x
x
x
µ
ovvero
( ) ( ( ) )
∏
+
− ∫ +
= = n i
d i i i t d
i i
d
d i i
t y ds
s y L
1
) ( 0
) ( )
( exp
µ
;xµ
;x18
Modello di Cox o proportional hazard model
Si considera una particolare ipotesi sulla funzione di rischio
( )
i d( )
iββββ
d) t;x = 0( )(t) exp x′
(
µ
µ
in cui si ha una componente
µ
0(d)(t) che esprime l’intensità istantanea di mortalità base, comune a tutti gli individui osservati, ed una componente exp(
x′iββββ )
dipendente dalle variabili concomitanti di ciascun individuo.Sostituendo nella verosimiglianza si ottiene
( ) ( ( ) )
∏
+ ′
− ′ ∫ +
= = n i
d i i
i t d
i d i
d i i
t y ds
s y L
1
) ( 0 0
) ( 0 )
( exp exp x
ββββ µ
( )µ
( ) exp xββββ
19
Ponendo
(
′)
∫ += i ti d i
i y s ds
0 ) (
0 ( )
exp
µ
µ
xββββ
la verosimiglianza diventa
( ) ( )
∏
∫ +
+
′ ∫ +
− ′ ∫ +
= = n i
d
t
i d
i i d d
t
i d i
t
i d i
d
i
i i i
i
ds s y
t ds y
s y ds
s y L
1
0 ) ( 0
) ( 0 0
) ( 0 0
) ( 0 )
(
) (
) ) (
( exp
) (
exp exp
µ µ µ
µ ββββ
ββββ
xx
( )( )
∏
∫ +
− +
= = n i
d
t
i d
i i d d
i i
i
i i
ds s y
t y
1
0 ) ( 0
) ( 0
) (
) exp (
µ µ µ
µ
20
Nella verosimiglianza
( )
∏
∫ +
= +
= n − i
d
t
i d
i i d d
i d
i
i i i
ds s y
t e y
L
1
0 ) ( 0
) ( ) 0
(
) (
) (
µ µ µ
µ
il fattore
( )
ii d
e−µ
µ
ipuò essere visto come il nucleo di una distribuzione di Poisson di parametro
µ
i che dipende dai parametri di regressioneββββ
,invece, il fattore
i
i
d
t
i d
i i d
ds s y
t y
∫ +
+
0 ) ( 0
) ( 0
) (
) (
µ µ
non dipende dai parametri di regressione
21
Nota la funzione di intensità istantanea di mortalità base
µ
0(d)(t), per la stima diββββ
la L(d) è equivalente alla verosimiglianza di un GLM con• variabili risposta con distribuzioni di Poisson,
• funzione di collegamento logaritmo
• valori osservati delle variabili risposta: di con i =1 K, ,n
• previsore lineare della i-esima osservazione:
∫ +
′ + ti d i
i y s ds
0 ) (
0 ( )
log
µ ββββ
x
con
t∫i d yi + s ds
0 ) (
0 ( )
log
µ
un termine offset22
Tipicamente per la funzione di intensità istantanea di mortalità base
µ
0(d)(t) si assume un modello di sopravvivenza parametrico, per esempio il modello di WeibullPer stimare allora tutti i parametri sono proposti in letteratura algoritmi iterativi che alternano al passo di stima dei parametri di regressione, un passo per la stima del modello di sopravvivenza base.
23
RIFERIMENTI BIBLIOGRAFICI
L. Fahrmeir, G. Tutz, Multivariate statistical modelling based on Generalized Linear Models, Springer, 1994 (Cap. 9)
D. London, Survival models and their estimation, Actex publications, 1997 (Cap. 8) S. J. Richards (2012), A handbook of parametric survival model for actuarial use, Scandinavian Actuarial Journal, 2012:4, 233-257