STIMA DI MODELLI DI SOPRAVVIVENZA PARAMETRICI

(1)

1

STIMA DI MODELLI DI SOPRAVVIVENZA PARAMETRICI

•

Stima di modelli di sopravvivenza parametrici – uscite per morte e altra causa

•

Modelli di sopravvivenza parametrici con componenti di regressione

(2)

2

USCITE PER MORTE E PER ALTRA CAUSA

Supponiamo di avere osservato n individui e di disporre di dati individuali esatti, riassunti per ogni individuo i dal vettore delle età

(

yi^, zi^,

θ

i^,

φ

i^,

)

ⁱ =^{1 K}^, ^, ⁿ essendo

yi l’età esatta di ingresso in osservazione zi l’età esatta di uscita pianificata

θ

i l’età esatta di uscita per morte (

θ

_i = 0 se l’individuo i non è uscito per morte)

φ

i l’età esatta di uscita per altra causa (

φ

_i = 0 se l’individuo i non è uscito per altra causa)

Obiettivo: stimare la funzione di sopravvivenza di un modello di sopravvivenza parametrico

(3)

3

Modello di sopravvivenza a due cause di eliminazione: morte ed altra causa

Sia

Tx durata di permanenza nella collettività per un individuo presente all’età x

(

⁽ ⁾^, ⁽ ⁾

)

min _x^d _x^w

x T T

T = essendo

) (d

Tx durata di permanenza nella collettività finché non si ha l’uscita per morte, per un individuo presente nella collettività all’età x

) (w

Tx durata di permanenza nella collettività finché non si ha l’uscita per altra causa, per un individuo presente nella collettività all’età x

Siano

) (

)

( ₀⁽ ⁾

)

( t P T t

S ^d = ^d > funzione di sopravvivenza (parametrica) relativa al n.a. T₀⁽^d⁾ )

( )

( ₀⁽ ⁾

)

( t P T t

S ^w = ^w > funzione di sopravvivenza (parametrica) relativa al n.a. T₀⁽^w⁾

(4)

4

( )

^t ^a ^d

( )

^t

d) ( )

(

µ

= t ≥ 0

( )

^t ^a ^w

( )

^t

w) ( )

(

µ

= t ≥ 0

essendo

( ) ( )

t

t T

t t

T P t

x

d x d

x t

d

∆

>

∆ +

= ≤ + ∆ →

) ( )

(

0 )

( lim

µ

( ) ( )

t

t T

t t

T P t

x

xw xw

t w

∆

>

∆ +

= ≤ + ∆ →

) ( )

(

0 )

( lim

µ

le intensità marginali di eliminazione e

( ) ( )

t

t T C

t t

T t P

x

a ^x ^x

t d

∆

>

=

∆ +

= ≤ + ∆ →

1 lim ,

0 )

µ

(

( ) ( )

t

t T C

t t

T t P

x

a ^x ^x

t w

∆

>

=

∆ +

= ≤ + ∆ →

2 lim ,

0 )

µ

(

le intensità di uscita per le varie cause, dove C =1 denota l’evento “uscita per morte” e

= 2

C denota l’evento uscita per altra causa

(5)

5

In ipotesi di uscite non informative sussiste la relazione di Karup

) ( ) ( )

( w

x t d x t x

t p ^τ = p′ p′

essendo

( )

) (

) exp (

) (

0 ) ( )

(

x S

t x du S

u x

p d

t d d d

x t

= +







− ∫ +

′ =

µ

( )

) (

) exp (

) (

0

) ( )

(

x S

t x du S

u x

p w

t w w w

x t

= +







− ∫ +

′ =

µ

(6)

6

Stima con il metodo della massima verosimiglianza

Per scrivere la verosimiglianza delle osservazioni

(

^y_i^, ^z_i^,

θ

_i^,

φ

_i^,

)

ⁱ =^{1 K}^, ^, ⁿ

definiamo, per ogni i =1 K, ,n, i n.a.

)

T(i durata aleatoria di permanenza dell’individuo i nella collettività

Nota: T⁽ⁱ⁾ ha determinazioni

]

0, zi − yi

]

Si definiscono

{

i i zi

}

S = l'individuo èpresentenellacollettività all'età survival

{

i i i

}

D = ^l'îndividuo êsce^per^morteâll'êtà

θ

death

{

i i i

}

W = ^l'îndividuo êsce^perâltra^causa âll'êtà

φ

withdrawal

(7)

7

Se l’individuo i è presente nella collettività all’età di uscita pianificata:

i i

i z y

T⁽ ⁾ = −

) (

) ( )

( ) ) (

( ( )

) ( )

( ) ) (

( )

) ( (

i w

i d

i w d

y y z d y y y z

y z i

i i

y S

z S

y S

z p S

p p

y z T

P

i i i i

i i i

i

i = ′ ⋅ ′ = ⋅

=

−

= ₋ ^τ ₋ ₋

Se l’individuo i esce per morte all’età esatta

θ

_i^:

i i

i y

T⁽ ⁾ =

θ

−

( ) ( )

^d

( )

_i

i w

i d

i d i

d y y

i i C

T S y

S y

S p S

y f

i i

i

µ θ θ θ µ θ

θ

_θ ⁽^τ⁾ ⁽ ⁾ ₍⁽ ₎⁾ ₍⁽ ₎⁾ ⁽ ⁾

, ( )

) ( )

( ) 1 (

, = ⋅ = ⋅ ⋅

− ₋

Se l’individuo i esce per altra causa all’età esatta

φ

_i^:

i i

i y

T⁽ ⁾ =

φ

−

( ) ( )

^w

( )

_i

i w

i d

i d i

w y y

i i C

T S y

S y

S p S

y f

i i

i

µ φ φ φ µ φ

φ

_φ ⁽^τ⁾ ⁽ ⁾ ₍⁽ ₎⁾ ₍⁽ ₎⁾ ⁽ ⁾

, ( )

) ( )

( ) 2 (

, = ⋅ = ⋅ ⋅

− ₋

(8)

8

In ipotesi di indipendenza stocastica dei n.a. T⁽ⁱ⁾ la verosimiglianza delle osservazioni è

( ) ( )

∏ − ⋅ ∏ −

∏ = − ⋅

= ∈ i∈D T C i i i∈W T C i i S

i i i i

y f

y z T

P

L ( ⁽ ⁾ ) _,

θ

,1 _,

φ

,2

( ) ( )

∏ ⋅ ⋅ ∏ ⋅

∏ ⋅

= ∈ − ∈ −

∈ −

D

i i W w i

y y i

d y y

S

i z y y

i i i i

i i i

i

i p⁽^τ⁾ _θ p⁽^τ⁾

µ

⁽ ⁾

θ

_φ p⁽^τ⁾

µ

⁽ ⁾

φ

∏ ⋅ ⋅

= i∈S w i

i w

i d

y S

z S

y S

z S

) (

) ( )

( ) (

) (

) ( )

( ) (

( )

⋅

∏ ⋅ ⋅

⋅i∈D d i

i w w i i

d d i

y S

S y

S

θ θ µ

( )

θ

) (

) ( )

( ) (

) (

) ( )

( ) (

∏ ⋅ ⋅

( )

⋅i∈W w i

i w

i d

y S

S y S

S

φ φ µ

( )

φ

) (

) ( )

( ) (

) (

) ( )

( ) (

(9)

9

Poiché

( )

⁽ ⁾

)

( ⁽ ⁾ ⁽ ⁾

)

( d i

d i d i

f

S

θ

⋅

µ θ

=

θ

⁽ ⁾⁽ ⁾ ⁽ ⁾

( )

⁽w⁾⁽ i⁾ w i

w i

f

S

φ

⋅

µ φ

=

φ

si ha

( )

⋅ ∏ ^⋅

∏ ⋅

= ∈ ∈ i∈W d i

i d D

i d i

i d

i d S

i d i

i d

y S

S y

S S y

S

z L S

) (

) ( )

( ) ( )

( ) (

) (

) ) (

( )

( ) ( )

( )

(

θ µ θ φ

( )

∏ ⋅

⋅ ∈ ∈ i∈W w i

i w

i w D

i w i

i w S

i w i

i w

y S

S y

S S y

S

z

S

θ φ µ

( )

φ

) (

) ( )

( ) ( )

( ) (

) (

) ( )

( ) ( )

( ) (

∏ ⋅

= ∈ ∈ i∈W d i

i d D

i d i

i d S

i d i

i d

y S

S y

S f y

S

z S

) (

) ( )

( ) ( )

( ) (

) (

) ( )

( ) ( )

( )

(

θ φ

⋅ ∏

∈

∈ i W w i

i w D

i w i

i w S

i w i

i w

y S

f y

S S y

S

z S

) (

) ( )

( ) ( )

( ) (

) (

) ( )

( ) ( )

( )

(

θ φ

(10)

10

Quindi

) ( )

(d w

L L

L = ⋅

con

⋅ ∏

= ∏

∈

∈ i W d i

i d D

i d i

i d S

i d i

i d d

y S

S y

S f y

S

z L S

) (

) ( )

( ) ( )

( ) (

) (

) ( )

( ) ( )

( ) ) (

(

θ φ

e

⋅ ∏

= ∏

∈

∈ i W w i

i w D

i w i

i w S

i w i

i w w

y S

f y

S S y

S

z L S

) (

) ( )

( ) ( )

( ) (

) (

) ( )

( ) ( )

( ) ) (

(

θ φ

Quindi per stimare la funzione di sopravvivenza S⁽^d⁾(t) si porrà

)

maxL(^d

mentre per stimare la funzione di sopravvivenza S⁽^w⁾(t) si porrà

)

maxL(^w

(11)

11

Stima di massima verosimiglianza della funzione di sopravvivenza S⁽^d⁾(t)

⋅ ∏

= ∏

∈

∈ i D d i

i d W

i d i

i d S

i d i

i d d

y S

f y

S S y

S

z L S

) (

) ( )

( ) ( )

( ) (

) (

) ( )

( ) ( )

( ) ) (

(

φ θ

dove

) ( )

( ⁽ ⁾

)

( S t

t d t d

f ^d = − ^d

Si nota che le informazioni sulle uscite per altra causa sono trattate come le informazioni sulla sopravvivenza all’età di uscita pianificata

Se il modello di sopravvivenza parametrico per la durata aleatoria di vita T₀⁽^d⁾ è assegnato mediante l’intensità istantanea di mortalità

µ

⁽^{d )}

( )

^t la verosimiglianza può essere scritta nel modo seguente

( ) ( )

∏

( ) ( )























− ∫

∏ ⋅









− ∫

∏ ⋅









− ∫

= ∈ ∈ i∈D d i

y d W

i y

d S

i

z y

d

d ⁱ

i i

i

dt t dt

t dt

t

L⁽ ⁾ ^exp

µ

⁽ ⁾ ^exp ^φ

µ

⁽ ⁾ ^exp ^θ

µ

⁽ ⁾

µ

⁽ ⁾

θ

(12)

12

Con riferimento all’i-esimo individuo osservato, indichiamo con t_i la determinazione del n.a. T⁽ⁱ⁾, si ha







∈

−

∈

−

∈

−

=

D i y

W i y

S i y

z t

i i

i i i

se se se

θ

φ

Consideriamo inoltre l’indicatore di evento





∈

∪

= ∈

D i

W S

d_i i

se 1

se

0

la verosimiglianza L⁽^d⁾ relativa agli n individui osservati può allora essere scritta come segue

( ) ( ( ) )

∏ 









  +









− ∫ +

= = n i

d i i t d

i d

d ⁱ ⁱ

t y ds

s y L

1

) ( 0

) ( )

( exp

µ µ

(13)

13

Indicata con

( )

∫ +

= ^t ^d

y t y s ds

H

0 )

) (

(

µ

La funzione di rischio integrata la verosimiglianza L^(d⁾ diventa

( ) ( ⁽ ⁾ )

∏ 

 − +

= = n i

d i i d i

y

d ⁱ

i t y t

H L

1

) ( )

( exp ( )

µ

e quindi si ottiene la seguente espressione per la log-verosimiglianza

( )

∑ +

+

∑−

= = =

n

i d i i

i n

i y i

d H t d y t

L i

1

) ( 1

)

( ( ) log

log

µ

Per ottenere quindi la stima di massima verosimiglianza di un modello di sopravvivenza parametrico, disponendo di dati individuali esatti, è sufficiente specificare la struttura della intensità istantanea di mortalità

µ

⁽^{d )}

( )

^t e della relativa funzione di rischio integrato H_y(t)

(14)

14

S.J. Richards (2012), “A handbook of parametric survival models for actuarial use”, Scandinavian Actuarial Journal

V. Table 1. Some actuarial mortality laws and their corresponding integrated hazard functions.

(15)

15

MODELLI DI SOPRAVVIVENZA PARAMETRICI CON COMPONENTI DI REGRESSIONE

Supponiamo di avere osservato n individui e di disporre di dati individuali esatti.

Per ogni individuo i sono inoltre note le determinazioni di un insieme di variabili esplicative invarianti nel tempo (variabili concomitanti). I dati osservati sono allora

(

^y_i^, ^z_i^,

θ

_i^,

φ

_i^,^x_i

)

ⁱ =^{1 K}^, ^, ⁿ essendo

yi l’età esatta di ingresso in osservazione zi l’età esatta di uscita pianificata

θ

i l’età esatta di uscita per morte (

θ

_i = 0 se l’individuo i non è uscito per morte)

φ

i l’età esatta di uscita per altra causa (

φ

_i = 0 se l’individuo i non è uscito per altra causa)

xi determinazioni di un vettore di variabili esplicative (es. sesso, stato di salute, ecc.)

(16)

16

Obiettivo: stimare un modello di sopravvivenza parametrico con delle variabili esplicative introdotte nel modello per mezzo di una struttura di regressione Con riferimento al n.a.

)

T(i durata aleatoria di permanenza dell’individuo i nella collettività indichiamo con

)

;

)(

(

i d t

S x la funzione di sopravvivenza

( )

_i

d⁾ t x;

µ

( la funzione di rischio (intensità istantanea di mortalità)

( )

i i d

i d

d t S t t

f ⁽ ⁾( ;x ) = ⁽ ⁾( ;x )⋅

µ

⁽ ⁾ ;x la funzione di densità

relative alla durata aleatoria di vita dell’individuo i, caratterizzato dal vettore delle variabili esplicative (variabili concomitanti) x_i

(17)

17

Indicata con t_i la determinazione del n.a. T⁽ⁱ⁾, relativo all’i-esimo individuo osservato







∈

−

∈

−

∈

−

=

D i y

W i y

S i y

z t

i i

i i i

se se se

θ

φ

e dato l’indicatore di evento





∈

∪

= ∈

D i

W S

d_i i

se 1

se 0

si ottiene la seguente espressione della verosimiglianza L⁽^d⁾ relativa agli n individui osservati

( )

∏ 



 



 + +

= = n i

d i i i d i

i d

i i i

d d ⁱ

t y y

S

t y L S

1

) ( )

( ) ) (

( ;

)

; (

)

;

( x

x

µ

ovvero

( ) ( ( ) )

∏ 









  +









− ∫ +

= = n i

d i i i t d

i i

d

d ⁱ ⁱ

t y ds

s y L

1

) ( 0

) ( )

( exp

µ

;x

µ

;x

(18)

18

Modello di Cox o proportional hazard model

Si considera una particolare ipotesi sulla funzione di rischio

( )

_i ^d

( )

_i

^ββββ

d⁾ t;x = ₀⁽ ⁾(t) exp x′

(

µ

in cui si ha una componente

µ

₀⁽^d⁾(t) che esprime l’intensità istantanea di mortalità base, comune a tutti gli individui osservati, ed una componente ^exp

(

^x′_i

ββββ )

dipendente dalle variabili concomitanti di ciascun individuo.

Sostituendo nella verosimiglianza si ottiene

( ) ( ( ) )

∏ 









  + ′









− ′ ∫ +

= = n i

d i i

i t d

i d i

d ⁱ ⁱ

t y ds

s y L

1

) ( 0 0

) ( 0 )

( exp exp ^x

ββββ µ

( )

µ

( ) exp ^x

ββββ

(19)

19

Ponendo

(

^′

)

^∫ ⁺

= _i ^tⁱ ^d _i

i y s ds

0 ) (

0 ( )

exp

µ

^x

ββββ

la verosimiglianza diventa

( ) ( )

∏

































∫ +

 +











 ′ ∫ +











− ′ ∫ +

= = n i

d

t

i d

i i d d

t

i d i

t

i d i

d

i

i i i

i

ds s y

t ds y

s y ds

s y L

1

0 ) ( 0

) ( 0 0

) ( 0 )

(

) (

) ) (

( exp

) (

exp exp

µ µ µ

µ ββββ

ββββ

^x

x

( )( )

∏

































∫ +

− +

= = n i

d

t

i d

i i d d

i i

i

i i

ds s y

t y

1

0 ) ( 0

) ( 0

) (

) exp (

µ µ µ

µ

(20)

20

Nella verosimiglianza

( )

∏

















∫ +

= +

= n − i

d

t

i d

i i d d

i d

i

i i i

ds s y

t e y

L

1

0 ) ( 0

) ( ) 0

(

) (

µ µ µ

µ

il fattore

( )

ⁱ

i d

e⁻^µ

µ

i

può essere visto come il nucleo di una distribuzione di Poisson di parametro

µ

_i^che dipende dai parametri di regressione

ββββ

^,

invece, il fattore

i

d

t

i d

i i d

ds s y

t y

















∫ +

+

0 ) ( 0

) ( 0

) (

µ µ

non dipende dai parametri di regressione

(21)

21

Nota la funzione di intensità istantanea di mortalità base

µ

₀⁽^d⁾(t), per la stima di

ββββ

^la^L^(d⁾ è equivalente alla verosimiglianza di un GLM con

• variabili risposta con distribuzioni di Poisson,

• funzione di collegamento logaritmo

• valori osservati delle variabili risposta: d_i con i =1 K, ,n

• previsore lineare della i-esima osservazione:











 ∫ +

′ + ^tⁱ ^d _i

i y s ds

0 ) (

0 ( )

log

µ ββββ

x

con 









^t∫ⁱ ^d y_i + s ds

0 ) (

0 ( )

log

µ

un termine offset

(22)

22

Tipicamente per la funzione di intensità istantanea di mortalità base

µ

₀⁽^d⁾(t) si assume un modello di sopravvivenza parametrico, per esempio il modello di Weibull

Per stimare allora tutti i parametri sono proposti in letteratura algoritmi iterativi che alternano al passo di stima dei parametri di regressione, un passo per la stima del modello di sopravvivenza base.

(23)

23

RIFERIMENTI BIBLIOGRAFICI

L. Fahrmeir, G. Tutz, Multivariate statistical modelling based on Generalized Linear Models, Springer, 1994 (Cap. 9)

D. London, Survival models and their estimation, Actex publications, 1997 (Cap. 8) S. J. Richards (2012), A handbook of parametric survival model for actuarial use, Scandinavian Actuarial Journal, 2012:4, 233-257