4.3 Analisi dei dati ULSAM
4.3.6 Risultati usando Joint Models
Scelta delle a priori
Il modello congiunto proposto di seguito segue l’impostazione di Guo e Carlin (2004), i quali considerano una versione pienamente bayesiana implementata tramite il metodo MCMC, utilizzando il software Winbugs.
in modo da permettere il confronto con i risultati dell’analisi classica. Le a priori considerate sono ‘proprie’, ma con valori degli iperparametri scelti in modo tale da avere il minimo impatto sui dati. In particolare per il sot- tomodello longitudinale sono considerate normali multivariate per il vettore degli effetti principali β1 = (β11, β12, β13, β14, β15, β16, β17, β18, β19)T e inverse
gamma per la varianza dell’errore σ2
, entrambi con una bassa precisione e
di conseguenza alta varianza. Si è ragionato in maniera simile per definire le a priori del sottomodello di sopravvivenza. Sono scelte normali vaghe per i coefficienti β2 = (β21, β22, β23, β24, β25, β26, β27) e inverse gamma per la
variabilità dell’eventuale termine di frailty σ2
3. Per i parametri degli effetti
casuali comuni ad entrambi i modelli, ovvero per la variabilità, si è assunto un inverse Wishart (essenzialmente una gamma multivariata; vedi 1.19). Per i parametri di associazione γ1 e γ2 sono scelte a priori normali anch’esse ab-
bastanza vaghe. Per selezionare il modello si può utilizzare il DIC (Deviance Information Criterion; Spiengelhalter et al., 2002), una generalizzazione del AIC (Akaike Information Criterion), scegliendo il modello con più piccolo DIC totale.
Il modello congiunto che abbiamo considerato nell’applicazione introduce un’intercetta e pendenza casuale nel sottomodello longitudinale. Sotto il modello congiunto la sopravvivenza degli uomini appartenenti alla coorte ULSAM è collegata a due caratteristiche che giudano il pattern longitudinale, ovvero il livello iniziale del GFR e il relativo tasso di decremento. Questo è ragionevole in quanto un alto livello nel GFR rappresenta un migliore stato di salute; ci dovremmo attendere che gli individui con un GFR basso o con un più rapido declino abbiano una peggiore sopravvivenza.
Risultati
I risultati del joint model sono basati su tre catene parallele MCMC di 60000 iterazioni ognuna, che seguono 10000 iterazioni ‘burn-in’. Vogliamo con- frontare i risultati ottenuti sotto i modelli separati classici, con quelli dei modelli separati bayesiani e del joint model bayesiano. Per quanto riguarda l’analisi separata bayesiana, il modello longitudinale assume la forma (4.7), mentre quello di sopravvivenza la (4.8). Nel joint model invece il sottomodello longitudinale assume la stessa forma (4.7), mentre in quello di sopravvivenza si aggiunge la componente W2i. Il modello diventa
log(µi) = β21+ β22Att − f isicai+ β23Circ − vitai+ β24Ipertensionei+(4.9)
β25F umoi+ β26l − albumi+ β27eta0 − visitai+ W2i(t)
dove W2i(t) = W2i= γ1U1i+ γ2U2i.
Con tale modello congiunto si può testare se il differente livello del GFR iniziale γ1 e il relativo tasso di decremento γ2 hanno un effetto sulla soprav-
vivenza degli uomini della coorte ULSAM.
Tutte le variabili non dicotomiche sono state centrate intorno alla rispettiva media, per tener conto della correlazione tra i coefficienti. Le stime a poste- riori dei coefficienti di regressione β1 e β2, e dei loro intervalli di credibilità
al 95%, per le analisi separate bayesiane sono riportate nella tabella (4.3), mentre le stime per il joint model sono riportate nella tabella (4.4).
I risultati delle analisi bayesiane, separate e congiunte, sono abbastanza sim- ili.
Una differenza tra le stime dei coefficienti del modello classico e di quello bayesiano longitudinale, sia separato che congiunto, è nell’intercetta e nella
Tabella 4.3: Analisi bayesiana separata: modello ad effetti misti longitudinale e modello di sopravvivenza di Weibull
Parametri Media a posteriori - mod. longitudinale 95% CI Intercetta (β11) 74.83 (73.48, 76.19) occ77c (β12) −2.232 (−2.39, −2.074) occ77c2 (β13) −0.542 (−0.570, −0.514) Att-fisica (β14) 1.297 (0.035, 2.563) Circ-vita (β15) −0.084 (−0.174, 0.006) Ipertensione (β16) −4.717 (−6.468, −2.978) fumo (β17) −3.385 (−5.421 − 1.346) log-album (β18) −2.149 (−3.025, −1.269) log-album*occ77c (β19) −0.243 (−0.354, −0.131) sigma11(Σ11) 151.7 (132.4, 172.9) sigma22(Σ22) 1.253 (1.033, 1.502) cor (ρ) 0.426 (0.328, 0.516) sigma2 81.21 (72.88, 90.33)
Parametri Media a posteriori - mod. Weibull 95% CI Intercetta (β21) −6.449 (−6.918, −6.004) Att-fisica (β22) −0.244 (−0.373, −0.115) Circ-vita (β23) 0.007 (−0.003, 0.016) Ipertensione (β24) 0.341 (0.170, 0.513) Fumo (β25) 0.359 (0.168, 0.548) log-album (β26) 0.133 (0.067, 0.198) età-visita (β27) 0.127 (−0.011, 0.265)
Tabella 4.4: Analisi bayesiana congiunta
Parametri Media a posteriori - joint model 95% CI Intercetta (β11) 74.28 (72.9, 75.66) occ77c(β12) −2.357 (−2.531, −2.185) occ77c2(β13) −0.548 (−0.577, −0.520) Att-fisica(β14) 1.371 (0.089, 2.653) Circ-vita (β15) −0.085 (−0.176, 0.007) Ipertensione (β16) −4.762 (−6.520, −2.997) Fumo (β17) −3.492 (−5.529, −1.455) log-album (β18) −2.319 (−3.200, −1.441) log-album*occ77c (β19) −0.268 (−0.381, −0.158) sigma11(Σ11) 156.2 (136.2, 178.2) sigma22(Σ22) 1.259 (1.038, 1.512) cor (ρ) 0.442 (0.344, 0.532) sigma2 80.91 (72.64, 90.01) Intercetta (β21) −6.608 (−7.118, −6.125) Att-fisica (β22) −0.253 (−0.385, −0.119) Circ-vita (β23) 0.005 (−0.004, 0.015) Ipertensione (β24) 0.367 (0.190, 0.544) Fumo (β25) 0.394 (0.192, 0.590) log-album (β26) 0.140 (0.071, 0.208) età-visita (β27) 0.088 (−0.055, 0.230) γ1 −0.020 (−0.029, −0.011) γ2 −0.133 (−0.320, 0.047)
variabile relativa all’età all’occasione delle visite. In particolare, rispetto al- l’analisi separata classica, il modello bayesiano congiunto fornisce una stima della media a posteriori dell’intercetta, e quindi un GFR medio al baseline, più bassa (β11, 74.28 vs. 83.71), e una stima della media a posteriori della
variabile occasione alla visita, e quindi una componente lineare del declino del GFR all’avanzare dell’età, più accentuata (occ77c = β12 (-2.36), IC(-2.53,
-2.19) vs. (-1.75) IC(-1.98, 1.51)). Nell’analisi bayesiana l’attività fisica β14
è significativa al livello del 5% (nel senso bayesiano; il 95% degli intervalli di credibilità contiene lo 0), mentre non lo era nel modello classico. L’effetto positivo dell’attività fisica è più rilevante nel joint model rispetto al modello separato bayesiano (1.37 IC(0.09, 2.65) vs. 1.30 IC(0.04 2.56)).
Sia nel modello congiunto che separato bayesiano, le altre variabili che hanno un effetto negativo sul GFR sono l’ ipertensione (-4.72) IC(-6.47, -2.98), il fumo (-3.39) IC(-5.42, -1.35) e la log-albumina nelle urine (-2.15) IC(-3.03, -1.27).
Anche nei modelli di sopravvivenza le stime dei parametri sono simili, con un’effetto negativo sulla sopravvivenza dell’ipertensione, fumo e albumina, ed effetto positivo dell’attività fisica.
La stima a posteriori del parametro di associazione γ1 nell’analisi congiunta
è negativa e ‘significativamente’ diversa da zero, fornendo evidenza di asso- ciazione tra i due sottomodelli, indicando che i valori iniziali del GFR sono negativamente associati con l’hazard di morte. Il parametro di associazione
γ2, che indica l’associazione con la pendenza, invece non è ‘significativo’.
Riportiamo nelle pagine successive dei grafici con diagnostiche dei modelli congiunti e separati bayesiani, in particolare:
ificare la convergenza per i parametri stimati a partire dai tre differenti set di valori iniziali, rispettivamente per il modello bayesiano separato longitu- dinale e di sopravvivenza.
- nelle figure (4.6), (4.7) e (4.8) riportiamo le tracce e le densità a posteriori stimate.
- nelle figure (4.9) e (4.10) riportiamo le statistiche di Gelman e Rubin per investigare la convergenza dei parametri del joint model.
Infine nella figura (4.11) sono rappresentati i valori osservati e i valori previsti secondo il joint model per alcuni individui della coorte ULSAM.
Figura 4.4: Convergenza di Gelman Rubin: modello longitudinale ad effetti casuali bayesiano separato
Figura 4.5: Convergenza di Gelman Rubin: modello di sopravvivenza di Weibull bayesiano separato
Figura 4.10: Convergenza di Gelman Rubin dei parametri del joint model (b)
Figura 4.11: Valori osservati e previsti secondo il joint model per alcuni individui della coorte ULSAM
Conclusioni
La letteratura scientifica sui joint models si è sviluppata molto negli ultimi anni nell’ambito della ricerca biomedica, in particolar modo per l’analisi di dati provenienti da trial clinici, per verificare l’effetto di diverse terapie, o, anche se in maniera minore, per l’analisi di dati su studi osservazionali lon- gitudinali; per entrambi questi tipi di studi si hanno misure ripetute su un insieme di variabili e problemi di osservazioni censurate, che possono portare a casi di missing data o dropout informativo.
Le metodologie sviluppate in letteratura, di interesse in questa tesi, sono basate sull’integrazione dei dati longitudinali e di sopravvivenza, non più analizzati in maniera separata, per tener conto della possibile dipendenza tra specifici biomarker e dati sui tempi all’evento, es. malattia o morte. Vista la complessità computazionale di tali metodi, essi non sono ancora di- ventati routinari nella ricerca biomedica, seppure gli sviluppi metodologici siano stati svariati. In questa tesi abbiamo applicato i joint models secondo un’impostazione bayesiana proposta da Guo e Carlin (2004), utilizzando il software Winbugs.
Abbiamo applicato i joint models ad una coorte di anziani dello studio os- servazionale longitudinale ULSAM, per studiarne la funzianalità renale in relazione ad alcune variabili collegate essenzialmente allo stile di vita. Alcune caratteristiche dei dati, ovvero il basso numero di misure ripetute del
biomarker GFR, l’alta percentuale di dati mancanti e l’andamento non lin- eare del GFR all’avanzare dell’età, rendono difficile una chiara identificazione del declino del GFR e quindi della funzionalità renale nel tempo.
Dall’applicazione dei joint models è risultata una stima del coefficiente di associazione tra il modello longitudinale e di sopravvivenza indotta dalla in- tercetta casuale negativa, per cui ad bassi valori del GFR al baseline è associ- ata una maggiore mortalità. Ciò rispecchia quanto già noto dalla letteratura secondo cui il GFR è un predittore della mortalità, generale e cardiovascolare. L’approccio tramite joint modeling utilizza i dati in maniera efficiente, riducen- do la distorsione dovuta al missing data informativo, poiché produce stime più accurate della forza della associazione tra l’outcome del modello longi- tudinale e il rischio di malattia o morte. Oltretutto tali modelli forniscono stime valide anche nel caso di missing a caso.
Struttura della tesi
Nel primo capitolo abbiamo presentato le modellizzazioni classiche utilizzare generalmente per le analisi di dati longitudinali con outcome continuo e per i dati di sopravvivenza. Per l’analisi dei dati longitudinali sono stati con- siderati i modelli ad effetti casuali a due stadi cosi come proposti da Laird e Ware (1982). Per quanto riguarda l’analisi di sopravvivenza si è posta l’attenzione sui modelli di hazard proporzionale di Weibull. E’ stata inoltre riportata l’impostazione bayesiana di tali modelli. Nel secondo capitolo, dopo aver introdotto il concetto di missing data non casuale (NMAR) o informativo nell’ambito degli studi longitudinali, e presentati i tipi di modelli sviluppati in letteratura per questo tipo di problema statistico, si è focalizzata l’at- tenzione sugli shared parameter models, classe di modelli generale entro la quale rientrano i joint models per dati longitudinali e di sopravvivenza. Nel
terzo capitolo è stata presentata una review dei joint models. Particolare attenzione è stata posta sul modello di Faucett e Thomas (1996), tra i primi a proporre l’impostazione bayesiana. A partire dal loro modello sono state sviluppate svariate estensioni. E’ stato poi presentato il modello di Hender- son et al. (2000), approccio generale che ingloba una serie di joint models sviluppati in precedenza; esso segue l’impostazione frequentista. Nel quar- to capitolo infine sono riportati i risultati dell’applicazione dei joint models, secondo l’impostazione bayesiana di Guo e Carlin (2004), ai dati della coorte ULSAM, ed effettuati i confronti tra le stime derivanti dall’analisi separata classica frequentista, l’analisi bayesiana separata e il joint model.
Bibliografia
Astor B. C., Hallan S. I., Miller E. R. , Yeung, E. and Coresh J. (2008). Glomerular Filtration Rate, albuminuria, and risk of cardiovascular and all cause mortality in the US population. American Journal of Epidemiology,
167, 1226-1234.
Berzuini C. and Larizza C. (1996). A unified approach for modeling longi- tudinal and failure time data, with application in medical monitoring. Ieee
Transactions on Pattern Analysis and Machine Intelligence, 18, N.2, 109-
123.
Brown E.R. and Ibrahim J.G. (2003). A Bayesian semiparametric joint hier- archical model for longitudinal and survival data. Biometrics, 59, 221-228. Carlin B. and Luois (2000). Bayes and Empirical Bayes Methods for Data
Analysis. Chapman Hall.
Carlin B. P., Louis T. A. (2008). Bayesian Methods for Data Analysis, Third Edition. Chapman & Hall.
tion. Chapman & Hall.
Chi YY, Ibrahim JG. (2006). Joint models for multivariate longitudinal and multivariate survival data. Biometrics, 62, 432-445.
Cox D. (1972). Regression models and life tables. Journal of the Royal Sta-
tistical Society, Series B, 34, 187-220.
Cox D. and Oakes D. (1984). Analysis of survival data. Chapman and Hall: London.
DeGruttola V. and Tu X. (1994). Modelling progression of cd4-lymphocyte count and its relationship to survival time. Biometrics, 50, 1003-1014. Dempster A., Laird N., and Rubin D. (1977). Maximum likelihood from incom- plete data via the em algorithm. Journal of the Royal Statistical So-
ciety, Series B, 39, (1) 1-38.
Deslandes E., Chevret S. (2010). Joint modeling of multivariate longitudinal data and the dropout process in a competing risk setting: application to ICU data. BMC Medical Research Methodology, 10:69.
Diggle P. (1988). An approach to the analysis of repeated measurements.
Biometrics, 44, 959-971.
Diggle P., kenward M.G. (1994). Informative dropout in longitudinal data analysis. Applied Statistics, 43, 49-94.
Diggle P., Heagerty P., Liang K., and Zeger S. (2002). Analysis of Longitu-
dinal Data. Oxford University Press.
Dobson A. and Henderson R. (2003). Diagnostics for joint longitudinal and dropout time mod- elling. Biometrics, 59, 741-751.
El Nahas A. M., Bello A. K. (2005). Chronic kidney disease: the global challenge. Lancet, 365, 331-340.
Faucett C. J. and Thomas D. C. (1996), Simultaneously modeling censored survival data and repeatedly measured covariates: A Gibbs sampling ap- proach, Statistics in Medicine, 15, 1663-1685.
Finkelstein D.M. and Schoenfeld D.A. (1999). Combining mortality and lon- gitudinal measures in clinical trials. Statistics in Medicine, 18, 1341-1354. Fitzmaurice G.M., Laird N.M., and Ware J.H. (2004). Applied Longitudinal
Analysis. Hoboken, NJ: Wiley.
Fitzmaurice G., Davidian M., Verbeke G., Molenberghs G. (2009) Longitu-
dinal Data Analysis. Chapman & Hall.
Follmamm D. and Wu M. (1995). An approximate generalized linear mod- el with random effects for informative missing data. Biometrics, 51, 151-168. Gao S. (2004). A shared random effect parameter approach for longitudinal dementia data with non ignorabole missing datas. Statistics in Medicine, 23,
211-219.
Gao S. and Thiebaut R. (2009). Mixed-effect Models for Truncated Longitu- dinal Outcomes with Nonignorable Missing Data, Journal of Data Science,
7, 13-25.
Guo Xu, Carlin B.P.(2004), Separate and joint modelling of longitudinal and event time data using standard computer packages, American Statistical As-
sociation, 58, 16-24
Ha I. D., Park T. and Lee Y. (2003). Joint modelling of repeated measures and survival time data. Biometrical Journal, 45, 647-658.
Harville D. (1977). Maximum likelihood approaches to variance component estimation and to related problems. Journal of the American Statistical As-
sociation, 72, 320-340.
Henderson R., Diggle P., and Dobson, A. (2000), Joint modeling of longitu- dinal measurements and event time data Biostatistics, 4, 465-480.
Hogan J. W. and Laird N. (1997). Model-based approaches to analysing incom- plete longitudinal and failure time data. Statistics in medicine, 16, 259-272.
Hogan J. and Laird N. (1997). Mixture models for the joint distribution of repeated measures and event times. Statistics in Medicine, 16, 239-257.
Huang W. Z., Zeger S. L., Anthony J. C., Garrett E. (2001). Latent variable model for joint analysis of multiple repeated measures and bivariate event times. Journal of the American Statistical Association, 96, 906-914.
Ibrahim J. G., Chen M. H., and Sinha D. (2004). Bayesian methods for joint modeling of longitudinal and survival data with applications to cancer vaccine studies. Statistica Sinica, 14, 847-867.
Kaplan L. and Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53, 457-481. Li L., Hu B., and Greene T. (2009) A Semiparametric Joint Model for Lon- gitudinal and Survival Data with Application to Hemodialysis Study. Bio-
metrics, 65, 737-745.
Lin HQ, McCulloch CE, Mayne ST. (2002). Maximum likelihood estimation in the joint analysis of time-to-event and multiple longitudinal variables.
Statistics in Medicine, 21, 2369-2382.
Laird N. and Ware J. (1982). Random effects in longitudinal data. Biomet-
rics, 38, 963-974.
Larsen K. (2004). Joint analysis of time-to-event and multiple binary indi- cators of latent classes. Biometrics, 60, 85-92.
Little R. (1995). Modeling the dropout mechanism in repeated measures studies. Journal of the American Statistical Association, 90, 1112-1121.
Little R. and Rubin D. (2002). Statistical Analysis with Missing Data, 2nd edition. New York: Wiley.
Liu M. and Ying Z. (2007). Joint analysis of longitudinal data with informa- tive right censoring. Biometrics, 63, 363-371.
Maaravi, Y., Bursztyn, M., Hammerman-Rozenberg,R. and Stessman, J. (2007) Glomerular filtration rate estimation and mortality in an elderly pop- ulation. Q J Med, 100, 441-449.
Marubini E. and Valsecchi M. (2004). Analysing Survival Data from Clinical
Trials and Observational Studies. Wiley: New York.
McCullagh P. and Nelder J. (1989). Generalized Linear Model. Chapman & Hall Ltd.
Molenberghs G. and Kenward M. (2007). Missing Data in Clinical Studies. New York: Wiley.
Nitsch D., Dietrich D. F., von Eckardstein A. et al. (2006), Prevalence of renal impairment and its association with cardiovascular risk factors in a general population: results of the Swiss SAPALDIA study. Nephrol Dial
Transplant, 21, 935-944.
Pawitan Y. and Self S. (1993). Modelling disease marker processes in AIDS.
Prentice R. (1982). Covariate measurement errors and parameter estimation in a failure time regression model. Biometrika, 69, 331-342.
Rabe-Hesketh S., Skrondal A. (2005). Multilevel and Longitudinal Modeling
Using Stata, Second Edition. Stata Press, Texas.
Rifkin D. E. , Katz R. et al. (2010). Albuminuria, impaired kidney function and cardiovascular outcomes or mortality in the elderly. Nephrol Dial Trans-
plant, 25, 1560-1567.
Rizopoulos D., Verbeke G., and Molenberghs G. (2008). Shared parameter models under random effects misspecification. Biometrika, 95, 63-74.
Robins J.M., Rotnitzky A. and Zhao L.P. (1995). Analysis of semiparamet- ric regression models for repeated outcomes in the presence of missing data.
Journal of the American Statistical Association, 90, 106-121.
Robinson-Cohen C., Katz R., Mozaffarian D. et al. (2009) Physical Activi- ty and Rapid Decline in Kidney Function Among Older Adults Arch Intern
Med.. 169(22), 2116-2123.
Rubin D. B. (1976). Inference and missing data. Biometrika, 63, 581-592. Schluchter M. (1992). Methods for the analysis of informatively censored longitudinal data. Statistics in Medicine, 11, 1861-1870.
Schluchter M. D., Greene T., and Beck G. J. (2001). Analysis of change in the presence of informative censoring: Application to a longitudinal clinical trial of progressive renal disease. Statistics in Medicine, 20, 989-1007. Shlipak M. G., Katz R., Kestenbaum B. et al. (2009) Rate of kidney func- tion decline in older adult: a comparison using creatinine and cystatin C.
American Journal of Nefrology, 30, 171-178.
Song X., Davidian M., and Tsiatis A. (2002). A semiparametric likelihood approach to joint modelling of longitudinal and time to event data. Biomet-
rics, 58, 742-753.
Song X., Davidian M., and Tsiatis A. A. (2002). An estimator for the pro- portional hazards model with multiple longitudinal covariates measured with errors. Biostatistics, 3, 511-528.
Spiegelhalter D., Best N., Carlin B., and van der Linde A. (2002). Bayesian measure of model complexity and fit. Journal of the Royal Statistical Society, Series B, 64, 3, 583-639.
Stevens L. A. , Schmid C. H. , Greene T. et al. (2009) Factors other than glomerular filtration rate affect serum cystatin C levels. Kidney Internation-
al. 75, 652-660.
Tsiatis A. and Davidian M. (2004). Joint modeling of longitudinal and time- to-event data: An overview. Statistica Sinica, 14, 809-834.
Tsiatis A., DeGruttola V., and Wulfsohn M. (1995). Modeling the relation- ship of survival to longitudinal data measured with error. Applications to survival and CD4 counts in patients with AIDS. Journal of the American
Statistical Association, 90, 27-37.
Verbeke G. and Molenberghs G. (2000). Linear Mixed Models for Longitudi-
nal Data. New York: Springer-Verlag.
Vonesh E. F., Greene T. and Schluchter M. D.(2006). Shared parameter models for the joint analysis of longitudinal data with event times. Statistics
in Medicine, 25, 143-163.
Wang Y. and Taylor M. (2001). Jointly modeling longitudinal and event time data with application to acquired immunodeficiency syndrome. Journal of
American Statistical Association, 455, 895-905.
Wu L. (2002). A joint model for nonlinear mixed-effects models with censor- ing and covariates measured with error, with application to AIDS studies.
Journal of American Statistical Association, 97, 955-964.
Wu M. C. and Bailey K. (1988). Analysing changes in the presence of informative right censoring caused by death and withdrawal. Statistics in
Medicine, 7, 337-346.
Wu M. and Carroll R. (1988). Estimation and comparison of changes in the presence of informative right censoring by modeling the censoring process.
Wulfsohn M. S. and Tsiatis A. A. (1997), A joint model for survival and longitudinal data measured with error, Biometrics, 53, 33–339.
Xu J. and Zeger S. L. (2001), Joint analysis of longitudinal data comprising repeated measures and times to events, Applied Statistics, 50, 375-387. Zeng D., Cai J. (2005). Simultaneous modelling of survival and longitudinal data with an application to repeated quality of life measures. Lifetime Data