• Non ci sono risultati.

Análisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados

N/A
N/A
Protected

Academic year: 2021

Condividi "Análisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados"

Copied!
184
0
0

Testo completo

(1)Análisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados Sandra Esperanza Melo Martínez. ADVERTIMENT. La consulta d’aquesta tesi queda condicionada a l’acceptació de les següents condicions d'ús: La difusió d’aquesta tesi per mitjà del servei TDX (www.tdx.cat) ha estat autoritzada pels titulars dels drets de propietat intel·lectual únicament per a usos privats emmarcats en activitats d’investigació i docència. No s’autoritza la seva reproducció amb finalitats de lucre ni la seva difusió i posada a disposició des d’un lloc aliè al servei TDX. No s’autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant al resum de presentació de la tesi com als seus continguts. En la utilització o cita de parts de la tesi és obligat indicar el nom de la persona autora.. ADVERTENCIA. La consulta de esta tesis queda condicionada a la aceptación de las siguientes condiciones de uso: La difusión de esta tesis por medio del servicio TDR (www.tdx.cat) ha sido autorizada por los titulares de los derechos de propiedad intelectual únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro ni su difusión y puesta a disposición desde un sitio ajeno al servicio TDR. No se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al resumen de presentación de la tesis como a sus contenidos. En la utilización o cita de partes de la tesis es obligado indicar el nombre de la persona autora.. WARNING. On having consulted this thesis you’re accepting the following use conditions: Spreading this thesis by the TDX (www.tdx.cat) service has been authorized by the titular of the intellectual property rights only for private uses placed in investigation and teaching activities. Reproduction with lucrative aims is not authorized neither its spreading and availability from a site foreign to the TDX service. Introducing its content in a window or frame foreign to the TDX service is not authorized (framing). This rights affect to the presentation summary of the thesis as well as to its contents. In the using or citation of parts of the thesis it’s obliged to indicate the name of the author..

(2) 0 −20. −10. tasaglob. 10. 20. An´ alisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados. 0. 100. 200. 300. 400. dinacimi. Sandra Esperanza Melo Mart´ınez.

(3)

(4) An´ alisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados. Memoria presentada por: Sandra Esperanza Melo Mart´ınez para optar al t´ıtulo de doctor por la Universidad de Barcelona. Doctorando: Sandra Esperanza Melo Mart´ınez. Firma: Director: Carles Maria Cuadras I Avellana. Firma:. Universidad de Barcelona Facultad de Biolog´ıa Programa de Doctorado en Estad´ıstica Departamento de Estad´ıstica Barcelona, Mayo de 2012.

(5)

(6) Dedicatoria A mi mam´a Mar´ıa y a mis hermanos Oscar y Carlos por ser las personas m´as importantes, valiosas y especiales en mi vida..

(7)

(8) Agradecimientos. Agradezco de manera especial a mi director el Doctor Carles Cuadras por ser el mejor profesor que tuve durante mis estudios de doctorado, gracias por sus valiosas ense˜ nanzas durante mis estudios en Barcelona. Por haber aceptado dirigirme la tesis a pesar de su prejubilaci´on, por su valiosa colaboraci´on, amabilidad, disponibilidad, pertinentes observaciones para hacer de este un mejor trabajo y por contribuir a formarme como investigadora. Quiero expresar mis agradecimientos en especial a mi hermano Oscar quien me ha apoyado constantemente durante toda mi vida, quien siempre ha confiado en m´ı, me ha dado a´nimos y motivaci´on para seguir adelante. Muchas gracias por su colaboraci´on, pertinentes consejos, aclaraciones y paciencia a lo largo de mi vida. Que bueno es haber tenido la fortuna de compartir los estudios de doctorado y algunas clases en la universidad, adem´as de muchas horas de estudio, dedicaci´on, concentraci´on y trabajo. Tambi´en, quiero agradecer a mi hermano Carlos con quien iniciamos este proceso de estudios del doctorado y con quien compartimos como compa˜ neros de estudio en todas las materias y nos apoyamos constantemente durante nuestra estad´ıa en Barcelona. Muchas gracias por su colaboraci´on, porque compartimos muchos momentos agradables, porque siempre cont´e con su apoyo lo que hizo m´as corta nuestra estad´ıa lejos de la familia. Puedo decir que han sido muchas horas de estudio y trabajo, en el grupo de investigaci´on de la familia Melo (Oscar, Carlos y Sandra), sin este grupo todo habr´ıa sido m´as dif´ıcil, me siento afortunada de poder haber estudiado con mis dos hermanos, pues aprend´ı muchas cosas de ellos durante estos a˜ nos. Agradezco a Jos´e Enrique Berm´ udez a quien conoc´ı en Barcelona, pues ha sido una persona muy importante y especial para m´ı. Gracias por apoyarme en los momentos dif´ıciles del trabajo, por confiar en mis capacidades, por su grandiosa amistad y consejos que hicieron mi estad´ıa m´as grata en Barcelona. Mi agradecimiento tambi´en para Carlos Gil Bellosta presidente de R en Espa˜ na, por su valiosa colaboraci´on, amistad y soluci´on oportuna de algunas dudas con el R. El agradecimiento m´as profundo a mi madre por ser la mejor mam´a del mundo, pues siempre nos ha guiado para ser buenas personas, porque con su constante esfuerzo y dedicaci´on logro llevarnos hasta donde hemos llegado hoy en d´ıa, sin ella este sue˜ no no habr´ıa sido posible. A mi padre, que a pesar de la distancia siempre estuvo atento para saber c´omo iba mi proceso de estudios en Espa˜ na. A los profesores del doctorado gracias por sus ense˜ nanzas impartidas, y quienes fueron muy comprensivos en los momentos que tuve dificultades con mi estad´ıa en Barcelona..

(9) Quiero agradecer a la Fundaci´on Carolina por haberme otorgado una beca para realizar mis estudios de doctorado en Barcelona y por sus actividades para darnos a conocer la ciudad. Tambi´en, agradezco a la Universidad de Barcelona por acogerme durante estos cuatro a˜ nos de estudio y por las ense˜ nanzas adquiridas durante este tiempo. Finalmente, no puede faltar mi agradecimiento a la Universidad Nacional de Colombia, donde llevo varios a˜ nos de formaci´on acad´emica, pues all´ı realice mis estudios de Estad´ıstica, me forme como profesional, tambi´en realice el master y es el lugar donde ahora trabajo como docente. Muchas gracias, por darme la oportunidad de ir a otro pa´ıs a realizar mis estudios de doctorado y por apoyarme durante estos a˜ nos de estudio. A todos ellos muchas gracias..

(10) Contenido Lista de tablas. vi. Lista de figuras. vii. Prefacio. 1. 1 Introducci´ on. 3. Objetivos. 10. 2 Inferencia en la aproximaci´ on basada en distancias en el an´ alisis de datos longitudinales 13 2.1. 2.2. 2.3. 2.4. Modelo multivariante: aspectos inferenciales . . . . . . . . . . . 15 2.1.1. Aproximaci´on basada en distancias en el modelo longitudinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. 2.1.2. Estimaci´on de par´ametros . . . . . . . . . . . . . . . . . 21. 2.1.3. Modelo restringido . . . . . . . . . . . . . . . . . . . . . 24. 2.1.4. Pruebas de hip´otesis lineales . . . . . . . . . . . . . . . . 26. Aproximaci´on basada en distancias en asociaci´on multivariante . 32 2.2.1. Medidas de asociaci´on multivariante. . . . . . . . . . . . 33. 2.2.2. Predicci´on de un nuevo individuo . . . . . . . . . . . . . 36. 2.2.3. Relaci´on con el modelo longitudinal cl´asico . . . . . . . . 37. Simulaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.3.1. Detalles de la simulaci´on . . . . . . . . . . . . . . . . . . 39. 2.3.2. Resultados y Discusi´on . . . . . . . . . . . . . . . . . . . 39. Aplicaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 i.

(11) 3 Aproximaci´ on basada en distancias en an´ alisis de datos longitudinales univariantes 49 3.1. 3.2. 3.3. 3.4. Modelos de covarianza, estimaci´on de par´ametros y aspectos inferenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.1.1. Patrones de covarianza . . . . . . . . . . . . . . . . . . . 51. 3.1.2. Estimaci´on de par´ametros . . . . . . . . . . . . . . . . . 54. 3.1.3. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . 62. Modelos param´etricos para la estructura de covarianza . . . . . 63 3.2.1. Modelos de covarianza . . . . . . . . . . . . . . . . . . . 64. 3.2.2. Criterios de selecci´on para la estructura σ 2 Ψ . . . . . . . 67. 3.2.3. Inferencia sobre la estructura de la matriz de varianzas y covarianzas . . . . . . . . . . . . . . . . . . . . . . . . 68. 3.2.4. Predicci´on de un nuevo individuo . . . . . . . . . . . . . 70. Simulaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.3.1. Detalles de la simulaci´on . . . . . . . . . . . . . . . . . . 71. 3.3.2. Resultados y discusi´on . . . . . . . . . . . . . . . . . . . 71. Aplicaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73. 4 Aproximaci´ on univariante a las curvas de crecimiento con distancias 77 4.1. Construcci´on del modelo basado en distancias en curvas de crecimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78. 4.2. Ajuste del modelo y estimaci´on en el caso univariante . . . . . . 81 4.2.1. Estimaci´on de par´ametros . . . . . . . . . . . . . . . . . 82. 4.2.2. Predicci´on de un nuevo individuo . . . . . . . . . . . . . 83. 4.2.3. Hip´otesis de inter´es y pruebas estad´ısticas . . . . . . . . 85. 4.3. Hip´otesis de inter´es . . . . . . . . . . . . . . . . . . . . . . . . . 86. 4.4. Distribuciones asociadas a las formas cuadr´aticas . . . . . . . . 88 4.4.1. 4.5. Distribuci´on de la suma de cuadrados del error y del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91. An´alisis de varianza y estad´ısticos de prueba . . . . . . . . . . . 92 4.5.1. Estad´ıstico de prueba para el ajuste del modelo . . . . . 92. 4.5.2. Algunas consideraciones del estad´ıstico de prueba F . . . 93.

(12) 4.6. Aplicaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95. 5 Modelos lineales generalizados 5.1. Familia exponencial . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.1.1. 5.2. Estimaci´on de par´ametros en un MLG . . . . . . . . . . 105. Quasiverosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.3.1. 5.4. Momentos de la familia exponencial . . . . . . . . . . . . 102. Modelos lineales generalizados . . . . . . . . . . . . . . . . . . . 103 5.2.1. 5.3. 101. Estimaci´on de par´ametros v´ıa quasiverosimilitud . . . . . 108. Ecuaciones de estimaci´on generalizada . . . . . . . . . . . . . . 110 5.4.1. Selecci´on de la matriz de correlaci´on . . . . . . . . . . . 112. 5.4.2. Modelamiento conjunto de media y varianza en EEG . . 113. 5.4.3. Selecci´on de modelos y bondad de ajuste en EEG . . . . 115. 6 An´ alisis de datos longitudinales mediante distancias en modelos lineales generalizados 117 6.1. Modelo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . 117. 6.2. Inferencia sobre el modelo propuesto . . . . . . . . . . . . . . . 118. 6.3. Sobredispersi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 123. 6.4. Metodolog´ıa aplicada . . . . . . . . . . . . . . . . . . . . . . . . 124. 6.5. 6.4.1. El modelo para los datos contables repetidos sobredispersos124. 6.4.2. Ecuaciones de estimaci´on para los par´ametros de regresi´on y sobredispersi´on . . . . . . . . . . . . . . . . . . 126. 6.4.3. Ecuaciones iterativas de β y c . . . . . . . . . . . . . . . 128. 6.4.4. Estimaci´on de los par´ametros de correlaci´on longitudinal 129. Aplicaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.5.1. Descripci´on de las variables y construcci´on del modelo . 132. 6.5.2. Bondad de ajuste del modelo propuesto . . . . . . . . . . 133. 6.5.3. An´alisis de los datos bajo una distribuci´on Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . 135. 7 Conclusiones. 143.

(13) Bibliograf´ıa. 146. A Tablas de la simulaci´ on en datos longitudinales mixtos. 157.

(14) Lista de tablas 2.1. Simulaci´on con estructura de correlaci´on AR(1) . . . . . . . . . 40. 2.2. Simulaci´on con estructura de correlaci´on compuesta sim´etrica . 41. 3.1. Simulaci´on con estructura de correlaci´on compuesta sim´etrica . 72. 3.2. Simulaci´on con estructura de autocorrelaci´on AR(1) . . . . . . . 73. 4.1. An´alisis de varianza para verificar el ajuste del modelo. . . . . . 92. 5.1. Algunas distribuciones de la familia (5.2) . . . . . . . . . . . . . 103. 5.2. Enlaces can´onicos . . . . . . . . . . . . . . . . . . . . . . . . . . 105. 5.3. Algunas funciones de quasiverosimilitud. . . . . . . . . . . . . . 108. 6.1. Resumen pruebas de hip´otesis . . . . . . . . . . . . . . . . . . . 122. 6.2. Criterios para valorar la bondad de ajuste bajo el modelo Binomial Negativo con MLG en DB . . . . . . . . . . . . . . . . . . 135. 6.3. Estimaci´on GEE de par´ametros utilizando el m´etodo DB . . . . 136. 6.4. Criterios para valorar la bondad de ajuste bajo una Binomial Negativa utilizando el MLG cl´asico . . . . . . . . . . . . . . . . 138. 6.5. Estimaci´on GEE de par´ametros en el modelo cl´asico . . . . . . . 139. 6.6. Criterios para valorar la bondad de ajuste bajo una Binomial Negativa utilizando el MLG cl´asico . . . . . . . . . . . . . . . . 139. 6.7. Estimaci´on GEE de par´ametros . . . . . . . . . . . . . . . . . . 140. A.1 Simulaci´on con estructura de correlaci´on compuesta sim´etrica, m=4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 A.2 Simulaci´on con estructura de correlaci´on compuesta sim´etrica, m=10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 v.

(15) A.3 Simulaci´on con estructura de correlaci´on compuesta sim´etrica, m=7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 A.4 Simulaci´on con estructura de correlaci´on AR(1), m=4 . . . . . . 161 A.5 Simulaci´on con estructura de correlaci´on AR(1), m=7 . . . . . . 162 A.6 Simulaci´on con estructura de correlaci´on AR(1), m=7 . . . . . . 163 A.7 Simulaci´on con estructura de correlaci´on AR(1), m=4 . . . . . . 164 A.8 Simulaci´on con estructura de correlaci´on AR(1), m=10 . . . . . 165 A.9 Simulaci´on con estructura de correlaci´on compuesta sim´etrica, m=4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 A.10 Simulaci´on con estructura de correlaci´on compuesta sim´etrica, m=7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167.

(16) Lista de figuras 2.1. AIC para DB y an´alisis cl´asico por tama˜ no de muestra, en estructuras de autocorrelaci´on AR(1) y compuesta sim´etrica . . . 42. 2.2. BIC para DB y an´alisis cl´asico por tama˜ no de muestra, en estructuras de autocorrelaci´on AR(1) y compuesta sim´etrica . . . 43. 2.3. Gr´afico de Tolerancia en funci´on de la edad por g´enero . . . . . 45. 2.4. Tolerancia vs predicciones utilizando los m´etodos DB y cl´asico en funci´on de la edad por individuo mediante MANOVA . . . . 47. 3.1. Varianza generalizada de los errores para DB (E1 ) y an´alisis cl´asico (E2 ) por tama˜ no de muestra, en estructuras de autocorrelaci´on AR(1) y compuesta sim´etrica . . . . . . . . . . . . . . . 74. 3.2. Tolerancia vs predicciones usando ambas aproximaciones por edad 76. 4.1. Concentraci´on de silicio por tratamiento y tiempo . . . . . . . . 96. 4.2. Perfiles medios de los tiempos a trav´es de los tratamientos . . . 97. 4.3. Perfiles medios de los tratamientos a trav´es de los tiempos . . . 97. 4.4. Concentraci´on de silicio vs predicciones bajo ambas aproximaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99. 6.1. Distribuci´on de entradas con polen . . . . . . . . . . . . . . . . 131. 6.2. Gr´afico de validaci´on de supuestos MLG con DB . . . . . . . . . 137. 6.3. Gr´afico de validaci´on de supuestos MLG cl´asico . . . . . . . . . 138. 6.4. Entradas con polen vs predicciones usando MLG en DB y cl´asico en funci´on del tiempo . . . . . . . . . . . . . . . . . . . . . . . . 141. 6.5. Entradas con polen vs predicciones usando MLG en DB y MLG cl´asico en funci´on del tiempo y mas componentes . . . . . . . . 141. vii.

(17) viii.

(18) Prefacio Varias t´ecnicas se han propuesto para el an´alisis de datos longitudinales y multivariantes. Algunas de ´estas exploran la relaci´on entre los datos observados en los puntos del tiempo sucesivos, teniendo en cuenta tales relaciones en los modelos utilizados para la representaci´on de estos datos. Ejemplos de estas t´ecnicas son el an´alisis de los factores longitudinales, an´alisis de factores din´amicos, an´alisis multivariante de series temporales, modelamiento espacioestado Jørgensen et al. (1996) y an´alisis de curvas de crecimiento Chaganty & Mav (2007). Estas t´ecnicas est´an todas basadas en suposiciones de la distribuci´on que no siempre pueden ser plausibles en la pr´actica. Desde una perspectiva cl´asica, los datos longitudinales han sido analizados mediante el modelo del an´alisis de la varianza (ANOVA) o multivariante (MANOVA) de las medidas repetidas. Sin embargo, recientemente, han emergido una serie de modelos de an´alisis que superan, en m´ ultiples aspectos, a los modelos cl´asicos. Todos ellos se subsumen bajo un modelo m´as amplio, conocido como modelo lineal general mixto. Estos modelos son abordados en una variedad de a´reas, donde las observaciones son tomadas sobre m´ ultiples puntos en el tiempo y medidas en una caracter´ıstica particular, con frecuencia llamada una variable respuesta, para investigar los patrones temporales de cambio en las caracter´ısticas. Por ejemplo, a ciertos estudiantes se les puede realizar una prueba est´andar repetidamente durante varios meses, la satisfacci´on de clientes dirigida a una marca en particular se puede medir cada trimestre, el efecto de cierta droga en un grupo de animales, las concentraciones de az´ ucar en la sangre tambi´en se pueden observar a trav´es del tiempo y as´ı en diferentes a´reas se pueden encontrar innumerables situaciones similares. Lo cual motiva a abordar este tipo de datos, proponiendo una metodolog´ıa basada en distancias con algunas variantes para el an´alisis que permita adem´as tener ciertas ganancias en cuanto a predicci´on. Por otra parte, se ha visto que datos de este tipo son usualmente analizados por el modelo de curvas de crecimiento, iniciado por Potthoff & Roy (1964), y extensivamente estudiado por numerosos autores como Hwang et al. (2004), Sabo & Chaganty (2009), Chaganty & Mav (2007) entre otros como ya se menciono antes, lo cual tambi´en motiva a abordar las curvas de crecimiento 1.

(19) 2 haciendo uso de distancias. Es importante tener en cuenta que, en los u ´ltimos trabajos en el a´rea se supone multinormalidad y en la pr´actica este supuesto usualmente no es satisfecho en muchos casos, por lo cual en el trabajo se hace una adaptaci´on con modelos lineales generalizados, haciendo uso de las ecuaciones de estimaci´on generalizadas para estimar los par´ametros del modelo. Adem´as, la motivaci´on surge por varios problemas que se encuentran de tipo pr´actico en las diferentes a´reas del conocimiento tales como las citadas anteriormente. En la pr´actica se encuentran varios estudios donde se realizan mediciones sobre un mismo individuo a trav´es del tiempo, y otros con varias variables respuesta en funci´on de ciertas variables independientes que en muchos casos se analizan en forma univariante a trav´es de an´alisis de varianzas, siendo muy importante para el agr´onomo, por ejemplo, ver cu´al es el efecto de los tratamientos sobre todas las variables respuesta que fueron medidas y obtener as´ı el mejor tratamiento que produzca el mejor efecto en el experimento, de tal forma que se puedan tomar buenas y mejores decisiones en la pr´actica. No solo eso, sino que tambi´en en los u ´ltimos trabajos que se han abordado a trav´es de distancias se han visto ganancias importantes en predicci´on con respecto a otro tipo de m´etodos que emplean otro tipo de criterios para realizar las predicciones, y en muchos casos pr´acticos resulta importante poder hacer buenas predicciones con el modelo ajustado, por lo cual es interesante abordar el estudio de datos longitudinales y datos multivariantes usando distancias ya que adicionalmente es un campo de trabajo por donde aun se pueden hacer varios aportes te´oricos y es posible proponer nuevos m´etodos de an´alisis teniendo como soporte te´orico algunos de los trabajos que ya se han hecho sobre este campo. Por tal raz´on, resulta interesante desarrollar este trabajo para ver as´ı las ventajas y desventajas que puede proporcionar esta propuesta respecto a otras metodolog´ıas ya existentes, adem´as de proporcionar a los investigadores en el ´area y usuarios de la estad´ıstica otros m´etodos para el an´alisis de este tipo de datos, esperando ofrecer alguna ganancia respecto a otro tipo de m´etodos..

(20) Cap´ıtulo 1 Introducci´ on Son muchos los fen´omenos de la vida cotidiana que se salen de las manos al intentar traducirlos a un lenguaje simb´olico propio de la disciplina estad´ıstica. En consecuencia, se cae en el abismo de ajustar dichos fen´omenos a los modelos que se tiene a disposici´on, en lugar de permitir que los datos “hablen por s´ı solos”. El intento por acercar la teor´ıa a las situaciones reales ha motivado el desarrollo de t´ecnicas estad´ısticas encaminadas a encontrar modelos cada vez m´as generales que respondan fielmente a los objetivos del investigador en correspondencia con la realidad. Por tal raz´on, en ´este trabajo se aborda el an´alisis de datos longitudinales desde diferentes perspectivas, a trav´es de distancias entre pares de observaciones respecto a las variables explicativas. Inicialmente, se hace una revisi´on bibliogr´afica para ver el estado del arte a la fecha. Se inicia la revisi´on con los datos multidimensionales que surgen cuando un n´ umero diferente de variables respuesta son requeridos para medir los resultados de inter´es. Ejemplos de tales resultados incluyen calidad de vida, capacidad cognitiva, investigaciones biol´ogicas, agron´omicas, sociales y de la salud, entre otros, donde se realizan mediciones a lo largo del tiempo sobre una variable dependiente, o sobre varias variables dependientes. El an´alisis de estos datos resulta algo complejo, debido a la presencia de correlaci´on entre las medidas repetidas en el tiempo, como tambi´en entre las variables respuesta. Existen diferentes m´etodos para abordar este tipo de datos, tales como el modelo mixto multivariante o modelo doblemente multivariante (Boik 1991), pero ambos enfoques asumen una distribuci´on normal multivariante y homogeneidad de las matrices de covarianzas a trav´es de los niveles del factor de agrupaci´on, adem´as de independencia entre las observaciones de diferentes individuos y covariables independientes del tiempo. No obstante, un problema que se presenta cuando hay desviaciones de uno o m´as de estos supuestos, conllevan a que no se controle las tasas de error tipo I y por consiguiente 3.

(21) 4. Cap´ıtulo 1. Introducci´ on. se altera el proceso de inferencia. Sin embargo, algunos autores han estudiado este problema de c´omo controlar las tasas de error tipo I para dise˜ nos balanceados y desbalanceados cuando la condici´on de homogeneidad de covarianzas no es sostenible (Keselman & Lix 1997, Kowalchuk et al. 2003, Lix & Algina 2003, Welch 1951). Adem´as, pruebas para efectos de tratamientos en medidas repetidas combinando m´etodos Bootstrap y medias recortadas son estudiadas por Keselman et al. (2000), donde se muestra que se puede controlar y disminuir el error tipo I. Cabe agregar que algunos otros autores han abordado el problema de datos longitudinales de respuesta multivariante; es as´ı, el caso del art´ıculo de Gray (2000) donde se desarrolla una metodolog´ıa para estimar un efecto de tratamiento de datos multidimensionales que han sido recolectados longitudinalmente, usando respuestas en el tiempo al evento, continuas o discretas o una mezcla de este tipo de respuestas. Una transformaci´on de la escala de tiempo que no depende de las unidades de las variables respuesta se utiliza para capturar el efecto de los tratamientos. Esta informaci´on permite sobre el efecto de los tratamientos, la combinaci´on a trav´es de las variables respuesta de diferentes tipos. Luego, el modelo se espec´ıfica usando un par de modelos de regresi´on, para los primeros dos momentos, y se utilizan ecuaciones de estimaci´on generalizadas para la estimaci´on de los par´ametros. Adicionalmente, datos multidimensionales surgen tambi´en en agronom´ıa y otras ´areas del conocimiento, cuando un n´ umero diferente de variables respuesta son medidas. En muchas instancias, estas variables de respuesta m´ ultiple son destinadas a medir un resultado fundamental de inter´es que no puede ser capturado por una sola variable respuesta. Una importante complejidad de los datos de respuesta m´ ultiple es que las variables respuestas pueden ser definidas sobre diferentes escalas num´ericas. Adem´as de variables continuas, las medidas tomadas sobre el tiempo constan tambi´en de variables discretas, variables tiempo a evento o una mezcla de estos tres tipos de variables respuesta (Gray 2000). De esta manera, datos de respuesta multivariante se han discutido extensivamente en la literatura por varios autores, entre ellos Li et al. (2003), quienes propusieron un m´etodo para reducir la dimensionalidad de variables respuestas, haciendo uso de regresi´on inversa en rodajas (SIR). El enfoque de esta a´rea es reducir la dimensionalidad de las variables regresoras al caso univariante, tambi´en hay m´as trabajos donde se asume que la variable respuesta es univariante. SIR es un m´etodo para encontrar vectores en la reducci´on de la dimensi´on efectiva (Li 1991), bajo una condici´on de linealidad para las variables independientes. Tambi´en, una discusi´on detallada es dada para el caso donde la respuesta es una curva medida en puntos fijos. El problema de este ajuste es seleccionar funciones base para ajustar un agregado de curvas. Adicionalmente, varios libros sobre este tema han sido publicados, entre los que.

(22) 5 se destacan los trabajos de Diggle et al. (1994), Jones (1993), Lindsey (1993), Rencher (2002), Diggle et al. (2002) y Molenberghs & Verbeke (2005). Algunos autores han abordado el problema usando modelos de curvas de crecimiento, iniciado por Potthoff & Roy (1964) y estudiado extensivamente por muchos autores, incluyendo Rao (1965), Khatri (1966), Grizzle & Allen (1969), Laird & Ware (1982), Crowder & Hand (1990), Kshirsagar & Boyce (1995), entre muchos otros. Asimismo, entre otras metodolog´ıas estudiadas para abordar el an´alisis de datos de respuesta multivariante est´an el an´alisis de componentes principales (ACP), ´este es quiz´as un m´etodo conocido para reducir la dimensionalidad. Por ejemplo, ACP puede ser aplicado en una regresi´on para reducir la dimensi´on de los regresores, pero este procedimiento se lleva a cabo sin usar las variables respuestas, es bastante previsible que las variables regresoras m´as importantes se pueden perder durante el proceso de reducci´on (Li et al. 2003). En este caso, se trabaja con regresi´on inversa en rodajas, que es un m´etodo para encontrar vectores en el “Espacio Reducci´on de Dimensi´on Efectiva” (EDR) bajo una condici´on de linealidad que ha sido discutida extensivamente en la literatura por varios autores, (ver Li et al. (2003)). Entre otros autores que han trabajado en este tema se encuentran Chaganty & Naik (2002), quienes consideran el an´alisis de datos longitudinales multivariantes asumiendo una escala m´ ultiple de producto Kronecker en la estructura de correlaci´on para la matriz de covarianzas de las observaciones sobre cada sujeto. El m´etodo usado para la estimaci´on de los par´ametros es el m´etodo cuasi-m´ınimos cuadrados, m´etodo desarrollado en los siguientes cuatro art´ıculos: Chaganty (1997), Shults & Chaganty (1998), Chaganty & Shults (1999) y Chaganty & Naik (2002), quienes muestran que las ecuaciones de estimaci´on para los par´ametros de correlaci´on en el m´etodo cuasi-m´ınimos cuadrados son o´ptimas. Adem´as, las ecuaciones de estimaci´on son insesgadas si los datos provienen de una poblaci´on normal. Por otro lado, una extensi´on de los modelos lineales generalizados al an´alisis de datos longitudinales fue propuesta por Liang & Zeger (1986b), quienes introducen una clase de ecuaciones de estimaci´on generalizadas para analizar datos longitudinales que generan estimaciones consistentes de los par´ametros de regresi´on y de sus varianzas bajo leves condiciones sobre la dependencia del tiempo. Las ecuaciones de estimaci´on se obtienen sin especificar la distribuci´on conjunta de las observaciones de los sujetos; sin embargo, se reducen a las ecuaciones score para resultados gaussianos multivariantes. Estos autores presentan la teor´ıa asint´otica para la clase general de estimadores. Tambi´en, discuten casos donde se asume independencia y dependencia en las estructuras de correlaci´on de cada sujeto. Adicionalmente, Chaganty (1997) muestra un m´etodo para estimar los par´ametros de correlaci´on el cual supera la propuesta de Crowder (1995), para algunas estructuras de correlaci´on, obteniendo esti-.

(23) 6. Cap´ıtulo 1. Introducci´ on. maciones factibles para los par´ametros de correlaci´on. Adem´as, otro de los modelos usados es el de curva de crecimiento. La idea base de este modelo es introducir algunas funciones conocidas, llamadas funciones base, es decir funciones polinomiales, tal que capturen patrones de cambio para medidas dependientes del tiempo. Sin olvidar que, el modelo de curva de crecimiento tradicional fue dise˜ nado para las situaciones donde los individuos son medidos sobre una sola variable respuesta. En Reinsel (1982) se extiende el modelo curva de crecimiento univariante al caso multivariante, donde varias variables respuesta son medidas sobre m´ ultiples puntos en el tiempo. Hwang et al. (2004) estudian el caso donde las variables respuestas no tienen que ser medidas en los mismos puntos del tiempo y no se debe tener el mismo n´ umero de puntos en el tiempo, adem´as muestran que es posible aplicar varias clases de matrices de funci´on base con diferentes rangos a trav´es de las variables respuesta. No obstante, entre los u ´ltimos trabajos en el tema se encuentra el art´ıculo de Sabo & Chaganty (2009) donde adaptan el m´etodo cuasi-m´ınimos cuadrados, proponen un procedimiento robusto para estimar correlaci´on entre variables continuas para el an´alisis de datos del n´ ucleo familiar en cl´ uster. Tambi´en, los estimadores que se obtienen en este procedimiento se comparan con m´axima verosimilitud tradicional y el estimador de momentos, adem´as del ´enfasis en la estimaci´on de las correlaciones dentro de una familia nuclear. Algunos trabajos recientes son el de Genolini & Falissard (2011), quienes desarrollan el paquete KML en R que proporciona una implementaci´on de kmedias, dise˜ nado para trabajar espec´ıficamente en datos longitudinales. Puede funcionar k-medias con las distancias dise˜ nadas para datos longitudinales (como la distancia de Frechet o alguna distancia definida por el usuario). La interfaz gr´afica permite al usuario elegir el n´ umero adecuado de clusters cuando los criterios cl´asicos no son eficientes. Entre otros de los trabajos esta el de Liugen & Lixing (2007), quienes proponen hacer inferencia basada en verosimilitud emp´ırica local para un modelo con coeficientes variables en datos longitudinales. Muestran que la raz´on de verosimilitud emp´ırica es asint´oticamente ji-cuadrado est´andar cuando se emplea suavizamiento. Adem´as, definen un estimador de m´axima verosimilitud emp´ırica con coeficientes variables en el tiempo, muestran la equivalencia asint´otica con el estimador de m´ınimos cuadrados ponderados y la normalidad asint´otica. Adicionalmente, Geraci & Bottai (2007) proponen un nuevo modelo lineal para regresi´on por cuantiles para datos longitudinales que incluye efectos aleatorios, con el fin de dar cuenta de la dependencia entre las observaciones seriales sobre el mismo sujeto. La noci´on de regresi´on por cuantiles es sin´onimo de un an´alisis robusto de la distribuci´on condicional de la variable respuesta..

(24) 7 Tambi´en, presentan una aproximaci´on basada en verosimilitud para la estimaci´on de los cuantiles de la regresi´on que utiliza la densidad de Laplace asim´etrica. Otro trabajo por resaltar es el de Yao et al. (2005), donde se propone un m´etodo no param´etrico para llevar a cabo el an´alisis de componentes principales funcional para el caso de escasos datos longitudinales. El m´etodo tiene por objeto datos longitudinales espaciados irregularmente, donde el n´ umero de medidas repetidas disponible por sujeto es peque˜ no. En contraste, el an´alisis de datos funcional cl´asico requiere un n´ umero grande de medidas espaciadas regularmente por sujeto. En Yao et al. (2005) se asume que las medidas repetidas son localizadas aleatoriamente con un n´ umero aleatorio de repeticiones para cada sujeto y son determinadas por un suavizamiento aleatorio (especificado por sujeto) m´as la trayectoria de los errores de medici´on. Tambi´en, se realiza una estimaci´on parsimoniosa de la estructura de covarianza y la estimaci´on de la varianza de los errores de medici´on. Para desarrollar las metodolog´ıas propuestas en la tesis, se tiene como soporte te´orico los trabajos usando distancias, los cuales son estudiados por Cuadras (1989), donde se hace la aplicaci´on de funciones distancia, junto con an´alisis de coordenadas principales, para algunos problemas multivariantes, a saber regresi´on m´ ultiple, MANOVA y an´alisis discriminante. Tambi´en, el an´alisis discriminante con variables continuas y discretas, as´ı como con datos ordinales, binarios y cualitativos se estudia; asimismo expresiones de distancias entre individuos se proponen y discuten. Adem´as, pruebas multimuestra basadas en distancias para datos multivariantes son estudiadas por Cuadras (2008). En otro trabajo el mismo autor muestra como relacionar dos conjuntos de datos, cuando las observaciones son tomadas sobre los mismos individuos, estudiando algunas medidas de asociaci´on multivariante basadas solamente sobre distancias entre individuos y mostrando una prueba de permutaci´on para decidir si la asociaci´on es significante; en otros trabajos recientes se estudia la regresi´on multivariante basada en distancias (ver Cuadras (2011)). Cabe agregar que, en muchos m´etodos de estad´ıstica y an´alisis de datos se utiliza el concepto geom´etrico de distancia entre individuos o poblaciones, estos m´etodos son aplicados en campos tales como la agronom´ıa, antropolog´ıa, biolog´ıa, gen´etica, psicolog´ıa, entre otros (Arenas & Cuadras (2002)). Las distancias, aparecen en muchos aspectos de la estad´ıstica: contraste de hip´otesis, estimaci´on, regresi´on, an´alisis discriminante, etc. (ver Cuadras (2007)). Tambi´en, Cuadras & Arenas (1990) proponen un m´etodo de regresi´on m´ ultiple basado en el an´alisis de distancias utilizando diferentes m´etricas para el trabajo con variables explicativas continuas y categ´oricas. No obstante, Cuadras et al. (1996) presentan algunos resultados adicionales del modelo basado en distancias (DB).

(25) 8. Cap´ıtulo 1. Introducci´ on. para la predicci´on de variables mezcladas (continuas y categ´oricas) y exploran el problema de informaci´on faltante dando una soluci´on utilizando DB. Uno de los trabajos m´as recientes es el de Esteve et al. (2010), quienes desarrollan un m´etodo donde incluyen t´erminos polinomiales y de interacci´on en la regresi´on basada en distancias, bajo las propiedades de un producto de matrices semiHadamard o Khatri-Rao. Adem´as, Boj et al. (2010), consideran el problema de predecir no-param´etricamente una variable respuesta escalar de un predictor funcional. Tambi´en la implementaci´on de m´ınimos cuadrados parciales para regresi´on basada en distancias es estudiada por Boj, Gran´e, Fortiana & Claramunt (2007). Incluso Boj, Claramunt & Fortiana (2007) proponen una soluci´on al problema de la selecci´on del predictor definiendo una prueba estad´ıstica generalizada y adaptando un m´etodo bootstrap no-param´etrico para estimar sus p-valores. Este trabajo se desarrolla en siete cap´ıtulos: en el Cap´ıtulo 1 se presenta una introducci´on donde se referencian varios autores que han trabajado en el campo de los datos longitudinales y otros que han usado distancias para el ajuste de los modelos. Muestra lo que se ha hecho en este campo de investigaci´on hist´oricamente. En el Cap´ıtulo 2 se propone una metodolog´ıa para el an´alisis de datos longitudinales en aproximaci´on multivariante basado en distancias. Se plantea el modelo, se hace la estimaci´on de los par´ametros y las pruebas de hip´otesis, por lo tanto se realiza la inferencia correspondiente con el modelo propuesto. En el Cap´ıtulo 3 se presenta una metodolog´ıa para analizar datos longitudinales en aproximaci´on univariante, se presenta el modelo y se muestra como realizar la estimaci´on de los par´ametros. En el Cap´ıtulo 4 se presenta una metodolog´ıa para la aproximaci´on univariante a las curvas de crecimiento mediante distancias entre pares de observaciones respecto a las variables explicativas y distancias entre tiempos. Adem´as, se presenta la inferencia correspondiente para el modelo propuesto. En el Cap´ıtulo 5 se presentan algunos aspectos de los modelos lineales generalizados, esenciales para la comprensi´on de la metodolog´ıa propuesta en el Cap´ıtulo 6; en el cual se muestra una metodolog´ıa para analizar datos longitudinales con respuesta no normal haciendo uso de distancias entre pares de observaciones con respecto a las variables explicativas, estimando los par´ametros del modelo por medio de las ecuaciones de estimaci´on generalizadas. En la parte final del Cap´ıtulo se muestra una aplicaci´on real con sobredispersi´on donde se puede ver como funciona la metodolog´ıa propuesta. Finalmente, en el Cap´ıtulo 7 se presentan algunas conclusiones y recomendaciones de este trabajo. En cada uno de los cap´ıtulos se presenta una aplicaci´on y en los Cap´ıtulos 2 y 3 se muestran los resultados de la simulaci´on usando la distancia de Gower con datos mixtos, mediante MANOVA y aproximaci´on univariante en datos longitudinales, donde se encuentran ganancias en el m´etodo DB con respecto al cl´asico. Tambi´en, se desarrollan los programas en R para el an´alisis correspon-.

(26) 9 diente en cada cap´ıtulo, con las diferentes metodolog´ıas propuestas bajo DB y las cl´asicas. Adem´as, en el Cap´ıtulo 6 se utiliza el procedimiento GENMOD del SAS, estos programas se anexan en un CD dentro de la tesis, junto con el programa usado para la simulaci´on de los Cap´ıtulos 2 y 3. De modo que, del trabajo se puede ver que los m´etodos propuestos para modelar problemas de este tipo producen resultados igualmente de robustos que las estrategias cl´asicas de modelamiento de esta misma clase de problemas. En este sentido, se adaptaron las metodolog´ıas existentes en datos longitudinales y multivariantes bajo la estrategia de modelos lineales generalizados mediante distancias. Aunque este tema se ha abordado por otros m´etodos, no se ha estudiado a trav´es de distancias lo cual conlleva a tener una ganancia en las predicciones, ya que es posible agregar mas componentes al modelo mejorando as´ı la calidad de las predicciones. En los Cap´ıtulos 2, 3 y 4 de las metodolog´ıas propuestas para el an´alisis de datos longitudinales se hace uso de distancias entre pares de observaciones con respecto a las variables explicativas, mediante variables explicadas continuas, y funcionan tambi´en en casos con variables explicativas categ´oricas, binarias, mixtas y continuas. Se demuestra que las predicciones generadas son las mismas bajo el modelo propuesto y el cl´asico en los Cap´ıtulos 2 y 3. Pero cuando se tienen datos mixtos usando la distancia de Gower se observa que no se obtienen las mismas predicciones, resultado que se puede ver de la simulaci´on..

(27) 10. Cap´ıtulo 1. Introducci´ on.

(28) Objetivos Objetivos generales • Proponer una metodolog´ıa para analizar datos longitudinales mediante distancias entre pares de observaciones con respecto a las variables explicativas. • Formular un m´etodo para analizar curvas de crecimiento mediante distancias entre pares de observaciones con respecto a las variables explicativas y distancias entre los tiempos. • Plantear un m´etodo de an´alisis longitudinal con respuesta no normal mediante distancias entre pares de observaciones con respecto a las variables explicativas usando modelos lineales generalizados.. Objetivos espec´ıficos • Aplicar las metodolog´ıas propuestas a un caso pr´actico en datos longitudinales y curvas de crecimiento. • Por medio de “M´etodos Montecarlo”, comparar la metodolog´ıa propuesta basada en distancias (DB) con respecto al m´etodo cl´asico en datos longitudinales mixtos usando la distancia de Gower. • Realizar la inferencia para el m´etodo DB propuesto en datos longitudinales.. 11.

(29) 12. Objetivos.

(30) Cap´ıtulo 2 Inferencia en la aproximaci´ on basada en distancias en el an´ alisis de datos longitudinales Desde una perspectiva cl´asica, los datos longitudinales han sido analizados usando el modelo de an´alisis de varianza (ANOVA) o multivariante (MANOVA) con medidas repetidas. Sin embargo, recientemente, han emergido un n´ umero de modelos estad´ısticos que superan en muchos aspectos los modelos cl´asicos. Todos ellos englobados bajo un modelo m´as amplio, conocido como el modelo mixto lineal general. El an´alisis multivariante de varianza, aplicado a datos longitudinales asume que medidas multiples son variables dependientes que est´an correlacionadas en los mismos sujetos. Cuando hay medidas repetidas, MANOVA es una buena alternativa al an´alisis univariante. Los estudios longitudinales est´an caracterizados por los registros de datos que contienen medidas repetidas por sujeto, medidas en varios puntos sobre un eje de tiempo adecuado. El objetivo es con frecuencia estudiar el cambio en el tiempo o la din´amica del tiempo de fen´omenos biol´ogicos tales como crecimiento, fisiolog´ıa, fisiopatolog´ıa y patogenia (M¨ uller 2009). Tambi´en, el inter´es es relacionar estas din´amicas sobre el tiempo para ciertos predictores o respuestas. El an´alisis cl´asico de los estudios longitudinales esta basado en modelos param´etricos los cuales con frecuencia contienen efectos aleatorios como el modelo mixto lineal generalizado (MMLG) de m´etodos marginales tales como las ecuaciones de estimaci´on generalizadas (EEG). El an´alisis longitudinal multivariante ha sido tambi´en estudiado por Gray (2000) quien propone una metodolog´ıa para estimar un efecto de tratamiento de datos longitudinales multidimensionales donde las variables respuesta pueden ser alguna mezcla de variables continuas, discretas y respuestas tiempo a evento. La idea que el efecto de tratamiento puede ser capturado con una. 13.

(31) 14. Cap´ıtulo 2. Inferencia en la aproximaci´ on basada en distancias en el an´ alisis de datos longitudinales. transformaci´on de la escala de tiempo se muestra naturalmente extendido a variables respuesta discretas y tiempo a evento. La ventaja de usar esta aproximaci´on es que los par´ametros de los tratamientos no dependen de la escala de la variable respuesta. A causa de esto, se puede combinar informaci´on sobre el efecto de los tratamientos a trav´es de la variable respuesta en diferentes tiempos. Se utilizan ecuaciones de estimaci´on generalizadas para la estimaci´on de los par´ametros. Por otro lado, Laird & Ware (1982) discutieron la ventaja de trabajar con modelos de efectos aleatorios a dos v´ıas para datos longitudinales, incluyendo modelos de curvas de crecimiento y medidas repetidas como casos especiales. Tambi´en, se combina el m´etodo de m´axima verosimilitud y estimaci´on Bayesiana emp´ırica de los par´ametros del modelo y el uso del algoritmo EM, Jennrich & Schluchter (1986) trabajaron estimaci´on de m´axima verosimilitud bajo un modelo muy general para medidas repetidas. Adem´as presentaron la estimaci´on usando los algoritmos iterativos de Newton Raphson, Fisher Scoring y una combinaci´on de EM con Scoring. Subsecuentemente, Laird et al. (1987) presentaron una aplicaci´on del uso del algoritmo EM para encontrar estimaciones de los par´ametros de un conjunto de medidas repetidas bajo un modelo lineal mixto, a trav´es del m´etodo de m´axima verosimilitud y m´axima verosimilitud restringida. Espec´ıficamente el modelo te´orico, las ecuaciones iterativas que definen el algoritmo, discuten la existencia de soluciones expl´ıcitas en casos de datos balanceados y el c´alculo de valores iniciales para el proceso iterativo. Andreoni (1989) present´o un estudio de modelos de efectos aleatorios para el an´alisis de datos longitudinales desbalanceados en relaci´on al tiempo. Adem´as, Andreoni (1989) mostr´o varios modelos para la estructura media y matrices de covarianza, y present´o una comparaci´on del m´etodo de estimaci´on de m´axima verosimilitud y m´axima verosimilitud restringida usando los algoritmos de Newton Raphson, Scoring Fisher y EM. Adicionalmente, Davis (2002) presenta una descripci´on de los m´etodos estad´ısticos desarrollados para el an´alisis de medidas repetidas, muestra diferentes alternativas para analizar un conjunto de datos, desde el punto de vista descriptivo para modelos mixtos con variable respuesta continua. En la pr´actica varios conjuntos de datos se ajustan a la estructura de un an´alisis multivariante de varianza (MANOVA) pero no est´an en correspondencia con las condiciones de MANOVA (Gower & Krzanowski 1999). Para establecer una base para el an´alisis, Gower & Krzanowski (1999) examinaron la estructura de matrices distancia en la presencia a priori de la agrupaci´on de unidades y mostraron como la distancia de cuadrados total entre las unidades de un conjunto de datos multivariantes puede ser particionada de acuerdo a los factores de una clasificaci´on externa. La partici´on es exactamente an´aloga a la del an´alisis univariante de varianza, proporciona un marco de trabajo para el an´alisis de alg´ un conjunto de datos cuya estructura conforma un MANOVA,.

(32) 2.1 Modelo multivariante: aspectos inferenciales. 15. pero el cual por varias razones no puede ser analizado por esta t´ecnica. En este cap´ıtulo se propone la extensi´on de los m´etodos de estimaci´on basados en distancias en aproximaci´on multivariante a los datos longitudinales, usando distancias entre pares de observaciones con respecto a las variables explicativas en variables respuesta continuas. Se estudian datos balanceados, donde el n´ umero de veces que cada individuo se mide es el mismo, y los tiempos se consideran igualmente espaciados. Se encontraron algunas ventajas en el uso de los m´etodos basados en distancias con aproximaci´on multivariante, tales como: las componentes de la matriz del ACP son independientes, donde las variables originales usualmente no lo son. En las circunstancias donde los investigadores est´an principalmente interesados en hacer predicciones, la metodolog´ıa propuesta es tambi´en u ´til ya que arroja un mejor ajuste que en los modelos cl´asicos cuando componentes adicionales se agregan. Tambi´en, al ser un an´alisis de datos longitudinales, permite a los investigadores hacer predicciones en cada punto del tiempo, lo cual resulta u ´til para estimar datos faltantes. Adem´as, se encontr´o que el uso de esta estrategia para modelar problemas de est´a clase produce resultados igualmente de robustos que la estrategia de modelamiento tradicional y trabaja en casos con variables explicativas categ´oricas, binarias, mixtas y continuas. Adicionalmente, se prob´o que las predicciones generadas son las mismas bajo el modelo propuesto y el modelo cl´asico, excepto en datos mixtos usando la distancia de Gower, este resultado puede verse en la simulaci´on. Este cap´ıtulo es desarrollado en cuatro secciones: en la Secci´on 2.1 es construido el modelo DB con datos longitudinales en aproximaci´on multivariante. Adem´as, es presentando el ajuste del modelo, la estimaci´on de los par´ametros, pruebas de hip´otesis en el caso multivariante y c´omo realizar la selecci´on de las dimensiones principales. En la Secci´on 2.2 se presentan las medidas de asociaci´on multivariante y c´omo hacer la predicci´on de un nuevo individuo. La Secci´on 2.3 muestra los resultados de la simulaci´on para la aproximaci´on multivariante y la Secci´on 2.4 presenta una aplicaci´on de la metodolog´ıa propuesta.. 2.1. Modelo multivariante: aspectos inferenciales. Sea yir que denota la respuesta del individuo i ´esimo para la r-´esima condici´on de evaluaci´on, con i = 1, . . . , n y r = t1 , . . . , tm . Tambi´en se asume que yir es descrito por un modelo lineal general yir = vi0 βr + eir.

(33) 16. Cap´ıtulo 2. Inferencia en la aproximaci´ on basada en distancias en el an´ alisis de datos longitudinales. donde vi = (vi1 , . . . , vip )0 es un vector de p coeficientes espec´ıficos conocidos para el i-´esimo individuo y βr = (β1r , . . . , βpr )0 es un vector de p par´ametros desconocidos. Sea ei = (eit1 , . . . , eitm )0 que denota un vector de m residuales del i-´esimo sujeto, con distribuci´on ei ∼ N M (0m , Σ). El vector nm × 1 es 2 6. e=6 4. e. e1 .. .. 3 7 7 5. en. tiene distribuci´on normal N M (0nm , In ⊗ Σ), donde 0nm denota un vector de ceros de tama˜ no nm × 1, In denota la matriz identidad de dimensi´on n × n y el operador ⊗ denota el producto Kronecker. Entonces, los yi son vectores aleatorios independientes con distribuci´on N M (µi , Σ) donde 2 6. µi = 6 4. µi1 .. .. 3. 2. 7 7 5. =6 4. 6. µim. vi0 β1 .. . vi0 βm. 3 7 7 5. Para garantizar que la matriz de covarianza Σ de los yi sea definida positiva, es decir, todos los valores propios de Σ sean positivos, se debe tener que p ≤ n − m. Con la finalidad de expresar el modelo en forma matricial se definen las siguientes matrices 2 6. Yn×m = 6 4 2 6. β p×m = 6 4. y11 · · · y1m .. . . .. . . . yn1 · · · ynm β11 · · · β1m .. . . .. . . . βp1 · · · βpm. 3. 2. 7 7 5. =6 4. 6. 3 7 7 5. y10 .. . yn0. 2. 3 7 7, 5. 6. Vn×p = 6 4. v11 · · · v1p .. . . . . .. . vn1 · · · vnp. 3. 2. 7 7 5. =6 4. 6. v10 .. . vn0. 3 7 7, 5. = [β1 , . . . , βm ]. y 2 6. en×m = 6 4. e11 · · · e1m .. . . .. . . . en1 · · · enm. 3. 2. 7 7 5. =6 4. 6. e01 .. . e0n. 3 7 7 5. donde Y es la matriz de datos, V es una matriz dise˜ no de rango p ≤ (n−m), β es la matriz de par´ametros desconocidos y e es la matriz de errores aleatorios. Entonces, el modelo matricialmente puede ser escrito como Y =Vβ+e donde E(Y ) = V β y V ar(Y ) = In ⊗ Σ.. (2.1).

(34) 2.1 Modelo multivariante: aspectos inferenciales. 2.1.1. 17. Aproximaci´ on basada en distancias en el modelo longitudinal. Sea Ω = {ω1 , . . . , ωn } un conjunto con n individuos. Sea δii0 = δ(ωi , ωi0 ) = δ(ωi0 , ωi ) ≥ δ(ωi , ωi ) = 0 una funci´on de distancia (o disimilaridad) definida sobre Ω. Sup´ongase que la matriz de distancias con dimensi´on n×n, ∆ = (δii0 ) es Euclidiana. Entonces existe una configuraci´on de puntos v1 , . . . , vn ∈ <p , con vi = (vi1 , . . . , vip )0 , i = 1, . . . , n, tal que δii2 0. =. p X. (vij − vi0 j )2 = (vi − vi0 )0 (vi − vi0 ). (2.2). j=1. Estas coordenadas constituyen la matriz V = (vij ) (definida en el modelo (2.1) de dimensi´on n × p tal que la distancia Euclidiana entre dos individuos i e i0 es igual a δii0 (Cuadras 2008). La distancia definida en (2.2) puede utilizarse cuando todas las variables en la matriz V sean continuas. En tal caso, esta puede ser reemplazada por la distancia valor absoluto que es bastante eficiente δii2 0. =. p X. |vih − vi0 h |. (2.3). h=1. la cual cumple las condiciones de una distancia Euclidiana. Por otro lado, en el modelo (2.1) la matriz V se puede particionar como V = (V1 V2 ) donde V1 es una submatriz de variables continuas y V2 una submatriz de variables cualitativas. De acuerdo a Cuadras & Arenas (1990) se puede definir la similaridad como  p1  P 1−|vih −vi0 h |. s. ii0. =. h=1. Gh. +a+α. p1 + (p2 − d) + p3. (2.4). donde p1 es el n´ umero de variables continuas, a y d son el n´ umero de coincidencias y no coincidencias para las p2 variables binarias, respectivamente, y α es el n´ umero de coincidencias de las p3 variables cualitativas. Gh es el rango (o recorrido) de la h-´esima variable cuantitativa. La similaridad (2.4) es conocida como distancia de Gower (1968). La distancia al cuadrado entre los individuos i y i0 es d2ii0 = 1 − sii0. (2.5). Ahora es definido ∆(1) = (dii0 ) como una matriz de distancias Euclidiana sobre el conjunto de n individuos..

(35) 18. Cap´ıtulo 2. Inferencia en la aproximaci´ on basada en distancias en el an´ alisis de datos longitudinales. En el caso que todas las variables explicativas en el modelo (2.1) sean cualitativas una medida bastante utilizada de similaridad entre dos individuos i y i0 es mii0 , el n´ umero de coincidencias en i y en i0 . Ya que mii0 ≤ p, una medida de distancia puede ser definida como δii2 0 = 2(p − mii0 ). (2.6). Una vez seleccionada alguna de las distancias presentadas anteriormente es 1 0 2 (2) definido Ax = − 21 ∆(2) x y Fx = HAx H, donde ∆x = (δii0 ) y H = I − n 11 = I − n1 J es la matriz centrada, con 1 un vector de unos de longitud n × 1 y J = 110 . Adem´as, Fx es una matriz semi-definida positiva (Mardia et al. 1979) de rango p. De este modo, se tiene la descomposici´on espectral . . . . 1 1 Fx = I − 110 Ax I − 110 = Ux Λ2x Ux0 n n 0 =XX. (2.7). donde X = Ux Λx es una matriz de n × p de rango p, Λx es la matriz de valores propios positivos de Fx y Ux contiene las coordenadas estandarizadas. Adem´as, las filas x01 , . . . , x0n de la matriz X son las coordenadas principales de Fx . As´ı, si un individuo i es similar a un individuo i0 en (2.1) entonces vi ∼ = vi0 , y por ∼ lo tanto xi = xi0 . El modelo que finalmente es propuesto esta dado por Y = 1B0 + XB + Ξ. (2.8). donde 1 es el vector de unos de orden n × 1, Y es igual que en el modelo (2.1), Xn×s es conocida de rang(X) = s, Bs×m es una matriz de par´ametros desconocidos, B0 es el vector de interceptos desconocidos de orden 1 × m y Ξ es una matriz de errores aleatorios de orden n × m. Obs´ervese que como Fx 1 = 0, tanto 1 como las columnas X1 , X2 , . . . , Xs de X, son vectores propios de Fx . El modelo (2.8) se puede escribir como Y = 1B0 +. s X. Xi Bi + Ξ. i=1. donde s = rang(Fx ) y X1 , X2 , . . . , Xs , juegan el papel de variables predictoras. De acuerdo a Cuadras (2007) a veces s = rang(Fx ) crece con n (incluso puede darse el caso en que s = n − 1). Entonces, el n´ umero de variables X1 , X2 , . . . , Xs (las columnas de X) puede resultar excesivo y de esta manera se puede encontrar un modelo ajustado arbitrariamente . Para evitar este problema es conveniente partir X en dos partes, X = (X(k) L) donde.

(36) 2.1 Modelo multivariante: aspectos inferenciales. 19. X(k) contiene un subconjunto de k columnas de X y L contiene el restante subconjunto de columnas de X. De esta manera, es definido el modelo DB en dimensi´on k, el cual puede ser expresado de dos maneras equivalentes Y =1B0 + X(k) B(k) + Ξk =1B0 +. k X. Xi Bi + Ξk. (2.9). i=1. donde X(k) = (X1 , . . . , Xk ) y cada Xr , con r = 1, . . . , k es una columna de X (cada Xi es una componente principal). Los supuestos sobre el modelo (2.9) son i) E(Y ) = 1B0 + X(k) B(k) (o E(Ξk ) = 0). ii) cov(yi ) = Σ para todo i = 1, ..., n donde yi0 es la i-´esima fila de Y . iii) cov(yi , yj ) = 0 para todo i 6= j. El supuesto i) establece que el modelo lineal propuesto es el correcto y no son necesarios v’s adicionales para predecir los y’s. El supuesto ii) afirma que cada uno de los n vectores observados (filas) en Y tienen la misma matriz de covarianza. Mientras que el supuesto iii) afirma que los vectores observados (filas de Y ) no est´an correlacionados entre s´ı. Por lo tanto, se asume que los y’s dentro de un vector de observaci´on (filas de Y ) est´an correlacionados entre s´ı pero son independientes entre los diferentes individuos observados. Selecci´ on de las dimensiones principales Inicialmente, el n´ umero de variables explicativas puede ser elegido como k. Una buena selecci´on de las columnas X1 , . . . , Xk de X consiste en escogerlas por orden de coeficiente de correlaci´on m´ ultiple con Y , es decir, R2 (X1 , Y ) > R2 (X2 , Y ) > · · · > R2 (Xk , Y ) Otra selecci´on consiste en ordenarlas de acuerdo con la variabilidad explicada en los predictores (o columnas de X): λ1 > · · · > λk , es decir seleccionar los k primeros ejes principales. Pero si la variable Xk+1 tiene una correlaci´on 2 Rk+1 = R2 (Xk+1 , Y ), relativamente alta, se podr´ıa haber perdido una variable predictiva importante (v´ease Cuadras & Fortiana (1993) para una discusi´on de este problema). Cuando n es muy grande, la selecci´on de coordenadas puede volverse en un c´alculo muy arduo. Un procedimiento que requiere solo calcular los primeros k vectores propios adecuados, es el siguiente.

(37) 20. Cap´ıtulo 2. Inferencia en la aproximaci´ on basada en distancias en el an´ alisis de datos longitudinales. Se particiona X en X = (X(i) Li ), donde X(i) contiene las primeras columnas de X y Li las restantes, es decir los primeros vectores propios de Fx ordenados de acuerdo con sus valores propios. Por otro lado, considerando las distancias entre los individuos de las matriz de observaciones Y en el modelo (2.9) y realizando un proceso similar al realizado con la matriz V en el modelo (2.1). La descomposici´on espectral Fw = Uw Λ2w Uw0 , las coordenadas est´andar Uw y las coordenadas principales W = Uw Λw se pueden obtener. Luego como X(i) y W son matrices cuantitativas centradas de dimensiones n × i y n × m las siguientes medidas de asociaci´on se pueden definir 1. Escoufier (1973) introdujo la correlaci´on generalizada dada por €. Š. RV X(i) , W =. È. tr(S12 S21 ). (2.10). 2 2 tr(S11 )tr(S22 ). 0 0 donde S11 = X(i) X(i) , S22 = W 0 W , S12 = X(i) W y S21 = W 0 X(i) . Esta correlaci´on es muy relacionada con las estad´ısticas Procustes (Cox & Cox 2001), 2 R(i). §. = 1 − tr. Š1/2 ª2 Á¦ € Š © 0 0 0 X(i) W W X(i) tr X(i) X(i) tr(W 0 W ). €. (2.11). 2. Yanai et al. (2006) emplean determinantes de matrices rectangulares para introducir la medida €. Re X(i) , W. Š2. =.

(38)

(39)

(40)

(41)

(42). 0 0 X(i) X(i) X(i) W 0 0 W X(i) W W.

(43)

(44)

(45) 0

(46)

(47) X(i) X(i)

(48) |W 0 W |.

(49)

(50)

(51)

(52)

(53). (2.12). 3. Cuadras (2008) define la asociaci´on como €. Š.

(54)

(55).

(56)

(57). η 2 X(i) , W =

(58) Ux0 (i) Uy Uy0 Ux(i)

(59). (2.13) €. Š. €. Š. Algunas propiedades de las medidas anteriores son: RV X(i) , W €. 2 R(i) = Re X(i) , W 2. €. Š2. Š2. = 1,. = 0 si X(i) = T W (T ortogonal) y RV X(i) , W = 0,. R = Re X(i) , W = 1, si X(i) W = 0. En el caso de la medida de asociaci´on presentada por Cuadras (2008) se satisfacen las siguientes propiedades €. Š. €. Š. a. 0 ≤ η 2 X(i) , W = η 2 W, X(i) ≤ 1. €. Š. b. η 2 X(i) , W =.

(60)

(61)

(62) 0

(63)

(64) X(i) W W 0 X(i)

(65)

(66)

(67) .

(68) 0

(69)

(70) X(i) X(i)

(71) |W 0 W |.

(72) 21. 2.1 Modelo multivariante: aspectos inferenciales. €. Š. c. η 2 X(i) , W no depende de la configuraci´on de las matrices X(i) y W . d. Si w € es unŠvector y € X(i) es Š una matriz, los dos cuantitativos, entonces 2 2 R w, X(i) = η w, X(i) , donde R es el coeficiente de correlaci´on m´ ultiple. e. Si rj , j = 1, . . . , m son los coeficientes de correlaci´on can´onica entre X(i) y W , entonces η. 2. €. Š. X(i) , W =. T Y. rj2. j=1. Utilizando la medida de asociaci´on dada por Cuadras (2008), se define la secuencia € Š η 2 X(i) , W con i = 1, 2, . . . , p (2.14) c(i) = 2 η (X, W ) Cada c(i) mide la predictibilidad de las primeras i dimensiones. Es de notar aqu´ı, que se podr´ıan utilizar en la anterior ecuaci´on cualquiera de las otras medidas de asociaci´on presentadas anteriormente. Finalmente, la selecci´on de k en el modelo (2.9) debe ser realizada representando gr´aficamente los puntos (i, 1 − c(i)) i = 0, 1, . . . , p∗ < p donde p∗ es tal que 1 − c(i) est´e muy pr´oximo a 0. Esto es, el corte ´optimo en p∗ es tal que, a la derecha de p∗ el gr´afico est´a muy pr´oximo al eje horizontal, indicando que las dimensiones superiores no deben ser tenidas en cuenta. La dimensi´on principal 1 ≤ i ≤ p∗ debe ser seleccionada si se aprecia una ca´ıda entre el punto (i − 1, 1 − c(i − 1)) y el (i, 1 − c(i − 1)). Entonces la dimensi´on nos. i es aceptada o rechazada seg´ un si ri2 o λi sean grandes o peque˜. 2.1.2. Estimaci´ on de par´ ametros. El modelo presentado en (2.9) se puede escribir como €. Y = 1 X(k). Š. ‚. B0 B(k). Œ. + Ξk. =XB + Ξk €. Š. (2.15) €. donde X = 1 X(k) = (1, X1 , . . . , Xk ) y B = B00. Š0. 0 B(k) .. c tal que minimiza la El estimador de m´ınimos cuadrados (MC) de B es B traza de h€ € Š Š € Ši c 0 Y − XB c Ò0 Ξ Ò tr Ξ = tr Y − X B k k.

(73) 22. Cap´ıtulo 2. Inferencia en la aproximaci´ on basada en distancias en el an´ alisis de datos longitudinales. c Ò = Y − X B. donde Ξ k. La matriz de residuos es la matriz R0 = (R0 (i, j)) de orden m × m €. Š0 €. c Ò0 Ξ Ò R0 = Ξ k k = Y − XB. Š. c Y − XB. Las estimaciones de MC de los par´ametros B verifican las ecuaciones normales (EN) c = X 0Y X 0X B (2.16) y vienen dadas por la expresi´on c = (X 0 X) B. −1. X 0Y. (2.17). ya que el modelo es de rango m´aximo k = rang(X). Adem´as, se tiene que si Yj denota la j-´esima columna de Y , entonces ”. —. c = (X 0 X)−1 X 0 [Y , . . . , Y ] = B c ,...,B c B 1 m 1 m , c = (X 0 X)−1 X 0 Y (j = 1, . . . , m) es el estimador univariante condonde B j j siderando cada columna de Y como una variable separada.. El estimador presentado en (2.17) es insesgado ya que €. Š. c = (X 0 X)−1 X 0 E(Y ) = (X 0 X)−1 (X 0 X)B = B E B. Por otro lado, obs´ervese que €. Š0 €. c R0 = Y − X B. Š. c Y − XB 0. 0. c− B c X 0Y + B c X 0X B c =Y 0 Y − Y 0 X B 0. 0. c X 0Y = B c X 0 X B, c entonces como B c R0 =Y 0 Y − Y 0 X B €. Š. =Y 0 I − X(X 0 X)−1 X 0 Y. (2.18). Teorema 2.1. Bajo las condiciones del modelo (2.15), con k = rang(X) una estimaci´on centrada de la matriz de covarianzas Σ es ˆ = R0 /(n − k) Σ Para la demostraci´on de este teorema se siguieron los pasos de Cuadras (2010). Veamos la prueba a continuaci´on.

(74) 23. 2.1 Modelo multivariante: aspectos inferenciales. Demostraci´ on: Sea T = [t1 , . . . , tk , tk+1 , . . . , tn ] una matriz ortogonal, tal que sus columnas forman una base ortonormal de <n , de manera tal que las primeras k columnas generen el mismo subespacio Ck (X) generado por las columnas de X. Por lo tanto, las otras n − k columnas ser´an ortogonales a Ck (X). Es decir 8 <∗. t0i X = :. si i ≤ k 0 si i > k. donde ∗ indica que es posiblemente un valor no-nulo. Consid´erese ahora Z = T 0 Y , entonces la esperanza matem´atica de Z es ‚ 0. 0. ηk 0n−k. 0. E(Z) = E(T Y ) = T E(Y ) = T XB =. Œ. donde η tiene k filas y 0 es de n − k filas. c Adem´ c = Ò = Y − X B. Ò = X 0 (Y − X B) Consid´erese los residuos Ξ as, X 0 Ξ k k 0 0 0 0 −1 X Y − X X(X X) X Y = 0, esto se tiene ya que es proyector el espacio Ò es ortogonal a X, en el sentido que sobre el mismo. Por lo tanto, Ξ k ‚. Œ. 0. 0Ò. T Ξk =. Z(n−k)×m. ya que 0Ò. 0. €. T Ξk = T Y. c − XB. ‚. Š. 0. =T Y −T. 0. c XB. ∗ 0. =Z−. Œ. ‚. =. 0. Œ. Zn−k. Ò coinciden. Entonces como Es decir, las u ´ltimas n − k filas de Z y T 0 Ξ k T 0 T = I, se tiene que. R0 =. Ò0 Ξ Ò Ξ k. k. =. Ò0 Ξ. kT T. 0Ò. Ξk =. €. 0. 0. 0 Zn−k. Š. ‚. Œ. 0 Zn−k. 0 = Zn−k Zn−k. 0 0 Haciendo Zn−k = [z1 , . . . , zn−k ] donde z10 , . . . , zn−k son las filas independientes de Zn−k . Entonces cada zi es un vector de media cero y matriz de covarianzas Σ. Luego E(zi zi0 ) = Σ y. 2 0 Zn−k Zn−k =. ”. z1 . . . zn−k. —6 6 4. z10 .. . 0 zn−k. 3 7 7 5. =. n−k X i=1. zi zi0.

(75) 24. Cap´ıtulo 2. Inferencia en la aproximaci´ on basada en distancias en el an´ alisis de datos longitudinales. Por lo tanto, se tiene que E(R0 ). 0 =E(Zn−k Zn−k ). =E. n−k X i=1. !. zi zi0. =. n−k X. E(zi zi0 ). i=1. =(n − k)Σ Ò = Luego Σ. R0 n−k. =. b0k Ξ bk Ξ . n−k. Del anterior teorema se tiene que E(Zn−k ) = 0. As´ı todas las n − k 0 Zn−k ∼ filas de Zn−k son NT (0, Σ) independientes, entonces R0 = Zn−k W ishartT (Σ, n − k) ya que cumple las condiciones de una matriz m × m que sigue la distribuci´on de Wishart (ver mayores detalles en Cuadras (2010) y Mardia et al. (2002)).. 2.1.3. Modelo restringido. Utilizando el modelo (2.15), la matriz de sumas de cuadrados total se puede expresar como ”. —. Y 0 Y = Y 0 X(X 0 X)−1 X 0 Y + Y 0 I − X(X 0 X)−1 X 0 Y al centrar la informaci´on se encuentra que . . Y. . . 1 1 I − J Y =Y 0 X(X 0 X)−1 X 0 − J Y + R0 n n TCM =MCM + R0. 0. €. Š. donde TCM = Y 0 I − n1 J Y es la matriz de las sumas de cuadrados total ” — corregida por la media y MCM = Y 0 X(X 0 X)−1 X 0 − n1 J Y es la matriz de sumas de cuadrados del modelo corregido por la media. Adem´as se puede comprobar que . X(X 0 X)−1 X 0 −. 1 J n. ”. —. I − X(X 0 X)−1 X 0 = 0. lo cual tambi´en sucede en el caso univariante, es decir que las matrices de sumas de cuadrados del modelo y de los residuos son ortogonales. Bajo los supuestos del modelo (2.15) se tiene que MCM ∼ W ishartm (Σ, k). Por otro lado, consid´erese el modelo (2.15) sujeto a la restricci´on HB = D. (2.19). donde H, B y D tienen dimensiones s × (k + 1), (k + 1) × m y (s × m) respectivamente..

(76) 25. 2.1 Modelo multivariante: aspectos inferenciales. Entonces haciendo la minimizaci´on bajo la restricci´on, utilizando la matriz de multiplicadores de Lagrange Λ, se encuentra ”. L1 =tr (Y − XB)0 (Y − XB) − 2Λ(HB − D). —. =tr [Y 0 Y − B 0 X 0 Y − Y 0 XB + B 0 X 0 XB − 2ΛHB + 2ΛD] Derivando parcialmente con respecto a B y Λ, se obtiene i.. ∂L1 ∂B. = −2X 0 Y + 2X 0 XB − 2H 0 Λ0 = 0. ii.. ∂L1 ∂Λ. = −2(HB − D)0 = 0 ⇒ HB = D. Del ´ıtem i. se tiene que c =(X 0 X)−1 (X 0 Y + H 0 Λ0 ) B r1 =(X 0 X)−1 X 0 Y + (X 0 X)−1 H 0 Λ0 c + (X 0 X)−1 H 0 Λ0 =B. (2.20). reemplazando esta u ´ltima expresi´on en ii. se encuentra c = HB c + H(X 0 X)−1 H 0 Λ0 = D HB r1. entonces c H(X 0 X)−1 H 0 Λ0 =D − H B ”. Λ0 = H(X 0 X)−1 H 0. —−1 €. c D − HB. Š. (2.21). Por lo tanto, reemplazando (2.21) en (2.20), se obtiene ”. c =B c + (X 0 X)−1 H 0 H(X 0 X)−1 H 0 B r1. —−1 €. c D − HB. Š. (2.22). En muchas otras situaciones es de mayor inter´es trabajar con el modelo (2.15) bajo la restricci´on HBA = G (2.23) H es de orden s × (k + 1) (de rango s ≤ k + 1), La matriz A es m × c (con rango c ≤ m ≤ n − k − 1) y G es una matriz de orden s × c de constantes. Al igual que en el modelo (2.15) bajo la restricci´on (2.23). Haciendo la minimizaci´on utilizando multiplicadores de Lagrange Λ1 y Λ2 , se encuentra ”. L2 =tr (Y − XB)0 (Y − XB) − 2Λ1 (HBA − G)Λ2. —. =tr [Y 0 Y − B 0 X 0 Y − Y 0 XB + B 0 X 0 XB − 2Λ1 HBAΛ2 + 2Λ1 GΛ2 ] Derivando parcialmente con respecto a B, Λ1 y Λ2 , se obtiene.

Riferimenti

Documenti correlati

When compared to other construction techniques, the in-plane response of the ILWFRC infill wall is characterised by a hybrid behaviour with a high initial stiffness and high

The aim of this study is to compare standard LV volume assessment obtained using “traditional” Simpsons’ monoplane methods implemented in two commercially available Ultrasound

54 In order to investigate the electronic structure of the metal carbides studied in the present work we make use of the corresponding DOS, scaled to the Fermi level.. The DOS of

c, d The percent of patients positive for ProCUrE or age-adjusted PSA for clinically insignificant (benign and low-risk) vs clinically significant (intermediate- and high- risk)

In this comprehensive longitudinal analysis of a prospective cohort spanning 10 years and including nearly 8000 HIV-positive patients, we found that a bundle of measures aiming

Methane adsorption on pristine (111), (110), and (100) Ni surfaces, and on stepped Ni(533) and Ni(577) surfaces has been studied using density functional calculations either

According to the analysis of terrain conditions in areas affected by landslides in the past or present it is possible to determine zones with similar characteristics such as areas

Ora, o escândalo travesti talvez seja a metáfora mais explícita de sua transgressão às marcas do estigma e da abjeção, pois ao mesmo tempo em que pode ser interpretado