Para cada sujeto sea la función escalonada que representa el número de eventos que el sujeto experimenta hasta el tiempo . Entonces: representa un proceso de conteo para el sujeto . Sea una variable indicadora que tenga el valor 1 si el sujeto i está en riesgo en el momento t y 0 en caso contrario, que es equivalente a si y en caso contrario.
El modelo de riesgos proporcionales de Cox asume que la tasa de riesgo al tiempo para un individuo con un vector de valores predictivos , se expresa de la siguiente forma:
donde es la tasa de riesgo inicial que caracteriza la distribución no especificada del tiempo de supervivencia y es un vector del componente p de coeficientes de regresión desconocidos.
Por ejemplo, una formulación del modelo de riesgos proporcionales de Cox como un proceso de conteo basado en Andersen et al. (1993)1 y Fleming and Harrington (1991)2, asumiendo que no hay tiempos de evento empatados, tiene una verosimilitud logarítmica parcial con la siguiente forma:
El vector de derivadas parciales con respecto a los componentes de , se expresa de la siguiente forma:
La matriz de información p por p se expresa de la siguiente forma:
donde la media ponderada de los sujetos en riesgo al tiempo , se expresa de la siguiente forma:
Esta formulación del modelo de riesgos proporcionales de Cox es el modelo multiplicativo para estimación de riesgos. El modelo multiplicativo para estimación de riesgos tiene las siguientes características:
El sujeto puede experimentar más de un evento de interés.
El sujeto puede experimentar un evento varias veces. Esta afirmación significa que la variable indicadora que identifica si el sujeto está en riesgo, , puede cambiar los estados de 1 a 0 y viceversa, varias veces.
El sujeto puede ingresar al estudio después del tiempo 0. Esta afirmación es equivalente a la idea de que un sujeto puede integrarse al conjunto de riesgo después del tiempo 0. Un tiempo se trunca a la izquierda cuando el sujeto ingresa después del tiempo 0.
Therneau (1999)3 presenta detalles acerca del formato para ingreso de datos del proceso de conteo. El formato para ingreso de datos del proceso de conteo provee una técnica para ajustar el modelo multiplicativo para estimación de riesgos con los mismos algoritmos que se utilizan para ajustar el modelo de riesgos proporcionales de Cox.
El formato para ingreso de datos del proceso de conteo
En el formato para ingreso de datos del proceso de conteo, el sujeto está representado en múltiples filas. Cada fila describe un intervalo de tiempo donde los valores de todas las variables son constantes. Los predictores dependientes del tiempo cambian entre filas. Los intervalos comienzan justo después del tiempo de inicio e incluyen el tiempo final. El tiempo de inicio para el intervalo es el tiempo de entrada del sujeto. El tiempo final es la variable de respuesta del sujeto. La columna de censura indica que cualquiera fila donde el tiempo final no es un tiempo de evento.
Observaciones correlacionadas y estimador robusto de covarianza
Aunque varias filas representan a cada sujeto en el formato para ingreso de datos del proceso de conteo, solo una fila de observaciones por sujeto contribuye a la verosimilitud en cada tiempo, a menos que exista correlación entre las observaciones en un subgrupo que pertenezca a cada sujeto. Por ejemplo, las observaciones del sujeto se correlacionan en modelos que incluyen eventos repetidos o recurrentes. Lin and Wei (1989)4 proponen un ajuste de la matriz de covarianza para tomar en cuenta la correlación entre las observaciones interiores del sujeto. Sea la matriz de residuos de puntuación. Entonces, la matriz robusta de varianza y covarianza se expresa de la siguiente forma:
donde y es la matriz de residuos de puntuación con vista contraída. Para obtener la matriz de residuos de puntuación con vista contraída, sustituya todos los conglomerados de filas de residuos de puntuación con la suma de esas filas de residuos.
Un análisis que utiliza la matriz robusta de varianza y covarianza tiene las siguientes características:
Los cálculos para inferencias utilizan la matriz robusta de varianza y covarianza.
Las pruebas de Wald y Score de la tabla de bondad de ajuste utilizan la matriz robusta de varianza y covarianza. La prueba de relación de verosimilitud no aparece en la tabla de bondad de ajuste debido a que esta prueba asume que las observaciones al interior de un conglomerado son independientes.
La tabla ANOVA solo puede utilizar la prueba de Wald.
1 Andersen, P. K., Borgon, O., Gill, R.D., and Keiden, N. (1993). Statistical models based on counting processes. Springer-Verlag.
2 Fleming, T. R., and Harrington, D. P. (1991). Counting processes and survival analysis. Wiley.
3 Therneau, T. M. (1999). Technical report series No. 53: A package for survival analysis in S.
4 Lin, D.Y. & Wei, L.J. (1989). The robust inference for the Cox proportional hazards model. Journal of the American Statistical Association, 84 (408), 1074-1078. https://doi.org/10.1080/01621459.1989.10478874