Métodos en Analizar respuesta binaria para diseño de cribado definitivo

En este tema

Familia exponencial y funciones de enlace
Patrón de factor/covariable
Matriz de diseño

Familia exponencial y funciones de enlace

La extensión de los modelos lineales clásicos a modelos lineales generalizados consta de dos partes: una distribución de la familia exponencial y una función de enlace.

La familia exponencial

La primera parte extiende el modelo lineal a las variables de respuesta que son miembros de una familia grande de distribuciones llamada la familia exponencial. Los miembros de la familia exponencial de distribuciones tienen funciones de distribución de probabilidad para una respuesta observada con la siguiente forma general:

donde a(∙), b(∙) y c(∙) dependen de la distribución de la variable de respuesta. El parámetro θ es un parámetro de ubicación que suele mencionarse como el parámetro canónico y ϕ se denomina parámetro de dispersion. La función a(ϕ) por lo general tiene la forma a(ϕ)= ϕ/ ω, donde ω es una constante conocida o ponderación que puede variar de una observación a otra. (En Minitab, cuando se especifican ponderaciones, la función a(ϕ) se ajusta según corresponda.)

Los miembros de la familia exponencial pueden ser distribuciones discretas o distribuciones continuas. Las distribuciones normal y gamma son ejemplos de distribuciones continuas que son miembros de la familia exponencial. Las distribuciones binomial y de Poisson son ejemplos de distribuciones discretas que son miembros de la familia exponencial. La siguiente tabla contiene las características de algunas de estas distribuciones.

Distribución	ϕ	*b(θ)*	*a(φ)*	*c(y, ϕ)*
Normal	σ²	θ²/2	φω
Binomial	1		φ/ω	-ln(y!)
Poisson	1	exp(θ)	φ/ω

La función de enlace

La segunda parte es la función de enlace. La función de enlace relaciona la media de la respuesta en la i^ésima observación con un predictor lineal que tiene esta forma:

El modelo lineal clásico es un caso especial de esta formulación general donde la función de enlace es la función identidad.

La elección de la función de enlace en la segunda parte depende de la distribución específica de la familia exponencial de la primera parte. En particular, cada distribución de la familia exponencial tiene una función de enlace especial denominada función canónica de enlace. Esta función de enlace satisface la ecuación g (μ_i) = X_i'β= θ, donde θ es el parémetro canónico. La función canónica de enlace produce ciertas propiedades estadísticas deseables del modelo. Las estadísticas de bondad del ajuste se pueden usar para comparar ajustes utilizando diferentes funciones de enlace. Ciertas funciones de enlace se pueden utilizar por razones históricas o porque tienen un significado especial dentro de una disciplina. Por ejemplo, una ventaja de la función de enlace logit es que proporciona una estimación de las relaciones de probabilidades. Otro ejemplo es que la función de enlace normit presupone que hay una variable subyacente que sigue una distribución normal que se clasifica en categorías binarias.

Minitab ofrece tres funciones de enlace. Las diferentes funciones de enlace permiten encontrar modelos que se ajustan adecuadamente a una variedad más amplia de datos. Las funciones de enlace son logit, normit (también conocida como probit) y gompit (también denominada log-log complementario). Éstas son la inversa de la función de distribución logística acumulada estándar (logit), la inversa de la función de distribución normal acumulada estándar (normit) y la inversa de la función de distribución Gompertz (gompit). El logit es la función canónica de enlace para los modelos binomiales y, por lo tanto, el logit es la función de enlace predeterminada.

Modelo	Nombre	Función de enlace, g(μ_i)
Binomial	logit
Binomial	normit (probit)
Binomial	gompit (log-log complementario)

Notación

Término	Description
μ_i	la respuesta media de la i^ésima fila
g(μ_i)	la función de enlace
X	el vector de las variables predictoras
β	el vector de los coeficientes asociado con los predictores
	la función de distribución acumulada inversa de la distribución normal

Patrón de factor/covariable

Describe un conjunto individual de valores de factor/covariable en un conjunto de datos. Minitab calcula las probabilidades del evento, los residuos y otras medidas de diagnóstico para cada patrón de factor/covariable.

Por ejemplo, si un conjunto de datos incluye los factores sexo y raza y la covariable edad, la combinación de estos predictores puede contener tantos patrones diferentes de covariables como sujetos. Si un conjunto de datos solamente incluye los factores raza y sexo, cada uno codificado en dos niveles, solo hay cuatro patrones posibles de factor/covariable. Si usted ingresa los datos como frecuencias o como éxitos, ensayos o fracasos, cada fila contiene un patrón de factor/covariable.

Matriz de diseño

En primer lugar, Minitab crea una matriz de diseño a partir de los factores y el modelo que usted especifica. Las columnas de esta matriz representan los términos incluidos en el modelo. Luego, Minitab agrega columnas adicionales para el término constante, los bloques y los términos de orden superior para completar la matriz de diseño para el modelo en el análisis.

Diseños con todos los factores continuos

La forma de la matriz de diseño depende de si existe una matriz de conferencia con el mismo número de filas que factores. Cuando se cumple este criterio, las columnas de la matriz de diseño que representan los factores tienen esta forma:

Donde C es una matriz de conferencia n× n con los elementos {-1, 0, 1} que satisface esta propiedad:

Cuando no existe una matriz de conferencia del tamaño correcto, las columnas que representan los factores son un subconjunto de una matriz de conferencia más grande:

Donde A es una matrix N× n con los elementos {-1, 0, 1} que satisface esta propiedad:

La matriz de diseño completa contiene columnas además de las columnas que representan los factores. La matriz de diseño contiene una columna de unos (1) para el término constante. La matriz de diseño completa también incluye columnas que representan los términos cuadráticos o de interacción incluidos en el modelo.

Diseños con factores categóricos

Para un diseño que incluye factores categóricos, Minitab sustituye la fila de punto central único de la matriz de diseño por 2 pseudo puntos centrales. Si el diseño solo incluye 1 factor categórico, solo existen dos pseudo puntos centrales posibles, así que ambos puntos están en el diseño.

En casos en los que el diseño tiene más de 2 factores categóricos, Minitab utiliza un algoritmo iterativo para seleccionar 2 pseudo puntos centrales para su inclusión. El algoritmo trata de minimizar la varianza de los coeficientes de regresión para los efectos lineales en el modelo.

Notación

Término	Description
C	Una matriz de conferencia
0'	Una fila de ceros en una matriz que representa una corrida de punto central
I_n	la matriz de identidad n × n
A	Una matriz que es un subconjunto de una matriz de conferencia con N filas y n columnas donde
N	El número de filas en el subconjunto de las columnas de la matriz de conferencia
n	El número de factores en un diseño