Gráficas de residuos para Ajustar modelo logístico binario

Encuentre definiciones y ayuda para interpretar las gráficas de residuos.

Histograma de residuos

El histograma de los residuos de desviación muestra la distribución de los residuos para todas las observaciones.

La interpretación de las gráficas es igual si se usan residuos de desviación o residuos de Pearson. Cuando el modelo usa la función de enlace logit, la distribución de los residuos de desviación está más cerca de la distribución de los residuos de un modelo de regresión de mínimos cuadrados. Los residuos de desviación y los residuos de Pearson se vuelven más similares a medida que aumenta el número de ensayos para cada combinación de valores de configuración de los predictores.

Interpretación

Utilice el histograma de los residuos para determinar si los datos son asimétricos o incluyen valores atípicos. Los patrones que se observan en la siguiente tabla podrían indicar que el modelo no cumple con los supuestos del modelo. Cuando el modelo no cumple con los supuestos, los intervalos de confianza de la aproximación a la normal para las predicciones probablemente sean inexactos.
Patrón Lo que podría indicar el patrón
Una larga cola en una dirección Asimetría
Una barra que se encuentra muy alejada de las otras barras Un valor atípico

Puesto que la apariencia de un histograma depende del número de intervalos usados para agrupar los datos, no utilice un histograma para evaluar la normalidad de los residuos. En lugar de ello, utilice una gráfica de probabilidad normal.

Gráfica de probabilidad normal de los residuos

La gráfica de probabilidad normal de los residuos muestra los residuos vs. sus valores esperados cuando la distribución es normal.

La interpretación de las gráficas es igual si se usan residuos de desviación o residuos de Pearson. Cuando el modelo usa la función de enlace logit, la distribución de los residuos de desviación está más cerca de la distribución de los residuos de un modelo de regresión de mínimos cuadrados. Los residuos de desviación y los residuos de Pearson se vuelven más similares a medida que aumenta el número de ensayos para cada combinación de valores de configuración de los predictores.

Interpretación

Utilice la gráfica de probabilidad normal de los residuos para verificar el supuesto de que los residuos están distribuidos normalmente. La gráfica de probabilidad normal de los residuos debe seguir aproximadamente una línea recta.

Los patrones siguientes no cumplen con el supuesto de que los residuos están distribuidos normalmente.

La curva S implica una distribución con colas largas.

La curva S invertida implica una distribución con colas cortas.

La curva descendente implica una distribución con asimetría a la derecha.

Algunos puntos alejados de la línea implican una distribución con valores atípicos.

Si observa un patrón no normal, utilice las otras gráficas de residuos para verificar otros problemas con el modelo, como términos faltantes o un efecto del orden cronológico. Si los residuos no siguen una distribución normal, los intervalos de confianza de la aproximación a la normal y los valores p de la prueba de Wald pueden ser inexactos.

Residuos vs. ajustes

La gráfica de residuos vs. ajustes muestra los residuos en el eje Y y el logit de los ajustes en el eje X.
Nota

En regresión logística binaria, Minitab no proporciona esta gráfica cuando los datos están en formato de Respuesta binaria/Frecuencia (un ensayo por fila).

La interpretación de las gráficas es igual si se usan residuos de desviación o residuos de Pearson. Cuando el modelo usa la función de enlace logit, la distribución de los residuos de desviación está más cerca de la distribución de los residuos de un modelo de regresión de mínimos cuadrados. Los residuos de desviación y los residuos de Pearson se vuelven más similares a medida que aumenta el número de ensayos para cada combinación de valores de configuración de los predictores.

Interpretación

Utilice la gráfica de residuos vs. ajustes para verificar el supuesto de que los residuos están distribuidos aleatoriamente. Lo ideal es que los puntos se ubiquen aleatoriamente a ambos lados del 0, con patrones no detectables en los puntos.

Los patrones que se observan en la siguiente tabla podrían indicar que el modelo no cumple con los supuestos del modelo.
Patrón Lo que podría indicar el patrón
Dispersión en abanico o irregular de los residuos en los valores ajustados Una función de enlace inapropiada
Curvilíneo Un término de orden superior faltante o una función de enlace inapropiada
Un punto que está alejado de cero Un valor atípico
Un punto que está lejos de los otros puntos en la dirección x Un punto influyente
Las siguientes gráficas muestran un valor atípico y una violación del supuesto de que la varianza de los residuos es constante.
Gráfica con valor atípico

Uno de los puntos es mucho más grande que todos los otros puntos. Por lo tanto, el punto es un valor atípico. Si hay demasiados valores atípicos, el modelo podría no ser aceptable. Usted debe tratar de identificar la causa de cualquier valor atípico. Corrija cualquier error de entrada de datos o de medición. Considere eliminar los valores de datos que estén asociados con eventos anormales y únicos (causas especiales). A continuación, repita el análisis.

Gráfica con varianza no constante

La varianza de los residuos aumenta con los valores ajustados. Tenga en cuenta que, a medida que el valor de los ajustes aumenta, la dispersión entre los residuos se amplía. Este patrón indica que las varianzas de los residuos son desiguales (no constante).

Si identifica patrones o valores atípicos en la gráfica de residuos vs. ajustes, considere las siguientes soluciones:
Problema Posible solución
Varianza no constante Considere utilizar diferentes términos en el modelo, una función de enlace diferente o ponderaciones.
Un valor atípico o punto de influencia
  1. Verifique que la observación no sea un error de medición o un error de ingreso de datos.
  2. Considere realizar el análisis sin esta observación para determinar cómo afecta los resultados.

Residuos vs. orden

La gráfica de residuos vs. orden muestra los residuos en el orden en que se recopilaron los datos.

La interpretación de las gráficas es igual si se usan residuos de desviación o residuos de Pearson. Cuando el modelo usa la función de enlace logit, la distribución de los residuos de desviación está más cerca de la distribución de los residuos de un modelo de regresión de mínimos cuadrados. Los residuos de desviación y los residuos de Pearson se vuelven más similares a medida que aumenta el número de ensayos para cada combinación de valores de configuración de los predictores.

Interpretación

Utilice la gráfica de residuos vs. orden para verificar el supuesto de que los residuos son independientes entre sí. Los residuos independientes no muestran tendencias ni patrones cuando se muestran en orden cronológico. Los patrones en los puntos podrían indicar que los residuos que están cercanos entre sí podrían estar correlacionados y, por lo tanto, podrían no ser independientes. Lo ideal es que los residuos que se muestran en la gráfica se ubiquen aleatoriamente alrededor de la línea central:
Si observa un patrón, investigue la causa. Los siguientes tipos de patrones pueden indicar que los residuos son dependientes.
Tendencia
Cambio
Ciclo

Residuos vs. las variables

La gráfica de residuos vs. variables muestra los residuos vs. otra variable. La variable ya pudiera estar incluida en el modelo. O la variable pudiera no estar en el modelo, pero usted sospecha que influye en la respuesta.

La interpretación de las gráficas es igual si se usan residuos de desviación o residuos de Pearson. Cuando el modelo usa la función de enlace logit, la distribución de los residuos de desviación está más cerca de la distribución de los residuos de un modelo de regresión de mínimos cuadrados. Los residuos de desviación y los residuos de Pearson se vuelven más similares a medida que aumenta el número de ensayos para cada combinación de valores de configuración de los predictores.

Interpretación

Si la variable ya está incluida en el modelo, utilice la gráfica para determinar si debe agregar un término de orden más alto de la variable. Si la variable aún no está incluida en el modelo, utilice la gráfica para determinar si la variable está afectando la respuesta de forma sistemática.

Estos patrones pueden identificar una variable o término importante.
Patrón Lo que podría indicar el patrón
Patrón en los residuos La variable afecta la respuesta de forma sistemática. Si la variable no está en el modelo, incluya un término para esa variable y vuelva a ajustar el modelo.
Curvatura en los puntos Un término de orden superior de la variable se debería incluir en el modelo. Por ejemplo, un patrón curvo indica que usted debe agregar un término cuadrático.