Tabla Resumen del modelo para Analizar respuesta binaria para diseño de cribado definitivo

R-cuad. de desviación

El R2 de desviación por lo general es considerado la proporción de la desviación total en la variable de respuesta que el modelo explica.

Interpretación

Mientras más alta sea la desviación R2, mejor se ajustará el modelo a los datos. La desviación de R2 siempre se encuentra entre 0% y 100%.

El R2 de desviación siempre se incrementa cuando usted agrega términos adicionales a un modelo. Por ejemplo, el mejor modelo de 5 términos siempre tendrá un R2 que sea al menos tan alto como el mejor modelo de 4 modelos. Por lo tanto, el R2 de desviación es más útil cuando se comparan modelos del mismo tamaño.

Los estadísticos de bondad de ajuste son simplemente una medida de qué tan bien se ajusta el modelo a los datos. Incluso cuando un modelo tenga un valor deseable, usted deberá revisar las gráficas de residuos y las pruebas de bondad de ajuste para evaluar qué tan bien se ajusta un modelo a los datos.

Puede utilizar una gráfica de línea ajustada para ilustrar gráficamente diferentes valores del R2 de desviación. La primera gráfica ilustra un modelo que explica aproximadamente 96% de la desviación en la respuesta. La segunda gráfica ilustra un modelo que explica aproximadamente 60% de la desviación en la respuesta. Mientras mayor sea la desviación explicada por un modelo, más cerca de la curva estarán los puntos de los datos. Teóricamente, si un modelo pudiera explicar el 100% de la desviación, los valores ajustados siempre serían iguales a los valores observados y todos los puntos de los datos estarían sobre la curva.

La organización de los datos afecta el valor de R2 de desviación. El R2 de desviación suele ser más alto para datos con múltiples pruebas por fila que para datos con una sola prueba por fila. Los valores de R2 de desviación son comparables solamente entre modelos que utilizan el mismo formato de datos. Para obtener más información, vaya a Cómo los formatos de datos afectan la bondad de ajuste en regresión logística binaria.

R-cuad. de desviación (ajust.)

La desviación ajustada de R2 es la proporción de desviación en la respuesta que es explicada por el modelo, ajustado para el número de predictores en el modelo relativo al número de observaciones.

Interpretación

Utilice el R2 de desviación ajustado para comparar modelos que tengan diferentes números de términos. El R2 de desviación siempre se incrementa cuando usted agrega un término al modelo. El valor ajustado de R2 de desviación incorpora el número de términos en el modelo como ayuda para elegir el modelo correcto.

Por ejemplo, usted trabaja para una compañía de chips de patatas que examina los factores que afectan el número de chips desmenuzados. Usted obtiene los siguientes resultados a medida que agrega predictores:
Paso % Patata Tasa de enfriamiento Temp. de cocción R2 de desviación R2 de desviación ajustado Valor p
1 X     52% 51% 0.000
1 X X   63% 62% 0.000
3 X X X 65 62 0.000

El primer paso produce un modelo de regresión estadísticamente significativo. El segundo paso, que agrega la tasa de enfriamiento al modelo, aumenta el R2 de desviación ajustado, lo que indica que la tasa de enfriamiento mejora el modelo. El tercer paso, que agrega la temperatura de cocción al modelo, aumenta el R2 de desviación, pero no el R2 de desviación ajustado. Estos resultados indican que la temperatura de cocción no mejora el modelo. Con base en estos resultados, considere eliminar la temperatura de cocción del modelo.

La organización de los datos afecta el valor de R2 de desviación ajustado. Para los mismos datos, el R2 de desviación ajustado suele ser más alto para datos con múltiples pruebas por fila que para datos con una sola prueba por fila. Utilice el R2 de desviación ajustado solo para comparar el ajuste de modelos que tengan el mismo formato de datos. Para obtener más información, vaya a Cómo los formatos de datos afectan la bondad de ajuste en regresión logística binaria.

AIC, AICc and BIC

El criterio de información de Akaike (AIC), el criterio de información de Akaike corregido (AICc) y el criterio de información bayesiano (BIC) son medidas de la calidad relativa de un modelo que representan el ajuste y el número de términos en el modelo.

Interpretación

Utilice el AIC, el AICc y el BIC para comparar diferentes modelos. Se prefieren valores más pequeños. Sin embargo, el modelo con el valor más pequeño para un conjunto de predictores no necesariamente ajusta los datos adecuadamente. Use también pruebas y gráficas de residuos para evaluar qué tan bien se ajusta el modelo a los datos.
AICc y AIC
Cuando el tamaño de la muestra es pequeño en relación con los parámetros incluidos en el modelo, el AICc tiene un mejor desempeño que el AIC. El AICc tiene un mejor desempeño debido a que, con tamaños de muestras relativamente pequeños, el AIC tiende a ser pequeño para modelos con demasiados parámetros. Por lo general, los dos estadísticos dan resultados similares cuando el tamaño de la muestra es suficientemente grande en relación con los parámetros incluidos en el modelo.
AICc y BIC
Tanto el AICc como el BIC evalúan la probabilidad del modelo y luego aplican una penalización por agregar términos al modelo. La penalización reduce la tendencia a sobreajustar el modelo a los datos de la muestra. Esta reducción puede producir un modelo que tenga un mejor desempeño en general.
Como directriz general, cuando el número de parámetros es pequeño en relación con el tamaño de la muestra, el BIC tiene una penalización mayor por la adición de cada parámetro que el AICc. En estos casos, el modelo que minimiza el BIC tiene a ser más pequeño que el modelo que minimiza el AICc.
En algunos casos comunes, tales como diseños de cribado, el número de parámetros es generalmente grande en comparación con el tamaño de la muestra. En estos casos, el modelo que minimiza el AICc tiende a ser más pequeño que el modelo que minimiza el BIC. Por ejemplo, para un diseño de cribado definitivo de 13 corridas, el modelo que minimiza el AICc tenderá a ser más pequeño que el modelo que minimiza el BIC entre el conjunto de modelos con 6 o más parámetros.
Para obtener más información sobre AICc y BIC, consulte Burnham y Anderson.1
1 Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection. Sociological Methods & Research, 33(2), 261-304. doi:10.1177/0049124104268644