El R2 de desviación por lo general es considerado la proporción de la desviación total en la variable de respuesta que el modelo explica.
Mientras más alta sea la desviación R2, mejor se ajustará el modelo a los datos. La desviación de R2 siempre se encuentra entre 0% y 100%.
El R2 de desviación siempre se incrementa cuando usted agrega términos adicionales a un modelo. Por ejemplo, el mejor modelo de 5 términos siempre tendrá un R2 que sea al menos tan alto como el mejor modelo de 4 modelos. Por lo tanto, el R2 de desviación es más útil cuando se comparan modelos del mismo tamaño.
Los estadísticos de bondad de ajuste son simplemente una medida de qué tan bien se ajusta el modelo a los datos. Incluso cuando un modelo tenga un valor deseable, usted deberá revisar las gráficas de residuos y las pruebas de bondad de ajuste para evaluar qué tan bien se ajusta un modelo a los datos.
Puede utilizar una gráfica de línea ajustada para ilustrar gráficamente diferentes valores del R2 de desviación. La primera gráfica ilustra un modelo que explica aproximadamente 96% de la desviación en la respuesta. La segunda gráfica ilustra un modelo que explica aproximadamente 60% de la desviación en la respuesta. Mientras mayor sea la desviación explicada por un modelo, más cerca de la curva estarán los puntos de los datos. Teóricamente, si un modelo pudiera explicar el 100% de la desviación, los valores ajustados siempre serían iguales a los valores observados y todos los puntos de los datos estarían sobre la curva.
La organización de los datos afecta el valor de R2 de desviación. El R2 de desviación suele ser más alto para datos con múltiples pruebas por fila que para datos con una sola prueba por fila. Los valores de R2 de desviación son comparables solamente entre modelos que utilizan el mismo formato de datos. Para obtener más información, vaya a Cómo los formatos de datos afectan la bondad de ajuste en regresión logística binaria.
La desviación ajustada de R2 es la proporción de desviación en la respuesta que es explicada por el modelo, ajustado para el número de predictores en el modelo relativo al número de observaciones.
Utilice el R2 de desviación ajustado para comparar modelos que tengan diferentes números de términos. El R2 de desviación siempre se incrementa cuando usted agrega un término al modelo. El valor ajustado de R2 de desviación incorpora el número de términos en el modelo como ayuda para elegir el modelo correcto.
Paso | % Patata | Tasa de enfriamiento | Temp. de cocción | R2 de desviación | R2 de desviación ajustado | Valor p |
---|---|---|---|---|---|---|
1 | X | 52% | 51% | 0.000 | ||
1 | X | X | 63% | 62% | 0.000 | |
3 | X | X | X | 65 | 62 | 0.000 |
El primer paso produce un modelo de regresión estadísticamente significativo. El segundo paso, que agrega la tasa de enfriamiento al modelo, aumenta el R2 de desviación ajustado, lo que indica que la tasa de enfriamiento mejora el modelo. El tercer paso, que agrega la temperatura de cocción al modelo, aumenta el R2 de desviación, pero no el R2 de desviación ajustado. Estos resultados indican que la temperatura de cocción no mejora el modelo. Con base en estos resultados, considere eliminar la temperatura de cocción del modelo.
La organización de los datos afecta el valor de R2 de desviación ajustado. Para los mismos datos, el R2 de desviación ajustado suele ser más alto para datos con múltiples pruebas por fila que para datos con una sola prueba por fila. Utilice el R2 de desviación ajustado solo para comparar el ajuste de modelos que tengan el mismo formato de datos. Para obtener más información, vaya a Cómo los formatos de datos afectan la bondad de ajuste en regresión logística binaria.
Utilice el R2 de la desviación de prueba para determinar qué tan bien se ajusta el modelo a los nuevos datos. Los modelos que tienen valores de R2 de la desviación más grandes tienden a funcionar mejor con nuevos datos. Puede utilizar el R2 de la desviación de prueba para comparar el rendimiento de diferentes modelos.
Un R2 de la desviación de prueba que es sustancialmente menor que el R2 de la desviación puede indicar que el modelo está demasiado ajustado. Un modelo con ajuste excesivo se produce cuando se agregan términos para efectos que no son importantes en la población. El modelo se adapta a los datos de entrenamiento y, por lo tanto, puede no ser útil para hacer predicciones sobre la población.
Por ejemplo, un analista de una empresa de consultoría financiera desarrolla un modelo para predecir las condiciones futuras del mercado. El modelo parece prometedor porque tiene un R2 del 87%. Sin embargo, el R2 de la desviación de prueba es del 52%, lo que indica que el modelo podría estar demasiado ajustado.
Un valor alto de R2 de la desviación no indica por sí mismo que el modelo cumple con los supuestos del modelo. Debe comprobar las gráficas de residuos para verificar los supuestos.
El R2 de la desviación de K pliegues se considera generalmente la proporción de la desviación total en la variable de respuesta de los datos de validación que explica el modelo.
Utilice el R2 de la desviación de K pliegues para determinar qué tan bien se ajusta el modelo a los nuevos datos. Los modelos que tienen valores R2 de la desviación de K pliegues más grandes tienden a funcionar mejor con nuevos datos. Puede utilizar valores R2 de la desviación de K pliegues para comparar el rendimiento de diferentes modelos.
Un R2 de la desviación de K pliegues que es sustancialmente menor que el R2 de la desviación puede indicar que el modelo está demasiado ajustado. Un modelo con ajuste excesivo se produce cuando se agregan términos para efectos que no son importantes en la población. El modelo se adapta al conjunto de datos de entrenamiento y, por lo tanto, puede no ser útil para hacer predicciones sobre la población.
Por ejemplo, un analista de una empresa de consultoría financiera desarrolla un modelo para predecir las condiciones futuras del mercado. El modelo parece prometedor porque tiene un R2 de la desviación de 87%. Sin embargo, el R2 de la desviación de K pliegues es 52%, lo que indica que el modelo podría estar demasiado ajustado.
Un valor alto de R2 de la desviación de K pliegues por sí mismo no indica que el modelo cumpla con los supuestos del modelo. Debe comprobar las gráficas de residuos para verificar los supuestos.
El criterio de información de Akaike (AIC), el criterio de información de Akaike corregido (AICc) y el criterio de información bayesiano (BIC) son medidas de la calidad relativa de un modelo que representan el ajuste y el número de términos en el modelo.
La curva ROC muestra la tasa de verdaderos positivos (TPR), también conocida como potencia, en el eje Y, y la tasa de falsos positivos (FPR), también conocida como error de tipo 1, en el eje X. Los diferentes puntos representan valores de umbral diferentes para la probabilidad de que un caso sea un evento. El área bajo una curva ROC indica si el modelo binario es un buen clasificador.
Cuando el análisis utiliza un método de validación, Minitab calcula dos curvas ROC, una para los datos de entrenamiento y otra para los datos de validación. Si el método de validación es un conjunto de datos de prueba, Minitab muestra el área bajo la curva ROC de prueba. Si el método de validación es la validación cruzada, Minitab muestra el área bajo la curva ROC de k pliegues. Por ejemplo, para la validación cruzada con 10 pliegues, Minitab muestra el área bajo la curva ROC de 10 pliegues.
Los valores del área bajo la curva ROC normalmente varían de 0.5 a 1. Cuando el modelo binario puede separar perfectamente las clases, entonces el área debajo de la curva es 1. Cuando el modelo binario no puede separar las clases mejor que una asignación aleatoria, el área debajo de la curva es 0.5.
Cuando el análisis utiliza un método de validación, utilice el área bajo la curva ROC para que el método de validación determine si el modelo puede predecir adecuadamente los valores de respuesta para nuevas observaciones o resumir correctamente las relaciones entre la respuesta y las variables predictoras. Los resultados de entrenamiento suelen ser más ideales que reales y son solo para referencia.
Si el área bajo la curva ROC para el método de validación es sustancialmente menor que el área bajo la curva ROC, la diferencia puede indicar que el modelo está sobreajustado. Un modelo sobreajustado ocurre cuando el modelo incluye términos que no son importantes en la población. El modelo se adapta al conjunto de datos de entrenamiento y, por lo tanto, puede no ser útil para hacer predicciones sobre la población.
R-cuadrado de la Desviación | R-cuadrado de la Desviación (ajust) | AIC | AICc | BIC | Área bajo la curva ROC | R-cuadrado de desviación de 10 pliegue(s) | Área bajo la curva ROC de 10-pliegues |
---|---|---|---|---|---|---|---|
50.86% | 42.43% | 276.02 | 286.11 | 409.48 | 0.9282 | 17.29% | 0.8519 |
Estos resultados muestran la tabla de resumen del modelo para un modelo sobreajustado. El área bajo la curva ROC para los datos de entrenamiento proporciona un valor más optimista de qué tan efectivo es el modelo para ajustarse a nuevos datos que el área bajo la curva ROC de 10 pliegues.