R-cuadrado vs. paso de selección de modelo

Cuando utiliza la Selección hacia delante con validación como procedimiento escalonado, Minitab proporciona una gráfica de la estadística de R² para el conjunto de datos de entrenamiento y la estadística de R² de prueba o la estadística de R² escalonado de k pliegues para cada paso del procedimiento de selección del modelo. La visualización de la estadística de R² de prueba o la estadística de R² escalonado de k pliegues depende de si se utiliza un conjunto de datos de prueba o una validación cruzada de k pliegues.

Interpretación

Utilice la gráfica para comparar los valores de las diferentes estadísticas de R² en cada paso. Normalmente, el modelo funciona bien cuando las estadísticas de R² son grandes. Minitab muestra las estadísticas de regresión para el modelo desde el paso que maximiza la estadística de R² de prueba o la estadística de R² de k pliegues. La gráfica muestra si los modelos más simples encajan lo suficientemente bien como para que también puedan ser buenos candidatos.

En un caso en el que el modelo tenga un ajuste excesivo, la estadística de R² de prueba o la estadística de R² escalonado de k pliegues comienza a disminuir a medida que los términos entran en el modelo. Esta disminución ocurre mientras que la estadística de R² de entrenamiento correspondiente o la estadística de R² para todos los datos continúa aumentando. Un modelo con ajuste excesivo se produce cuando se agregan términos para efectos que no son importantes en la población. Un modelo con ajuste excesivo puede no ser útil para hacer predicciones sobre la población. Si un modelo tiene ajuste excesivo, puede considerar los modelos de pasos anteriores.

En la siguiente gráfica se muestra el R² de prueba como ejemplo. Inicialmente, las estadísticas de R² están cerca de 70%. Para los primeros pasos, las estadísticas de R² tienden a aumentar a medida que los términos entran en el modelo. En el paso 6, la estadística de R² de prueba es de aproximadamente 88%. El valor máximo de la estadística de R² de prueba está en el paso 14 y tiene un valor cercano a 90%. Puede considerar si la mejora del ajuste justifica la complejidad adicional al agregar más términos al modelo.

Después del paso 14, mientras que el R² continúa aumentando, el R² de prueba no. La disminución en la prueba de R² después del paso 14 indica que el modelo tiene un ajuste excesivo.