R-cuadrado vs. paso de selección de modelo

Cuando utiliza la Selección hacia delante con validación como procedimiento escalonado, Minitab proporciona una gráfica de la estadística de R2 para el conjunto de datos de entrenamiento y la estadística de R2 de prueba o la estadística de R2 escalonado de k pliegues para cada paso del procedimiento de selección del modelo. La visualización de la estadística de R2 de prueba o la estadística de R2 escalonado de k pliegues depende de si se utiliza un conjunto de datos de prueba o una validación cruzada de k pliegues.

Interpretación

Utilice la gráfica para comparar los valores de las diferentes estadísticas de R2 en cada paso. Normalmente, el modelo funciona bien cuando las estadísticas de R2 son grandes. Minitab muestra las estadísticas de regresión para el modelo desde el paso que maximiza la estadística de R2 de prueba o la estadística de R2 de k pliegues. La gráfica muestra si los modelos más simples encajan lo suficientemente bien como para que también puedan ser buenos candidatos.

En un caso en el que el modelo tenga un ajuste excesivo, la estadística de R2 de prueba o la estadística de R2 escalonado de k pliegues comienza a disminuir a medida que los términos entran en el modelo. Esta disminución ocurre mientras que la estadística de R2 de entrenamiento correspondiente o la estadística de R2 para todos los datos continúa aumentando. Un modelo con ajuste excesivo se produce cuando se agregan términos para efectos que no son importantes en la población. Un modelo con ajuste excesivo puede no ser útil para hacer predicciones sobre la población. Si un modelo tiene ajuste excesivo, puede considerar los modelos de pasos anteriores.

En la siguiente gráfica se muestra el R2 de prueba como ejemplo. Inicialmente, las estadísticas de R2 están cerca de 70%. Para los primeros pasos, las estadísticas de R2 tienden a aumentar a medida que los términos entran en el modelo. En el paso 6, la estadística de R2 de prueba es de aproximadamente 88%. El valor máximo de la estadística de R2 de prueba está en el paso 14 y tiene un valor cercano a 90%. Puede considerar si la mejora del ajuste justifica la complejidad adicional al agregar más términos al modelo.

Después del paso 14, mientras que el R2 continúa aumentando, el R2 de prueba no. La disminución en la prueba de R2 después del paso 14 indica que el modelo tiene un ajuste excesivo.