Un procedimiento escalonado elimina y agrega términos al modelo con el propósito de identificar un subconjunto útil de los términos. Si elige un procedimiento escalonado, los términos que se especifiquen en el cuadro de dialogo Modelo son candidatos para el modelo final. Para obtener más información, vaya a Uso de la regresión escalonada y la regresión de mejores subconjuntos.
Con la validación cruzada, el procedimiento repite la selección hacia delante en cada pliegue. El procedimiento evalúa todos los pliegues en cada paso e identifica el paso con el mejor valor r2 paso a paso k-fold. La última parte del procedimiento consiste en realizar la selección hacia delante en el conjunto de datos completo, deteniéndose en el mejor paso de las selecciones en los pliegues.
Para ambos tipos de validación, el procedimiento se detiene en las mismas condiciones que el procedimiento de criterios de información directa.
Los términos que están incluidos en el modelo final pueden depender de las restricciones jerárquicas de los modelos. Para obtener más información, consulte el tema sobre Jerarquía a continuación.
Especifique cuál criterio de información se usará en la selección hacia delante.
Tanto el AICc como el BIC evalúan la probabilidad del modelo y luego aplican una penalización por agregar términos al modelo. La penalización reduce la tendencia a sobreajustar el modelo a los datos de la muestra. Esta reducción puede producir un modelo que tenga un mejor desempeño en general.
Como directriz general, cuando el número de parámetros es pequeño en relación con el tamaño de la muestra, el BIC tiene una penalización mayor por la adición de cada parámetro que el AICc. En estos casos, el modelo que minimiza el BIC tiene a ser más pequeño que el modelo que minimiza el AICc.
En algunos casos comunes, tales como diseños de cribado, el número de parámetros es generalmente grande en comparación con el tamaño de la muestra. En estos casos, el modelo que minimiza el AICc tiende a ser más pequeño que el modelo que minimiza el BIC. Por ejemplo, para un diseño de cribado definitivo de 13 corridas, el modelo que minimiza el AICc tenderá a ser más pequeño que el modelo que minimiza el BIC entre el conjunto de modelos con 6 o más parámetros.
Para obtener más información sobre el AICc y el BIC, vea Burnham y Anderson.1
La configuración de validación también se encuentra en el cuadro de diálogo secundario Validación. Si cambia la configuración, Minitab actualiza automáticamente la configuración en ambos lugares.
Cuando seleccione Selección hacia delante con validación, elija el método de validación para probar el modelo. Por lo general, con muestras más pequeñas, el método de validación cruzada de K pliegues es apropiado. Con muestras más grandes, puede dividir los datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba.
Complete los pasos siguientes para utilizar la validación cruzada de K pliegues.
Complete los pasos siguientes para dividir los datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba.
Usted puede determinar la manera en que Minitab aplica la jerarquía del modelo durante un procedimiento escalonado. El botón Jerarquía está inhabilitado si usted especifica un modelo no jerárquico en el cuadro de diálogo Modelo.
En un modelo jerárquico, todos los términos de orden inferior que conforman los términos de orden superior también aparecen en el modelo. Por ejemplo, un modelo que incluye el término de interacción A*B*C es jerárquico si incluye estos términos: A, B, C, A*B, A*C y B*C.
Los modelos pueden ser no jerárquicos. Por lo general, usted puede eliminar términos de orden inferior si son insignificantes, a menos que el conocimiento de la materia sugiera que los incluya. Los modelos que contienen demasiados términos pueden ser relativamente imprecisos y pueden reducir la capacidad de predecir los valores de nuevas observaciones.
Cuando elija Selección hacia delante con validación, muestre una gráfica de los valores del R2 de entrenamiento y validación para cada paso de la selección hacia delante. Normalmente, la gráfica se utiliza para determinar si hay modelos más simples que tienen valores de validación similares.