Realice una regresión escalonada para Ajustar modelo de regresióny Regresión lineal

Estadísticas > Regresión > Regresión > Ajustar modelo de regresión > Escalonado

Módulo de análisis predictivo > Regresión lineal > Escalonado

Método

Un procedimiento escalonado elimina y agrega términos al modelo con el propósito de identificar un subconjunto útil de los términos. Si elige un procedimiento escalonado, los términos que se especifiquen en el cuadro de dialogo Modelo son candidatos para el modelo final. Para obtener más información, vaya a Uso de la regresión escalonada y la regresión de mejores subconjuntos.

Especifique el método que Minitab utiliza para ajustar el modelo.
  • Ninguno: Ajustar el modelo con todos los términos que se especifiquen en el cuadro de diálogo Modelo.
  • Escalonado: Este método comienza con un modelo vacío o incluye los términos especificados para su inclusión en el modelo inicial o en cada modelo. Entonces, Minitab agrega o elimina un término para cada paso. Usted puede especificar los términos que se incluirán en el modelo inicial o que se incluirán de manera forzada en todos los modelos. Minitab se detiene cuando todas las variables que no están en el modelo poseen valores p mayores que el valor Alfa a entrar especificado y cuando todas las variables incluidas en el modelo tienen valores p que son menores que o iguales al valor Alfa a retirar especificado.
  • Selección hacia adelante: Este método comienza con un modelo vacío o incluye los términos especificados para su inclusión en el modelo inicial o en cada modelo. Entonces, Minitab agrega los términos más significativos para cada paso. Minitab se detiene cuando todas las variables que no están en el modelo poseen valores p que son mayores que el valor Alfa a entrar especificado.
  • Eliminación hacia atrás: Este método comienza con todos los términos posibles en el modelo y elimina el término menos significativo para cada paso. Minitab se detiene cuando todas las variables del modelo tienen valores p que son menores que o iguales al valor Alfa a retirar especificado.
  • Criterios de información hacia adelante: El procedimiento de criterio de información hacia adelante agrega el término con el valor p más bajo al modelo en cada paso. Términos adicionales pueden entrar en el modelo en 1 paso si la configuración del análisis permite la consideración de términos no jerárquicos, pero requiere que cada modelo sea jerárquico. Minitab calcula el criterio de información de cada paso. En la mayoría de los casos, el procedimiento continúa hasta que se cumple una de las siguientes condiciones:
    • El procedimiento no encuentra una mejora del criterio durante 8 pasos consecutivos.
    • El procedimiento se ajusta al modelo completo.
    • El procedimiento se ajusta a un modelo que deja 1 grado de libertad para el error.
    Si usted especifica una configuración para el procedimiento que requiera un modelo jerárquico en cada paso y permita que solo se agregue un término a la vez, el procedimiento continuará hasta que se ajuste al modelo completo o hasta que se ajuste a un modelo que deje 1 grado de libertad para el error. Minitab muestra los resultados del análisis del modelo con el valor mínimo del criterio de información seleccionado, ya sea AICc o BIC.
  • : La selección directa con el procedimiento de validación depende del método de validación. Cuando se utiliza un conjunto de datos de prueba, el procedimiento es similar a la selección directa. Al final de cada paso, Minitab calcula la estadística R2 de la prueba. Al final del procedimiento de selección directa, el modelo con el mayor valor R2 de prueba es el modelo final.

    Con la validación cruzada, el procedimiento repite la selección hacia delante en cada pliegue. El procedimiento evalúa todos los pliegues en cada paso e identifica el paso con el mejor valor r2 paso a paso k-fold. La última parte del procedimiento consiste en realizar la selección hacia delante en el conjunto de datos completo, deteniéndose en el mejor paso de las selecciones en los pliegues.

    Para ambos tipos de validación, el procedimiento se detiene en las mismas condiciones que el procedimiento de criterios de información directa.

Nota

Los términos que están incluidos en el modelo final pueden depender de las restricciones jerárquicas de los modelos. Para obtener más información, consulte el tema sobre Jerarquía a continuación.

Términos potenciales

Muestra el conjunto de términos que el procedimiento evaluará. Los indicadores (E o I) que se encuentran al lado del término en la lista indican la forma cómo el procedimiento maneja ese término. El Método que usted elige determina las configuraciones iniciales en esta lista. Con los dos botones siguientes, usted puede modificar la forma cómo el procedimiento maneja los términos. Si no utiliza estos botones, el procedimiento puede agregar o eliminar el término del modelo con base en su valor p.
  • E = Incluir término en cada modelo: Seleccione un término y haga clic en este botón para forzar la inclusión del término en cada modelo, independientemente de su valor p. Haga clic de nuevo en el botón para eliminar esta condición.
  • I = Incluir término en el modelo inicial: Seleccione un término y haga clic en este botón para incluir el término en el modelo inicial. El procedimiento puede eliminar estos términos si su valor p es demasiado alto. Haga clic de nuevo en el botón para eliminar esta condición. Este botón solo está disponible cuando usted elige Escalonado en Método.

Alfa a entrar y eliminar

Alfa a entrar
Ingrese el valor alfa que Minitab usa para determinar si un término puede ser ingresado en el modelo. Usted puede establecer este valor cuando elige Escalonado o Selección hacia adelante en Método.
Alfa a retirar
Ingrese el valor alfa que Minitab usa para determinar si un termino es eliminado del modelo. Usted puede establecer este valor cuando elige el Escalonado o Eliminación hacia atrás en Método.

Criterio

Especifique cuál criterio de información se usará en la selección hacia delante.

Tanto el AICc como el BIC evalúan la probabilidad del modelo y luego aplican una penalización por agregar términos al modelo. La penalización reduce la tendencia a sobreajustar el modelo a los datos de la muestra. Esta reducción puede producir un modelo que tenga un mejor desempeño en general.

Como directriz general, cuando el número de parámetros es pequeño en relación con el tamaño de la muestra, el BIC tiene una penalización mayor por la adición de cada parámetro que el AICc. En estos casos, el modelo que minimiza el BIC tiene a ser más pequeño que el modelo que minimiza el AICc.

En algunos casos comunes, tales como diseños de cribado, el número de parámetros es generalmente grande en comparación con el tamaño de la muestra. En estos casos, el modelo que minimiza el AICc tiende a ser más pequeño que el modelo que minimiza el BIC. Por ejemplo, para un diseño de cribado definitivo de 13 corridas, el modelo que minimiza el AICc tenderá a ser más pequeño que el modelo que minimiza el BIC entre el conjunto de modelos con 6 o más parámetros.

Para obtener más información sobre el AICc y el BIC, vea Burnham y Anderson.1

Especificar la validación para Selección hacia delante con validación

Nota

La configuración de validación también se encuentra en el cuadro de diálogo secundario Validación. Si cambia la configuración, Minitab actualiza automáticamente la configuración en ambos lugares.

Cuando seleccione Selección hacia delante con validación, elija el método de validación para probar el modelo. Por lo general, con muestras más pequeñas, el método de validación cruzada de K pliegues es apropiado. Con muestras más grandes, puede dividir los datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba.

Validación cruzada de K pliegues

Complete los pasos siguientes para utilizar la validación cruzada de K pliegues.

  1. En la lista desplegable, seleccione Validación cruzada de K pliegues.
  2. Elija una de las siguientes opciones para especificar si desea asignar pliegues aleatoriamente o con una columna ID.
    • Asignar aleatoriamente filas de cada pliegue: Seleccione esta opción para que Minitab seleccione al aleatoriamente filas para cada pliegue. Puede especificar el número de pliegues. El valor predeterminado de 10 funciona bien en la mayoría de los casos. El uso de un valor más bajo de K puede introducir más sesgo; sin embargo, los valores más grandes de K pueden introducir más variabilidad. También puede establecer una base para el generador de números aleatorios.
    • Asignar filas de cada pliegue con la columna de ID: Seleccione esta opción para elegir las filas que desea incluir en cada pliegue. En Columna ID, escriba la columna que identifica los pliegues. Cada fila con el mismo valor en la columna ID está en el mismo pliegue.

Validación con un conjunto de prueba

Complete los pasos siguientes para dividir los datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba.

  1. En la lista desplegable, seleccione Validación con un conjunto de prueba.
  2. Elija una de las siguientes opciones para especificar si desea seleccionar una fracción de filas aleatoriamente o seleccionar una fracción de filas con una columna ID.
    • Seleccionar aleatoriamente una fracción de filas como un conjunto de prueba: Seleccione esta opción para que Minitab seleccione aleatoriamente el conjunto de datos de prueba. Puede especificar la cantidad de datos que se utilizarán en el conjunto de datos de prueba. El valor predeterminado de 0.3 funciona bien en la mayoría de los casos. Es conveniente incluir suficientes datos en el conjunto de datos de prueba para evaluar el modelo correctamente. Si no está seguro acerca de la forma del modelo, un conjunto de datos de prueba más grande proporciona una validación más sólida. También es conveniente que haya datos suficientes en el conjunto de datos de entrenamiento para estimar el modelo correctamente. Normalmente, los modelos con más predictores requieren más datos de entrenamiento para hacer estimaciones.
    • Definir división para entrenamiento/prueba con la columna ID: Seleccione esta opción para seleccionar las filas que desea incluir usted mismo en el conjunto de datos de prueba. En Columna ID, escriba la columna que indica las filas que se van a utilizar para la muestra de prueba. La columna ID debe contener solo 2 valores. En Nivel para el conjunto de prueba, seleccione el nivel que desea utilizar como la muestra de prueba.

Jerarquía

Usted puede determinar la manera en que Minitab aplica la jerarquía del modelo durante un procedimiento escalonado. El botón Jerarquía está inhabilitado si usted especifica un modelo no jerárquico en el cuadro de diálogo Modelo.

En un modelo jerárquico, todos los términos de orden inferior que conforman los términos de orden superior también aparecen en el modelo. Por ejemplo, un modelo que incluye el término de interacción A*B*C es jerárquico si incluye estos términos: A, B, C, A*B, A*C y B*C.

Los modelos pueden ser no jerárquicos. Por lo general, usted puede eliminar términos de orden inferior si son insignificantes, a menos que el conocimiento de la materia sugiera que los incluya. Los modelos que contienen demasiados términos pueden ser relativamente imprecisos y pueden reducir la capacidad de predecir los valores de nuevas observaciones.

Considere las siguientes sugerencias:
  • Ajuste un modelo jerárquico en primer lugar. Puede eliminar los términos insignificantes después.
  • Si usted estandariza sus predictores continuos, ajuste un modelo jerárquico para producir una ecuación en unidades sin codificar (o naturales).
  • Si el modelo contiene variables categóricas, los resultados son más fáciles de interpretar si los términos categóricos, por lo menos, son jerárquicos.
Modelo jerárquico
Elija si el procedimiento escalonado debe producir un modelo jerárquico.
  • Requerir un modelo jerárquico en cada paso: Minitab solamente puede agregar o eliminar términos que mantienen la jerarquía.
  • Agregar términos al final para hacer el modelo jerárquico: Inicialmente, Minitab sigue las normas estándar del procedimiento escalonado. En el paso final, Minitab agrega los términos que producen un modelo jerárquico, aun si sus valores p son mayores que el valor Alfa a entrar. Si usted selecciona esta opción, cuando el Método es Criterios de información hacia adelante, Minitab muestra un error. Para obtener un modelo jerárquico que minimice el criterio entre los modelos en los pasos, seleccione Requerir un modelo jerárquico en cada paso.
  • No requerir un modelo jerárquico: El modelo final puede ser no jerárquico. Minitab agregará y eliminará términos basándose solamente en las reglas del procedimiento escalonado.
Requerir jerarquía para los siguientes términos
Si necesita un modelo jerárquico, elija los términos que deben ser jerárquicos.
  • Todos los términos: Los términos que incluyen variables categóricas y/o continuas deben ser jerárquicos.
  • Términos con predictores categóricos: Solo los términos que incluyen variables categóricas deben ser jerárquicos.
Cuántos términos pueden ingresar en cada paso
Si necesita jerarquía en cada paso, elija el número de términos que Minitab puede agregar en cada paso para mantener la jerarquía.
  • Como máximo, un término puede ingresar en cada paso: Un término de orden superior puede ingresar al modelo solo si la jerarquía se mantiene al agregar ese término individual. Todos los términos de orden inferior que conforman el orden superior ya deben estar en el modelo.
  • Pueden ingresar términos extra para mantener la jerarquía: Un término de orden superior puede ingresar al modelo aunque produzca un modelo no jerárquico. Sin embargo, también se agregan los términos que son necesarios para producir un modelo jerárquico, incluso si sus valores p son mayores que el valor Alfa a entrar.

Mostrar la tabla de detalles de selección del modelo

Especifique la información que se mostrará sobre el procedimiento escalonado.
  • Detalles sobre el método: Mostrar el tipo de procedimiento escalonado y los valores alfa para ingresar o eliminar un predictor del modelo.
  • Incluir detalles para cada paso: Mostrar los coeficientes, valores p y los estadísticos del resumen del modelo para cada paso del procedimiento.

Mostrar la gráfica de R-cuadrado vs. paso

Cuando elija Selección hacia delante con validación, muestre una gráfica de los valores del R2 de entrenamiento y validación para cada paso de la selección hacia delante. Normalmente, la gráfica se utiliza para determinar si hay modelos más simples que tienen valores de validación similares.

1 Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection. Sociological Methods & Research, 33(2), 261-304. doi:10.1177/0049124104268644