Uso de la regresión escalonada y la regresión de los mejores subconjuntos

¿Qué es una regresión escalonada?

La regresión escalonada es una herramienta automatizada que se utiliza en las etapas exploratorias de la construcción de modelos para identificar un subconjunto útil de predictores. Este proceso agrega la variable más significativa o elimina la variable menos significativa de manera sistemática durante cada paso.

Por ejemplo, una empresa de consultoría inmobiliaria recoge datos sobre las ventas de viviendas en el año previo con la meta de predecir los precios de venta en el futuro. Con más de 100 variables predictoras, encontrar un modelo podría ser una tarea muy laboriosa. La función de regresión escalonada de Minitab identifica automáticamente una secuencia de modelos que se considerarán. Estadísticas como AICc, BIC, test R2, R2, R2 ajustado, R2 predicho, S y Cp de Mallows le ayudan a comparar modelos. Minitab muestra los resultados completos del mejor modelo de acuerdo con el procedimiento escalonado que usted use.

Los siguientes análisis en Minitab pueden realizar automáticamente la selección escalonada para que pueda evaluar las estadísticas de resumen de modelos para muchos modelos potenciales en un conjunto de salida.
  • Estadísticas > Regresión > Regresión > Ajustar modelo de regresión
  • Estadísticas > Regresión > Regresión logística binaria > Ajustar modelo logístico binario
  • Estadísticas > Regresión > Regresión de Poisson > Ajustar modelo de Poisson
  • Estadísticas > ANOVA > Modelo lineal general > Ajustar modelo lineal general
  • Estadísticas > DOE > Cribado > Analizar diseño de cribado
  • Estadísticas > DOE > Cribado > Analizar respuesta binaria
  • Estadísticas > DOE > Factorial > Analizar diseño factorial
  • Estadísticas > DOE > Factorial > Analizar respuesta binaria
  • Estadísticas > DOE > Superficie de respuesta > Analizar diseño de superficie de respuesta
  • Estadísticas > DOE > Superficie de respuesta > Analizar respuesta binaria

Problemas con la regresión escalonada

Debe tener precaución al usar procedimientos de selección de variables tales como la regresión de los mejores subconjuntos y la regresión escalonada. Un problema es que estos procedimientos no pueden considerar un conocimiento especial que el analista podría tener sobre los datos. El procedimiento no puede considerar la importancia práctica de ninguno de los predictores.

A related problem to the procedure's inability to consider special knowledge is that when two predictors are highly correlated, the procedure can select only one of the two predictors even though either can be important. Por ejemplo, el procedimiento puede eliminar un predictor que es barato y fácil de medir en favor de un predictor correlacionado que es difícil y costoso de medir. El analista tendría que utilizar su conocimiento de los datos para hacer juicios sobre criterios que el procedimiento no puede considerar.

Otro problema con los procedimientos escalonados es que los diferentes modelos pueden optimizar diferentes criterios. Por ejemplo, el modelo con el valor R2 ajustado más alto no será necesariamente el modelo con el valor R2 de prueba más alto. El analista tiene que tener en cuenta los diferentes criterios para seleccionar un modelo final.

Además, cuando se ajusta un modelo a los datos, la bondad del ajuste proviene de dos fuentes básicas:
  • La estructura subyacente de los datos (una estructura que se aplicará a otros conjuntos de datos recopilados de la misma manera).
  • Las peculiaridades del conjunto de datos que analiza.

Para asegurarse de que el modelo no se ajuste únicamente a un conjunto específico de datos, deberá comprobar el modelo hallado por el procedimiento de selección con un nuevo conjunto de datos. También puede tomar el conjunto de datos original, dividirlo aleatoriamente en dos partes, usar una parte para seleccionar un modelo y luego verificar el ajuste con la segunda parte. Este procedimiento ayuda a asegurar que el modelo seleccionado se aplique a otros conjuntos de datos. Vaya a la sección sobre procedimientos escalonados con validación automática para obtener información sobre los comandos que pueden particionar los datos automáticamente y calcular las estadísticas de validación.

Procedimientos escalonados

Todos los análisis que incluyen procedimientos escalonados automáticos en Minitab incluyen los siguientes procedimientos. Los métodos siguientes le permiten evaluar rápidamente un gran número de modelos diferentes en términos de sus estadísticas de resumen de modelos para los datos que se usan para compilar el modelo.

  • La regresión escalonada estándar agrega o quita un predictor para cada paso. Minitab se detiene cuando todas las variables que no están en el modelo poseen valores p mayores que el valor "alfa para ingresar" especificado y cuando todas las variables incluidas en el modelo tienen valores p que son menores que o iguales al valor "alfa para retirar" especificado.
  • El procedimiento de criterio de información hacia adelante agrega el término con el valor p más bajo al modelo en cada paso. Términos adicionales pueden entrar en el modelo en 1 paso si la configuración del análisis permite la consideración de términos no jerárquicos, pero requiere que cada modelo sea jerárquico. Minitab calcula el criterio de información de cada paso. En la mayoría de los casos, el procedimiento continúa hasta que se cumple una de las siguientes condiciones:
    • El procedimiento no encuentra un nuevo valor mínimo del criterio para 8 pasos consecutivos.
    • El procedimiento se ajusta al modelo completo.
    • El procedimiento se ajusta a un modelo que deja 1 grado de libertad para el error.
    Si usted especifica una configuración para el procedimiento que requiera un modelo jerárquico en cada paso y permita que solo se agregue un término a la vez, el procedimiento continuará hasta que se ajuste al modelo completo o hasta que se ajuste a un modelo que deje 1 grado de libertad para el error. Minitab muestra los resultados del análisis del modelo con el valor mínimo del criterio de información seleccionado, ya sea AICc o BIC.
  • La selección hacia delante comienza con un modelo vacío o un modelo con los términos que especifique. Entonces, Minitab agrega los términos más significativos para cada paso. Minitab se detiene cuando todas las variables que no están en el modelo poseen valores p que son mayores que el valor "alfa para ingresar" especificado.
  • La eliminación hacia atrás comienza con todos los predictores incluidos en el modelo y Minitab retira la variable menos significativa de cada paso. Minitab se detiene cuando todas las variables del modelo tienen valores p que son menores que o iguales al valor "alfa para ingresar" especificado.

Procedimientos de regresión escalonados con validación automática

Para los siguientes comandos, el análisis en Minitab puede incluir una técnica de validación automática, así como un procedimiento escalonado. La validación automática ahorra tiempo a un analista que haría la validación del modelo por sí mismo después de un procedimiento escalonado. Los siguientes comandos pueden dividir los datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba durante el procedimiento escalonado:

El procedimiento escalonado que Minitab puede realizar automáticamente con un conjunto de datos de prueba se denomina selección directa con validación con un conjunto de datos de prueba. En este procedimiento, el modelo inicial está vacío o incluye los términos del modelo que seleccione específicamente. Luego, Minitab agrega el siguiente término potencial con el valor p más pequeño en cada paso. Minitab calcula la prueba R2 para el modelo en cada paso como el valor R2 para el modelo en el conjunto de datos de prueba. Los resultados del modelo que Minitab presenta son para el modelo con el valor máximo del valor R2 de la prueba.

Para Ajustar modelo de regresión, puede elegir una segunda técnica de validación para realizar con una selección escalonada denominada selección directa con validación cruzada k-fold. En la validación cruzada k-fold, Minitab divide el conjunto de datos en k subconjuntos. Estos subconjuntos se denominan pliegues. La mayoría de las veces, la validación utiliza 10 pliegues, pero otros números son posibles. Los pliegues tienen el número igual posible de observaciones. Minitab realiza la selección hacia adelante k veces. Para cada selección directa, los pliegues k–1 son el conjunto de datos de entrenamiento y el último pliegue es el conjunto de datos de prueba. Al igual que en otros procedimientos de selección directa, el modelo inicial está vacío o incluye los términos del modelo que seleccione específicamente. Luego, Minitab agrega el siguiente término potencial con el valor p más pequeño en cada paso. Para cada paso, Minitab calcula el valor R2 escalonado k-fold combinando la información de los diferentes procedimientos de selección escalonados.

Jerarquía

Un modelo jerárquico es aquel en el que para cada término incluido en el modelo, todos los términos de orden inferior contenidos en dicho término también deben encontrarse en el modelo. Por ejemplo, supongamos que existe un modelo con cuatro factores: A, B, C y D. Si el término A * B * C está en el modelo, entonces los términos A, B, C, A*B, A*C y B*C también deben estar en el modelo, aunque no se requiere que cualquier término con D esté en el modelo. Si el término A * B * C está en el modelo, entonces los términos A B C A * B A * C B * C también deben encontrarse en el modelo, aunque los términos con D no tienen que encontrarse en el modelo.

Los términos que introducen o dejan un modelo en un paso dependen de las especificaciones para la jerarquía. De forma predeterminada, Minitab Statistical Software requiere un modelo jerárquico en cada paso, requiere jerarquía para todos los términos y solo permite que un término ingrese el modelo en cada paso. Estos ajustes limitan los términos que Minitab considera en cada paso. Por ejemplo, una interacción bidireccional no puede entrar en el modelo a menos que ambos términos de orden inferior de la interacción ya estén en el modelo. Puede ajustar esta configuración haciendo clic Jerarquía al seleccionar un método paso a paso.

¿Qué es la mejor regresión de subconjuntos?

La regresión de los mejores subconjuntos es una herramienta automatizada utilizada en las etapas exploratorias de la creación de modelos para identificar un subconjunto útil de predictores. El procedimiento muestra los resultados de resumen del modelo para el número de modelos que solicita para cada tamaño: modelos con un predictor, modelos con dos predictores, etc. Los modelos que muestran tienen los valores más altos de R2 entre los posibles modelos de ese tamaño. Para utilizar la mejor regresión de subconjuntos en Minitab, elija Estadísticas > Regresión > Regresión > Mejores subconjuntos.

Como procedimiento de selección automática, la regresión de los mejores subconjuntos comparte muchos problemas con la regresión escalonada. El procedimiento no puede utilizar conocimientos especializados que tiene un analista, ni hay ninguna garantía de que diferentes criterios identifiquen el mismo modelo. Las correlaciones entre los predictores pueden dificultar la identificación de los mejores modelos. La validación del modelo con nuevos datos aumenta la confianza que puede tener en el rendimiento del modelo.

Comparación de la regresión de los mejores subconjuntos con la regresión escalonada

Los mejores subconjuntos son un análisis de Minitab Statistical Software. La regresión escalonada es una opción en varios análisis. Ambas técnicas automatizadas de selección de modelos proporcionan información sobre el ajuste de varios modelos diferentes. A partir de los diferentes modelos, puede identificar cualquier modelo que merezca una mayor exploración.

Las diferencias entre las técnicas de Minitab pueden ayudarlo a decidir si usar una técnica sobre la otra o usar ambas técnicas. Los siguientes son algunos puntos generales a tener en cuenta:
Característica Regresión de los mejores subconjuntos Regresión escalonada
Modelos considerados Todos los modelos posibles para los predictores. Una secuencia de modelos elegidos por la significancia estadística de los términos.
Número de predictores a tener en cuenta Hasta 31 predictores libres, además de los predictores que necesite en cada modelo. No hay límite establecido.
Tipos de predictores Columnas numéricas en la hoja de cálculo. Columnas numéricas o de texto, además de términos de interacción y otros términos de orden superior.
Tipos de variables de respuesta Una columna numérica. Diferentes análisis en Minitab pueden analizar diferentes tipos de variables de respuesta. Para la regresión escalonada, puede elegir un análisis para una variable de respuesta continua, una variable de respuesta binaria o una variable de respuesta de Poisson.
Resultados Los resultados incluyen estadísticas de resumen del modelo que exploran el ajuste de los datos. Para ver los resultados de regresión completa, como las gráficas residuales, explore el modelo elegido en un análisis como Ajustar modelo de regresión. El análisis muestra los resultados de regresión completos para el modelo óptimo según un criterio que seleccione. También puede examinar las estadísticas de resumen del modelo para cada paso del procedimiento.