Uso de la regresión escalonada y la regresión de mejores subconjuntos

¿Qué es una regresión escalonada?

La regresión escalonada es una herramienta automatizada que se utiliza en las etapas exploratorias de la construcción de modelos para identificar un subconjunto útil de predictores. Este proceso agrega la variable más significativa o elimina la variable menos significativa de manera sistemática durante cada paso.

Por ejemplo, una empresa de consultoría inmobiliaria recoge datos sobre las ventas de viviendas en el año previo con la meta de predecir los precios de venta en el futuro. Con más de 100 variables predictoras, encontrar un modelo podría ser una tarea muy laboriosa. La función de regresión escalonada de Minitab identifica automáticamente una secuencia de modelos que se considerarán. Las estadísticas como AICc, BIC, prueba R2, R2, R2 ajustado, R2 predicho, S y Cp de Mallows le ayudan a comparar modelos. Minitab muestra los resultados completos del mejor modelo de acuerdo con el procedimiento escalonado que usted use.

Los siguientes análisis en Minitab pueden realizar automáticamente una selección paso a paso para que usted pueda evaluar estadísticos de resumen de modelos para muchos modelos potenciales en un conjunto de salidas.
  • Módulo de análisis predictivo > Regresión lineal
  • Estadísticas > Regresión > Regresión > Ajustar modelo de regresión
  • Módulo de análisis predictivo > Regresión logística binaria
  • Estadísticas > Regresión > Regresión logística binaria > Ajustar modelo logístico binario
  • Estadísticas > Regresión > Regresión de Poisson > Ajustar modelo de Poisson
  • Estadísticas > ANOVA > Modelo lineal general > Ajustar modelo lineal general
  • Estadísticas > DOE > Cribado > Analizar diseño de cribado
  • Estadísticas > DOE > Cribado > Analizar respuesta binaria
  • Estadísticas > DOE > Factorial > Analizar diseño factorial
  • Estadísticas > DOE > Factorial > Analizar respuesta binaria
  • Estadísticas > DOE > Superficie de respuesta > Analizar diseño de superficie de respuesta
  • Estadísticas > DOE > Superficie de respuesta > Analizar respuesta binaria

Problemas con la regresión escalonada

Debe tener precaución al usar procedimientos de selección de variables tales como la regresión de los mejores subconjuntos y la regresión escalonada. Un problema es que estos procedimientos no pueden tener en cuenta el conocimiento especial que el analista pueda tener sobre los datos. El procedimiento no puede considerar la importancia práctica de ninguno de los predictores.

Un problema relacionado con la incapacidad del procedimiento para considerar el conocimiento especial es que cuando dos predictores están altamente correlacionados, el procedimiento puede seleccionar solo uno de los dos predictores, aunque cualquiera de ellos pueda ser importante. Por ejemplo, el procedimiento puede eliminar un predictor que es barato y fácil de medir en favor de un predictor correlacionado que es difícil y costoso de medir. El analista tendría que utilizar su conocimiento de los datos para emitir juicios sobre criterios que el procedimiento no puede tener en cuenta.

Otro problema con los procedimientos escalonados es que los diferentes modelos pueden optimizar diferentes criterios. Por ejemplo, el modelo con el valor de R2 ajustado más alto no será necesariamente el modelo con el valor de R2 de prueba más alto. El analista tiene que considerar los diferentes criterios para seleccionar un modelo final.

Además, cada vez que usted ajusta un modelo a los datos, la bondad del ajuste proviene de dos fuentes principales:
  • La estructura subyacente de los datos (una estructura que se aplicará a otros conjuntos de datos recopilados de la misma manera).
  • Las peculiaridades del conjunto de datos que analiza.

Para asegurarse de que el modelo no se ajuste únicamente a un conjunto específico de datos, deberá comprobar el modelo hallado por el procedimiento de selección con un nuevo conjunto de datos. También puede tomar el conjunto de datos original, dividirlo aleatoriamente en dos partes, usar una parte para seleccionar un modelo y luego verificar el ajuste con la segunda parte. Este procedimiento ayuda a asegurar que el modelo seleccionado se aplique a otros conjuntos de datos. Vaya a la sección sobre procedimientos paso a paso con validación automática para obtener información sobre los comandos que pueden particionar los datos automáticamente y calcular las estadísticas de validación.

Procedimientos escalonados

Todos los análisis que incluyen procedimientos automáticos por pasos en Minitab incluyen los siguientes procedimientos. Los métodos siguientes permiten evaluar rápidamente un gran número de modelos diferentes en términos de sus estadísticas de resumen de modelo para los datos que se usan para crear el modelo.

  • La regresión escalonada estándar agrega o quita un predictor para cada paso. Minitab se detiene cuando todas las variables que no están en el modelo poseen valores p mayores que el valor "alfa para ingresar" especificado y cuando todas las variables incluidas en el modelo tienen valores p que son menores que o iguales al valor "alfa para retirar" especificado.
  • El procedimiento de criterios de información hacia delante agrega el término con el valor p más bajo al modelo en cada paso. Los términos adicionales pueden entrar al modelo en 1 paso si la configuración del análisis permite la consideración de términos no jerárquicos, pero requiere que cada modelo sea jerárquico. Minitab calcula los criterios de información para cada paso. En la mayoría de los casos, el procedimiento continúa hasta que se produce una de las siguientes condiciones:
    • El procedimiento no encuentra un nuevo mínimo del criterio durante 8 pasos consecutivos.
    • El procedimiento se ajusta al modelo completo.
    • El procedimiento se ajusta a un modelo que deja 1 grado de libertad para el error.
    Si especifica la configuración del procedimiento que requiere un modelo jerárquico en cada paso y permite que solo un término entre a la vez, el procedimiento continúa hasta que se ajusta al modelo completo o se ajusta a un modelo que deja 1 grado de libertad para el error. Minitab muestra los resultados del análisis para el modelo con el valor mínimo del criterio de información seleccionado, ya sea AICc o BIC.
  • La selección hacia adelante comienza con un modelo vacío o un modelo con los términos que especifique. Luego, Minitab agrega el término más significativo para cada paso. Minitab se detiene cuando todas las variables que no están en el modelo poseen valores p que son mayores que el valor "alfa para ingresar" especificado.
  • La eliminación hacia atrás comienza con todos los predictores incluidos en el modelo y Minitab retira la variable menos significativa de cada paso. Minitab se detiene cuando todas las variables del modelo tienen valores p que son menores que o iguales al valor "alfa para ingresar" especificado.

Procedimientos de regresión escalonada con validación automática

Para los siguientes comandos, el análisis en Minitab puede incluir una técnica de validación automática, así como un procedimiento paso a paso. La validación automática ahorra tiempo a un analista que haría la validación del modelo por sí mismo después de un procedimiento paso a paso. Los siguientes comandos pueden dividir los datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba durante el procedimiento paso a paso:

El procedimiento paso a paso que Minitab puede realizar automáticamente con un conjunto de datos de prueba se denomina selección directa con validación con un conjunto de datos de prueba. En este procedimiento, el modelo inicial está vacío o incluye términos de modelo que seleccione específicamente. Luego, Minitab agrega el siguiente término potencial con el valor p más pequeño en cada paso. Minitab calcula el R2 de prueba para el modelo en cada paso como el valor R2 para el modelo en el conjunto de datos de prueba. Los resultados del modelo que presenta Minitab son para el modelo con el valor máximo del valor de la prueba R2 .

Para Ajustar modelo de regresión, puede elegir una segunda técnica de validación para realizar con la selección escalonada denominada selección directa con validación cruzada de k-folds. En la validación cruzada de k pliegues, Minitab divide el conjunto de datos en k subconjuntos. Estos subconjuntos se denominan pliegues. La mayoría de las veces, la validación usa 10 veces, pero son posibles otros números. Los pliegues tienen un número de observaciones lo más cercano posible a lo mismo. Minitab realiza la selección hacia adelante k veces. Para cada selección hacia adelante, los pliegues k-1 son el conjunto de datos de entrenamiento y el último pliegue es el conjunto de datos de prueba. Al igual que en otros procedimientos de selección anticipada, el modelo inicial está vacío o incluye términos de modelo que seleccione específicamente. Luego, Minitab agrega el siguiente término potencial con el valor p más pequeño en cada paso. Para cada paso, Minitab calcula el valor de R2 escalonado de k-fold combinando la información de los diferentes procedimientos de selección escalonada.

Jerarquía

Un modelo jerárquico es aquel en el que para cada término incluido en el modelo, todos los términos de orden inferior contenidos en dicho término también deben encontrarse en el modelo. Por ejemplo, supongamos que existe un modelo con cuatro factores: A, B, C y D. Si el término A * B * C está en el modelo, los términos A, B, C, A*B, A*C y B*C también deben estar en el modelo, aunque los términos con D no tienen que estar en el modelo.

Los términos que entran o salen de un modelo en un paso dependen de las especificaciones de la jerarquía. De forma predeterminada, Minitab Statistical Software requiere un modelo jerárquico en cada paso, requiere jerarquía para todos los términos y permite que solo un término ingrese al modelo en cada paso. Estas configuraciones limitan los términos que Minitab considera en cada paso. Por ejemplo, una interacción bidireccional no puede entrar en el modelo a menos que los dos términos de orden inferior de la interacción ya estén en el modelo. Puede ajustar esta configuración haciendo clic cuando Jerarquía seleccione un método paso a paso.

Qué es la regresión de mejores subconjuntos?

La regresión de mejores subconjuntos es una herramienta automatizada que se utiliza en las etapas exploratorias de la construcción de modelos para identificar un subconjunto útil de predictores. El procedimiento muestra los resultados del resumen del modelo para el número de modelos que solicita para cada tamaño: modelos con un predictor, modelos con dos predictores, etc. Los modelos que se muestran tienen los valores más altos de R2 entre los modelos posibles de ese tamaño. Para utilizar la regresión de mejores subconjuntos en Minitab, elija Estadísticas > Regresión > Regresión > Mejores subconjuntos.

Como procedimiento de selección automática, la regresión de mejores subconjuntos comparte muchos problemas con la regresión escalonada. El procedimiento no puede utilizar el conocimiento especializado que tiene un analista, ni hay garantía de que diferentes criterios identifiquen el mismo modelo. Las correlaciones entre los predictores pueden dificultar la identificación de los mejores modelos. La validación del modelo con nuevos datos aumenta la confianza que se puede tener en el rendimiento del modelo.

Comparación de la regresión de los mejores subconjuntos con la regresión escalonada

Los mejores subconjuntos son un análisis en Minitab Statistical Software. La regresión escalonada es una opción en varios análisis. Ambas técnicas de selección de modelos automatizados proporcionan información sobre el ajuste de varios modelos diferentes. A partir de los diferentes modelos, puede identificar cualquier modelo que merezca una mayor exploración.

Las diferencias entre las técnicas de Minitab pueden ayudarle a decidir si utilizar una técnica en lugar de la otra o utilizar ambas técnicas. Los siguientes son algunos puntos generales a tener en cuenta:
Característica Regresión de los mejores subconjuntos Regresión escalonada
Modelos considerados Todos los modelos posibles para los predictores. Secuencia de modelos elegidos por la significación estadística de los términos.
Número de predictores a tener en cuenta Hasta 31 predictores gratuitos, además de los predictores que necesite en cada modelo. No hay un límite establecido.
Tipos de predictores Columnas numéricas en la hoja de cálculo. Columnas de texto o numéricas, además de términos de interacción y otros términos de orden superior.
Tipos de variables de respuesta Una columna numérica. Diferentes análisis en Minitab pueden analizar diferentes tipos de variables de respuesta. Para la regresión escalonada, puede elegir un análisis para una variable de respuesta continua, una variable de respuesta binaria o una variable de respuesta de Poisson.
Resultados Los resultados incluyen estadísticas de resumen de modelos que exploran el ajuste de los datos. Para ver los resultados completos de la regresión, como las gráficas de residuales, explore el modelo elegido en un análisis como Ajustar modelo de regresión. El análisis muestra los resultados completos de la regresión para el modelo óptimo de acuerdo con el criterio que seleccione. También puede optar por consultar las estadísticas de resumen del modelo para cada paso del procedimiento.