Selección del número óptimo de funciones básicas para MARS®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

El análisis crea tantas funciones básicas como especifique, con una pequeña modificación en el modelo a partir de la información de cada función. Si el análisis incluye un método de validación, el análisis calcula el valor del criterio de selección del modelo para los datos de entrenamiento y los datos de prueba para cada número de funciones básicas. El valor óptimo de los datos de prueba determina el número de funciones en el modelo óptimo.

Métodos de validación del modelo

Los criterios de optimización, como el máximo de R2, tienden a ser optimistas cuando se calculan con los mismos datos que se utilizan para ajustar un modelo. Los métodos de validación del modelo dejan una porción de los datos fuera del proceso de ajuste del modelo y después calculan las estadísticas que evalúan el rendimiento del modelo según los datos omitidos. Las técnicas de validación de modelos proporcionan una mejor estimación del rendimiento de los modelos en datos nuevos. Dependiendo de su selección de la función de pérdida para el análisis, el criterio es el máximo R2 o la menor desviación absoluta media (MAD). Minitab ofrece dos métodos de validación: validación cruzada k-fold y validación con un conjunto de pruebas separado.

El modelo óptimo con validación cruzada K-fold

La validación cruzada de K pliegues es el método predeterminado en Minitab cuando los datos tienen 2000 casos o menos. Debido a que el proceso repite K veces, la validación cruzada suele ser más lenta que la validación con datos de prueba.

Procedimiento de validación cruzada de k pliegues

Para completar la validación cruzada de K-fold, Minitab Statistical Software utiliza los siguientes pasos.
  1. Divida los datos en K subconjuntos aleatorios de igual tamaño posible. Los subconjuntos se denominan pliegues.
  2. Para el pliegue k, k= 1, ..., K, agregue funciones base usando los pliegues de datos K–1 restantes. Calcule el valor del criterio de selección del modelo para el modelo con los datos en el pliegue k-ésimo.
  3. Repita el paso 2 para todos los pliegues K .
  4. Promedie los valores del criterio de selección del modelo en K pliegues para cada número de funciones. El número de funciones con el mejor valor promedio hace el modelo óptimo.

El modelo óptimo con un conjunto de prueba separado

En la validación con un conjunto de pruebas, una parte de los datos se reserva para la validación. Los datos restantes son el conjunto de entrenamiento. Primero, Minitab agrega funciones básicas con el conjunto de capacitación. Luego, Minitab calcula los valores del criterio de selección del modelo para cada número de funciones utilizando el conjunto de prueba. El número de funciones con el mejor valor hace el modelo óptimo.

El modelo óptimo sin validación

Sin ninguna validación, Minitab utiliza todo el conjunto de datos para ajustar el modelo. El modelo final generalmente contiene el mayor número de funciones básicas.