Selección del número óptimo de árboles para Ajustar modelo y Descubrir predictores clave con Clasificación TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.

Elija el método o la fórmula de su elección.

El análisis crea tantos árboles como especifique, con una pequeña modificación en el modelo a partir de la información de cada árbol. Si el análisis incluye un método de validación, entonces el análisis calcula el valor del criterio de selección del modelo para los datos de entrenamiento y los datos de prueba para cada número de árboles. El valor óptimo del conjunto de prueba determina el número de árboles en el modelo óptimo.

Métodos de validación del modelo

Los criterios de optimización, como la máxima log-verosimilitud, tienden a ser optimistas cuando se calculan con los mismos datos que se usan para ajustar un modelo. Los métodos de validación del modelo dejan una porción de los datos fuera del proceso de ajuste del modelo y después calculan las estadísticas que evalúan el rendimiento del modelo con los datos omitidos. Las técnicas de validación de modelos proporcionan una mejor estimación del rendimiento de los modelos en datos nuevos. Dependiendo de su selección para el análisis, el criterio es la máxima log-verosimilitud, el área máxima bajo la curva ROC o la tasa mínima de clasificación errónea. Minitab ofrece dos métodos de validación: validación cruzada con k-fold y validación con un conjunto de prueba por separado.

El árbol óptimo con validación cruzada con k-fold

La validación cruzada con k-fold es el método predeterminado en Minitab cuando los datos tienen 2000 casos o menos. Dado que el proceso se repite K veces, la validación cruzada suele ser más lenta que la validación con un conjunto de prueba.

Procedimiento de validación cruzada con k-fold

Para completar la validación cruzada con k-fold, Minitab Statistical Software realiza los siguientes pasos:
  1. Se dividen los datos en K subconjuntos aleatorios de un tamaño tan similar como sea posible. Los subconjuntos se denominan grupos.
  2. Para el grupo k, k á 1, ..., K, se amplía la secuencia de árboles utilizando los grupos restantes de datos K–1. Calcule el valor del criterio de selección del modelo para cada árbol con los datos en el k.ésimo grupo.
  3. Repita el paso 2 para todos los grupos K.
  4. Promedie los valores del criterio de selección del modelo de todos los pliegues K para cada número de árboles. El número de árboles con el mejor valor promedio es el modelo óptimo.

El árbol óptimo con un conjunto de datos por separado

En la validación con un conjunto de prueba, una parte de los datos se reserva para la validación. Los datos restantes son el conjunto de entrenamiento. En primer lugar, Minitab amplía la secuencia de árboles con el conjunto de entrenamiento. Luego, Minitab calcula los valores del criterio de selección del modelo para cada número de árboles utilizando el conjunto de prueba. El número de árboles con el mejor valor promedio es el modelo óptimo.

El árbol óptimo sin validación

Sin ninguna validación, Minitab utiliza todo el conjunto de datos para ajustar el modelo. El modelo final contiene el mayor número de árboles.