Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.
El análisis crea tantos árboles como especifique, con una pequeña modificación en el modelo a partir de la información de cada árbol. Si el análisis incluye un método de validación, entonces el análisis calcula el valor del criterio de selección del modelo para los datos de entrenamiento y los datos de prueba para cada número de árboles. El valor óptimo de los datos de prueba determina el número de árboles en el modelo óptimo.
Los criterios de optimización, como la máxima R2, tienden a ser optimistas cuando se calculan con los mismos datos que se usan para ajustar un modelo. Los métodos de validación del modelo dejan una porción de los datos fuera del proceso de ajuste del modelo y después calculan las estadísticas que evalúan el rendimiento del modelo con los datos omitidos. Las técnicas de validación de modelos proporcionan una mejor estimación del rendimiento de los modelos en datos nuevos. Dependiendo de la selección de la función de pérdida para el análisis, el criterio es la R2 máxima o la desviación absoluta media (MAD) mínima. Minitab ofrece dos métodos de validación: validación cruzada con k-fold y validación con un conjunto de prueba por separado.
La validación cruzada con k-fold es el método predeterminado en Minitab cuando los datos tienen 2000 casos o menos. Dado que el proceso se repite K veces, la validación cruzada suele ser más lenta que la validación con datos de prueba.
En la validación con un conjunto de prueba, una parte de los datos se reserva para la validación. Los datos restantes son el conjunto de entrenamiento. En primer lugar, Minitab amplía la secuencia de árboles con el conjunto de entrenamiento. Luego, Minitab calcula los valores del criterio de selección del modelo para cada número de árboles utilizando el conjunto de prueba. El número de árboles con el mejor valor promedio es el modelo óptimo.
Sin ninguna validación, Minitab utiliza todo el conjunto de datos para ajustar el modelo. El modelo final contiene el mayor número de árboles.