Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.
Minitab utiliza la log-verosimilitud máxima (opción predeterminada), el área máxima bajo la curva ROC o la tasa mínima de clasificaciones erróneas para seleccionar el número óptimo de árboles.
Minitab utiliza el método de validación cruzada o utiliza un conjunto de pruebas separado para validar el modelo. Con la validación cruzada, puede especificar las filas para cada pliegue o permitir una selección aleatoria. Con un conjunto de pruebas independiente, puede especificar las filas para los conjuntos de entrenamiento y de prueba o permitir una selección aleatoria.
Las tasas de aprendizaje bajas otorgan a cada nuevo árbol del modelo una ponderación menor que las tasas de aprendizaje más altas y a veces producen más árboles para el modelo. El modelo con una tasa de aprendizaje baja tiene menos posibilidades de sobreajustarse al conjunto de datos de entrenamiento.
La tasa de aprendizaje predeterminada es igual a máx[0.01, 0.1 * mín(1.0, N/10000). Si utiliza una tasa de aprendizaje baja, convendría que aumente el número máximo de árboles en el modelo para que el número óptimo de árboles sea menor que el número máximo de árboles.
El método de selección de submuestras muestra la fracción de los datos que el análisis utiliza para crear cada árbol. Ajuste este parámetro si le preocupa que haya sobreajuste. Si el análisis especifica una fracción separada para cada clase en una variable de respuesta binaria, el método muestra ambos valores. La opción de especificar la fracción para cada nivel de respuesta garantiza que los árboles contengan una cantidad mínima de cada valor de respuesta cuando uno de los valores sea excepcional.
Indica el número mínimo de casos para un nodo terminal. Por ejemplo, si el tamaño mínimo es 3 y una división crearía un nodo con menos de 3 casos, Minitab no realiza una división.
Esta fila indica si la división de nodos considera cada predictor en cada nodo o un subconjunto aleatorio de los predictores. Si la división de nodos utiliza un subconjunto aleatorio, esta fila indica la selección del número de predictores que se considerarán.
Si usted utiliza todos los predictores inicialmente, considere utilizar un subconjunto de predictores en modelos posteriores para comparar el rendimiento de los modelos.
De forma predeterminada, el análisis no tiene una penalización por valor faltante y esta fila no está presente. La penalización por valores faltantes penaliza a una variable predictora por la proporción de valores faltantes. Es menos probable que una variable con una penalización alta se convierta en el divisor de un nodo.
De forma predeterminada, el análisis no tiene una penalización por categoría de alto nivel y esta fila no está presente. La penalización por categoría de alto nivel penaliza a una variable según el número de niveles categóricos en relación con el tamaño del nodo para cada nodo. Por lo tanto, es menos probable que un competidor con muchos niveles se convierta en el divisor de un nodo.
Indica la columna que se utiliza para ponderar la respuesta.
El número de observaciones de respuesta que están en el análisis y que se ajustan al modelo y lo evalúan.
El número de observaciones de respuesta faltantes. Esto también incluye los valores faltantes o ceros en la columna de ponderación.