Criterio para seleccionar el número óptimo de árboles

Minitab utiliza la log-verosimilitud máxima (opción predeterminada), el área máxima bajo la curva ROC o la tasa mínima de clasificaciones erróneas para seleccionar el número óptimo de árboles.

Validación del modelo

Minitab utiliza el método de validación cruzada o utiliza un conjunto de pruebas separado para validar el modelo. Con la validación cruzada, puede especificar las filas para cada pliegue o permitir una selección aleatoria. Con un conjunto de pruebas independiente, puede especificar las filas para los conjuntos de entrenamiento y de prueba o permitir una selección aleatoria.

Tasa de aprendizaje

Las tasas de aprendizaje bajas otorgan a cada nuevo árbol del modelo una ponderación menor que las tasas de aprendizaje más altas y a veces producen más árboles para el modelo. El modelo con una tasa de aprendizaje baja tiene menos posibilidades de sobreajustarse al conjunto de datos de entrenamiento.

La tasa de aprendizaje predeterminada es igual a máx[0.01, 0.1 * mín(1.0, N/10000). Si utiliza una tasa de aprendizaje baja, convendría que aumente el número máximo de árboles en el modelo para que el número óptimo de árboles sea menor que el número máximo de árboles.

Método de selección de submuestras

El método de selección de submuestras muestra la fracción de los datos que el análisis utiliza para crear cada árbol. Ajuste este parámetro si le preocupa que haya sobreajuste. Si el análisis especifica una fracción separada para cada clase en una variable de respuesta binaria, el método muestra ambos valores. La opción de especificar la fracción para cada nivel de respuesta garantiza que los árboles contengan una cantidad mínima de cada valor de respuesta cuando uno de los valores sea excepcional.

Máximo de nodos terminales por árbol o profundidad máxima del árbol

Clasificación TreeNet® combina muchos árboles CART® pequeños para crear un modelo potente. Puede especificar el número máximo de nodos terminales o la profundidad máxima del árbol para estos árboles CART® más pequeños.
Máximo de nodos terminales por árbol
El número máximo predeterminado de nodo terminales es 6. Si bien un número máximo más grande de nodos terminales por árbol puede mejorar la capacidad de detectar interacciones, los valores superiores a 12 podrían ralentizar el análisis sin mucho beneficio para el modelo.
Profundidad máxima del árbol
La profundidad máxima predeterminada del árbol es 4. Si el modelo ajustado inicial no funciona bien, considere una mayor profundidad máxima del árbol, como 5 o 6, para ver si el modelo mejora con una mayor profundidad máxima del árbol.

Tamaño mínimo del nodo terminal

Indica el número mínimo de casos para un nodo terminal. Por ejemplo, si el tamaño mínimo es 3 y una división crearía un nodo con menos de 3 casos, Minitab no realiza una división.

Número de predictores seleccionados para la división de nodos

Esta fila indica si la división de nodos considera cada predictor en cada nodo o un subconjunto aleatorio de los predictores. Si la división de nodos utiliza un subconjunto aleatorio, esta fila indica la selección del número de predictores que se considerarán.

Si usted utiliza todos los predictores inicialmente, considere utilizar un subconjunto de predictores en modelos posteriores para comparar el rendimiento de los modelos.

Penalización por valor faltante

De forma predeterminada, el análisis no tiene una penalización por valor faltante y esta fila no está presente. La penalización por valores faltantes penaliza a una variable predictora por la proporción de valores faltantes. Es menos probable que una variable con una penalización alta se convierta en el divisor de un nodo.

Penalización por categoría de nivel alto

De forma predeterminada, el análisis no tiene una penalización por categoría de alto nivel y esta fila no está presente. La penalización por categoría de alto nivel penaliza a una variable según el número de niveles categóricos en relación con el tamaño del nodo para cada nodo. Por lo tanto, es menos probable que un competidor con muchos niveles se convierta en el divisor de un nodo.

Ponderaciones

Indica la columna que se utiliza para ponderar la respuesta.

Filas utilizadas

El número de observaciones de respuesta que están en el análisis y que se ajustan al modelo y lo evalúan.

Filas no utilizadas

El número de observaciones de respuesta faltantes. Esto también incluye los valores faltantes o ceros en la columna de ponderación.