Criterio
para seleccionar el número óptimo de árboles
Elija el método para generar el modelo óptimo. Puede comparar los resultados de varios métodos para determinar la mejor opción para el uso específico.
Máxima
log-verosimilitud: El método de máxima verosimilitud encuentra el máximo de funciones de verosimilitud para los datos. Este es el valor predeterminado con una respuesta binaria.
Máxima área bajo
la curva ROC: El método de área máxima bajo la curva ROC funciona adecuadamente en muchas aplicaciones. El área bajo la curva ROC mide qué tan efectivo es el modelo para clasificar las filas desde los que tengan más probabilidad de producir un evento hasta los que tengan menos probabilidad de producir un evento. Esta opción está disponible con una respuesta binaria.
Tasa
mínima de clasificación errónea: Seleccione esta opción para mostrar los resultados del modelo que minimiza la tasa de clasificación errónea. La tasa de clasificación errónea se basa en un conteo simple de la frecuencia con la que el modelo predice un caso de forma correcta o incorrecta. Este es el valor predeterminado con una respuesta multinomial.
Ingrese un valor entre 1 y 5000 para establecer el número máximo de árboles que se construirán. El valor predeterminado de 300 proporciona resultados iniciales útiles.
Si el modelo seleccionado inicialmente está cerca del número de árboles que usted especifica, considere aumentar el número de árboles para buscar un mejor modelo.
Máximo de
nodos terminales por árbol y Profundidad
máxima del árbol
También puede limitar el tamaño de los árboles. Elija una de las siguientes opciones para limitar el tamaño de los árboles.
Máximo de
nodos terminales por árbol: Ingrese un valor entre 2 y 2000 para representar el número máximo de nodos terminales de un árbol. Por lo general, el valor predeterminado de 6 proporciona un buen equilibrio entre la velocidad de cálculo y la investigación de las interacciones entre variables. Un valor de 2 elimina la investigación de las interacciones.
Profundidad
máxima del árbol: Ingrese un valor entre 2 y 1000 para representar la profundidad máxima de un árbol. El nodo raíz corresponde a una profundidad de 1. La profundidad predeterminada es 4. En muchas aplicaciones, las profundidades de 4 a 6 proporcionan modelos razonablemente adecuados.
Número
mínimo de casos permitidos para un nodo terminal
Ingrese el número mínimo de casos para un nodo terminal. Por ejemplo, si el tamaño mínimo es 3 y una división crearía un nodo con menos de 3 casos, Minitab no realiza una división.
Protección de
sobreajuste
Utilice las siguientes opciones para minimizar el sobreajuste del modelo.
Tasa de
aprendizaje
La tasa de aprendizaje es uno de los dos hiperparámetros extremadamente importantes que puede ajustar para identificar un modelo óptimo para sus datos.
Por opción predeterminada, si el número de casos en sus datos de entrenamiento es 1000 o menos, Minitab utiliza 0.01 como la tasa de aprendizaje. Para conjuntos de datos con más de 1000 casos, la tasa de aprendizaje predeterminada es máx[0.01, 0.1 * mín(1.0, N/10000)]. Por ejemplo, cuando el conjunto de datos tiene 9000 respuestas, la tasa de aprendizaje es igual a 0.09.
Si el modelo inicial no predice bien los datos, considere aumentar o disminuir la tasa de aprendizaje en 5 o diez veces para ver si puede obtener un mejor modelo.
Randomize subsample selection
Elija si desea crear cada árbol del análisis a partir de una submuestra de todo el conjunto de datos de entrenamiento o a partir de submuestras dentro de cada nivel de respuesta.
Dentro de
todo el conjunto de datos: Seleccione una muestra aleatoria de todo el conjunto de datos de entrenamiento. Por lo general, la fracción de 0.5 funciona adecuadamente. Considere aumentar la fracción del valor predeterminado de 0.5 a 0.70 o más si el modelo inicial no se ajusta adecuadamente a los datos.
Dentro de
cada nivel de respuesta: Tome una submuestra de los casos de la clase de evento en los datos de entrenamiento y una submuestra de los casos de la clase de no evento en los datos de entrenamiento. Puede utilizar esta opción para asegurarse de que haya suficientes casos de una clase excepcional en cada submuestra. Si una clase es lo suficientemente excepcional, puede ingresar 1 para incluir todos sus casos en cada submuestra.
Fracción de
submuestra
Especifique la proporción de los datos de aprendizaje que se seleccionará aleatoriamente para crear cada árbol en el análisis. Por lo general, la fracción de 0.5 funciona adecuadamente. Considere aumentar la fracción del valor predeterminado de 0.5 a 0.70 o más si el modelo inicial no se ajusta adecuadamente a los datos.
Número de
predictores para la división de nodo
Especifique el número de predictores a tener en cuenta para cada división de nodos. Normalmente, el análisis funciona bien cuando se consideran todos los predictores en cada nodo. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que conducen a un mejor rendimiento del modelo cuando el análisis considera un subconjunto aleatorio diferente de predictores en cada nodo. Para estos casos, la raíz cuadrada del número total de predictores es un punto de partida típico. Después de utilizar la raíz cuadrada y ver el modelo, puede considerar especificar un número mayor o menor de predictores con un porcentaje del total.
Número total
de predictores: Seleccione esta opción para utilizar todos los predictores para dividir nodos.
Raíz
cuadrada del número total de predictores: Seleccione esta opción para utilizar la raíz cuadrada del número total de predictores para dividir nodos.
K por
ciento del número total de predictores; K =: Seleccione esta opción para utilizar un porcentaje de predictores para dividir nodos.
Base para el generador
de números aleatorios
Puede especificar una base para el generador de números aleatorios para seleccionar aleatoriamente las submuestras y el subconjunto de predictores. Normalmente, no es necesario cambiar la base. Puede cambiar la base para explorar la sensibilidad de los resultados a las selecciones aleatorias o para garantizar la misma selección aleatoria para análisis repetidos.
Ponderaciones
Escriba una columna que contenga las ponderaciones del caso. La columna debe tener el mismo número de filas que la columna de respuestas. Los valores deben ser ≥ 0. Minitab omite del análisis las filas que contienen valores faltantes o ceros.