Optimización de hiperparámetros para Ajustar modelo y Descubrir predictores clave con Clasificación TreeNet®

Buscar definiciones y orientación para interpretar la tabla de evaluación del modelo.
Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información acerca de cómo activar el módulo.

Utilice los resultados para comparar qué tan buen rendimiento tienen los modelos con diferentes configuraciones para los hiperparámetros. Haga clic Ajustar hiperparámetros para evaluar valores adicionales de los hiperparámetros.

Número óptimo de árboles

El número óptimo de árboles suele diferir en cada paso. Cuando el número óptimo está cerca del número máximo de árboles para el análisis, es más probable que el modelo mejore si aumenta el número de árboles que un modelo con un número óptimo de árboles que está lejos del máximo. Puede considerar la opción de explorar más a fondo un modelo alternativo que tenga la probabilidad de mejorar.

Log-verosimilitud promedio

El promedio de log-verosimilitud es una medida de la precisión del modelo. Los valores más pequeños indican un mejor ajuste.

Cuando la respuesta es binaria, puede utilizar la máxima log-verosimilitud como criterio para la selección del mejor modelo. Los resultados completos que siguen a la tabla son para el modelo con el menor valor de log-verosimilitud promedio.

Área bajo la curva ROC

La curva ROC representa la tasa de verdaderos positivos (TPR), también conocida como potencia, en el eje Y. La curva ROC representa la tasa de falsos positivos (FPR), también conocida como error de tipo 1, en el eje X. El área bajo una curva ROC indica si el modelo es un buen clasificador.

Para los árboles de clasificación, los valores del área bajo la curva ROC normalmente varían de 0.5 a 1. Valores más grandes indican un mejor modelo de clasificación. Cuando el modelo puede separar perfectamente las clases, el área bajo la curva es 1. Cuando el modelo no puede separar las clases mejor que una asignación aleatoria, el área bajo la curva es 0.5.

Cuando se utiliza el área máxima bajo la curva ROC como criterio para la selección del mejor modelo, la tabla incluye el área bajo la curva ROC para cada modelo. Los resultados completos que siguen a la tabla son para el modelo con el área más grande bajo la curva ROC.

Tasa de clasificación errónea

La tasa de clasificación errónea indica la frecuencia con la que el modelo clasifica con precisión los valores de respuesta. Loa valores más pequeños indican mejor rendimiento.

Cuando se utiliza la tasa de clasificación errónea mínima como criterio para la selección del mejor modelo, la tabla incluye la tasa de clasificación errónea para cada modelo. Los resultados completos que siguen a la tabla son para el modelo con la menor tasa de clasificación errónea.

Tasa de aprendizaje

Las tasas de aprendizaje bajas otorgan a cada nuevo árbol del modelo una ponderación menor que las tasas de aprendizaje más altas y a veces producen más árboles para el modelo. Un modelo con una tasa de aprendizaje baja tiene menos posibilidades de sobreajustarse al conjunto de datos de entrenamiento. Los modelos con bajas tasas de aprendizaje generalmente utilizan más árboles para encontrar el número óptimo de árboles.

Fracción de submuestra

La fracción de submuestra es la proporción de datos que el análisis utiliza para crear cada árbol.

Máximo de nodos terminales por árbol

Clasificación TreeNet® combina muchos árboles CART® pequeños para crear un modelo potente. La tabla incluye cualquier hiperparámetro que esté en el análisis, ya sea el número máximo de nodos de terminal por árbol o la profundidad máxima del árbol. Los árboles con más nodos terminales pueden modelar interacciones más complejas. En general, los valores superiores a 12 podrían ralentizar el análisis sin beneficiar el modelo.

Profundidad máxima del árbol

Clasificación TreeNet® combina muchos árboles CART® pequeños para crear un modelo potente. Puede especificar el número máximo de nodos terminales o la profundidad máxima del árbol para estos árboles CART® más pequeños. Los árboles más profundos pueden modelar interacciones más complejas. Los valores del 4 al 6 son adecuados para muchos conjuntos de datos.