Seleccione los valores de hiperparámetro que se van a evaluar a partir de los resultados de Clasificación TreeNet®

Ejecute Módulo de análisis predictivo > Clasificación TreeNet® > Ajustar modelo. Marca Ajustar hiperparámetros en los resultados.

Ejecute Módulo de análisis predictivo > Clasificación TreeNet® > Descubrir predictores clave. Marca Ajustar hiperparámetros en los resultados.

Ejecute Módulo de análisis predictivo > Descubrir el mejor modelo (Respuesta binaria). Marca Seleccionar modelo alternativo en los resultados.

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Revisión general

El rendimiento de los modelos TreeNet® suele ser sensible a los valores de la tasa de aprendizaje, la fracción de submuestra y la complejidad de los árboles individuales que forman el modelo. En los resultados de un modelo, haga clic Ajustar hiperparámetros para evaluar varios valores de estos hiperparámetros para saber qué combinación produce los mejores valores de un criterio de precisión, como el promedio –loglikelihood. Los mejores valores de estos hiperparámetros tienen el potencial de mejorar significativamente la precisión de la predicción, por lo que la exploración de diferentes valores es un paso común en el análisis.

También puede ajustar el número de árboles que incluye el modelo. Por lo general, el análisis funciona bien cuando se consideran todos los predictores en cada nodo. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que conducen a un mejor rendimiento del modelo cuando el análisis considera un subconjunto aleatorio diferente de predictores en cada nodo.

En general, 300 árboles son suficientes para distinguir los valores de los hiperparámetros. Por lo general, se aumenta el número de árboles cuando el número óptimo de árboles para uno o varios modelos de interés está cerca del número máximo de árboles. Si el número de árboles está más cerca del número máximo, es más probable que un aumento en el número de árboles mejore el rendimiento del modelo.

Parámetros de protección de sobreajuste

Especifique uno o varios valores para cada hiperparámetro que se va a evaluar. El análisis evalúa los hiperparámetros para encontrar la combinación con el mejor valor del criterio de precisión. Si no especifica ningún valor para un hiperparámetro, la evaluación utiliza el valor de ese hiperparámetro del modelo en los resultados. Si la respuesta es binaria y el modelo original especifica la proporción de eventos y no eventos que se van a muestrear, la evaluación siempre utiliza las proporciones del modelo original.

Tasa de aprendizaje

Introduzca hasta 10 valores. Los valores elegibles se encuentran entre 0.0001 y 1.

Fracción de submuestra

Introduzca hasta 10 valores. Los valores elegibles son superiores a 0 e inferiores o iguales a 1.

Fracción de submuestra se deshabilita cuando el modelo original especifica la proporción de eventos y no eventos que se van a muestrear para una respuesta binaria.

Parámetro de complejidad de árbol individual

Elija si desea evaluar el modelo Máximo de nodos terminales o el modelo Profundidad máxima del árbol. Por lo general, cualquiera de las dos opciones es una forma razonable de identificar un modelo útil y la selección depende solo de las preferencias individuales.
Máximo de nodos terminales
Introduzca hasta 3 valores. Los valores elegibles se encuentran entre 2 y 2000. Por lo general, el valor predeterminado de 6 proporciona un buen equilibrio entre la velocidad de cálculo y la investigación de las interacciones entre variables. Un valor de 2 elimina la investigación de las interacciones.
Profundidad máxima del árbol
Introduzca hasta 3 valores. Los valores elegibles se encuentran entre 2 y 1000 para representar la profundidad máxima de un árbol. El nodo raíz corresponde a una profundidad de 1. En muchas aplicaciones, las profundidades de 4 a 6 generan modelos razonablemente adecuados.

Número de predictores para la división de nodo

Introduzca hasta 3 valores. Los valores elegibles se encuentran entre 1 y el número total de predictores. En general, el análisis funciona bien cuando se considera el número total de predictores. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que generan mejor rendimiento del modelo cuando el análisis considera un número menor de predictores para cada nodo.

Número de árboles

Ingrese un valor entre 1 y 5000 para especificar el número máximo de árboles que se generarán. El valor predeterminado de 300 generalmente proporciona resultados útiles para la evaluación de los valores de hiperparámetros.

Si uno o más modelos de interés tienen un número de árboles cercano al número de árboles que especificó, entonces considere si desea incrementar el número de árboles.. Si el número de árboles está más cerca del número máximo, es más probable que un aumento en el número de árboles mejore el rendimiento del modelo.

Evaluar combinaciones completas de parámetros

Si especifica valores para más de un hiperparámetro, los modelos de la tabla de evaluación dependen de si evalúa las combinaciones completas de los hiperparámetros.
  • Si selecciona Evaluar combinaciones completas de parámetros, el algoritmo evalúa todas las combinaciones de los hiperparámetros. Por lo general, esta opción tarda más en calcularse.
  • De lo contrario, el algoritmo evalúa los hiperparámetros en este orden:
    1. Tasa de aprendizaje
    2. Fracción de submuestra
    3. Parámetro de complejidad de árbol individual
    Por ejemplo, supongamos que el algoritmo recibe los siguientes hiperparámetros:
    • Tasas de aprendizaje: 0.001, 0.01, 0.1
    • Fracciones de la submuestra: 0.4, 0.5, 0.7
    • Número máximo de nodos terminales: 4, 6
    1. El algoritmo establece la proporción de la submuestra en 0,4 y el número máximo de nodos terminales en 4. A continuación, el algoritmo evalúa las tasas de aprendizaje en orden de menor a mayor: 0.001, 0.01, 0.1.
    2. Supongamos que el algoritmo identifica 0,01 como la mejor tasa de aprendizaje. A continuación, el algoritmo establece la tasa de aprendizaje en 0,01 y el número máximo de nodos terminales en 4. A continuación, el algoritmo evalúa las proporciones de la submuestra de 0,4, 0,5 y 0,7.
    3. Supongamos que el algoritmo identifica 0,5 como la mejor proporción de submuestra. A continuación, el algoritmo establece la tasa de aprendizaje en 0,01 y la proporción de la submuestra en 0,5. A continuación, el algoritmo evalúa el número máximo de nodos de 4 y 6.
    4. Supongamos que el algoritmo identifica 6 como el mejor número máximo de nodos terminales. Luego, Minitab produce la tabla de evaluación y los resultados para el modelo con tasa de aprendizaje = 0.01, proporción de submuestra 0.5 y número máximo de nodos terminales 6.

    En este ejemplo, el análisis que no evalúa el conjunto completo de combinaciones de parámetros incluye 8 modelos en la tabla de evaluación. Un análisis de todas las combinaciones de parámetros tiene 3 × 3 × 2 = 18 combinaciones y lleva más tiempo calcularlo.

Mostrar resultados

Después de especificar los valores que se van a examinar, haga clic en Mostrar resultados. En un nuevo conjunto de resultados, Minitab produce una tabla que compara el criterio de precisión para las combinaciones de hiperparámetros y los resultados para el modelo con el mejor valor del criterio de precisión.

Minitab recrea las mismas tablas y gráficas para el nuevo modelo que para el modelo original. Las tablas y gráficos del nuevo modelo se encuentran en un nuevo conjunto de resultados. El almacenamiento es el mismo que para el análisis original. Las columnas de almacenamiento están en la misma hoja de cálculo. Por ejemplo, si el análisis original almacenó los valores ajustados en una columna titulada "Ajustar", el nuevo análisis titula una columna vacía "Fit_1" y almacena los valores ajustados.