Seleccionar valores de hiperparámetros para evaluar a partir de los resultados para Regresión TreeNet®

Ejecute Módulo de análisis predictivo > Regresión TreeNet® > Ajustar modelo. Marca Ajustar hiperparámetros en los resultados.

Ejecute Módulo de análisis predictivo > Regresión TreeNet® > Descubrir predictores clave. Marca Ajustar hiperparámetros en los resultados.

Ejecute Módulo de análisis predictivo > Descubrir el mejor modelo (Respuesta continua). Marca Seleccionar modelo alternativo en los resultados.

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Revisión general

El rendimiento de los modelos TreeNet® es generalmente sensible a los valores de la tasa de aprendizaje, la fracción de submuestra y la complejidad de los árboles individuales que forman el modelo. En los resultados de un modelo, haz clic Ajustar hiperparámetros para evaluar múltiples valores de estos hiperparámetros y así saber qué combinación produce los mejores valores de un criterio de precisión, como el valor máximo deR2 . Mejores valores de estos hiperparámetros tienen el potencial de mejorar significativamente la precisión de las predicciones, por lo que la exploración de diferentes valores es un paso común en el análisis.

También puedes ajustar el número de predictores para la división de nodos y el número de árboles que incluye el modelo. Normalmente, el análisis funciona bien si consideras todos los predictores en cada nodo. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que conducen a un mejor rendimiento del modelo cuando el análisis considera un subconjunto aleatorio diferente de predictores en cada nodo.

En general, 300 árboles son suficientes para distinguir los valores de los hiperparámetros. Generalmente, se aumenta el número de árboles cuando el número óptimo de árboles para uno o más modelos de interés está cerca del número máximo de árboles. Si el número de árboles está más cerca del número máximo, es más probable que un aumento en el número de árboles mejore el rendimiento del modelo.

Parámetros de protección de sobreajuste

Especifica uno o más valores para cada hiperparámetro a evaluar. El análisis evalúa los hiperparámetros para encontrar la combinación con el mejor valor del criterio de precisión. Si no introduces ningún valor para un hiperparámetro, la evaluación utiliza el valor de ese hiperparámetro del modelo en los resultados. Si la respuesta es binaria y el modelo original especifica la proporción de eventos y no eventos a muestrear, la evaluación siempre utiliza las proporciones del modelo original.

Tasa de aprendizaje

Introduzca hasta 10 valores. Los valores elegibles se encuentran entre 0.0001 y 1. A menos que selecciones Evaluar combinaciones completas de parámetros, la evaluación de la tasa de aprendizaje es la primera. Si la evaluación se realiza primero, entonces la evaluación de la tasa de aprendizaje utiliza el valor mínimo de la tasa de aprendizaje y la fracción submuestral.

Fracción de submuestra

Introduzca hasta 10 valores. Los valores elegibles son superiores a 0 e inferiores o iguales a 1. A menos que selecciones Evaluar combinaciones completas de parámetros, la evaluación de la submuestra es la segunda. Si la evaluación se realiza en segundo lugar, entonces la evaluación de la fracción submuestral utiliza el mejor valor que el análisis encontró para la tasa de aprendizaje y el valor más bajo de la fracción submuestral.

Fracción de submuestra se deshabilita cuando el modelo original especifica la proporción de eventos y no eventos a muestrear para una respuesta binaria.

Parámetro de complejidad de árbol individual

Elija si desea evaluar el modelo Máximo de nodos terminales o el modelo Profundidad máxima del árbol. Normalmente, cualquiera de las dos opciones es una forma razonable de identificar un modelo útil y la selección depende únicamente de la preferencia individual. A menos que selecciones Evaluar combinaciones completas de parámetros, la evaluación del parámetro de complejidad es la última. Si la evaluación ocurre al final, entonces utiliza el mejor valor que el análisis ya encontró para la tasa de aprendizaje y para la fracción submuestral.
Máximo de nodos terminales
Introduzca hasta 3 valores. Los valores elegibles se encuentran entre 2 y 2000. Por lo general, el valor predeterminado de 6 proporciona un buen equilibrio entre la velocidad de cálculo y la investigación de las interacciones entre variables. Un valor de 2 elimina la investigación de las interacciones.
Profundidad máxima del árbol
Introduzca hasta 3 valores. Los valores elegibles se encuentran entre 2 y 1000 para representar la profundidad máxima de un árbol. El nodo raíz corresponde a una profundidad de 1. En muchas aplicaciones, las profundidades de 4 a 6 generan modelos razonablemente adecuados.

Número de predictores para la división de nodo

Introduzca hasta 3 valores. Los valores elegibles se encuentran entre 1 y el número total de predictores. En general, el análisis funciona bien cuando se considera el número total de predictores. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que generan mejor rendimiento del modelo cuando el análisis considera un número menor de predictores para cada nodo.

Número de árboles

Ingrese un valor entre 1 y 5000 para establecer el número máximo de árboles que se construirán. El valor predeterminado de 300 generalmente proporciona resultados útiles para la evaluación de los valores de hiperparámetros.

Si uno o más modelos de interés tienen un número de árboles cercano al número de árboles que especificó, entonces considere si desea incrementar el número de árboles.. Si el número de árboles está más cerca del número máximo, es más probable que un aumento en el número de árboles mejore el rendimiento del modelo.

Evaluar combinaciones completas de parámetros

Si especificas valores para más de un hiperparámetro, entonces los modelos en la tabla de evaluación dependen de si evalúas las combinaciones completas de los hiperparámetros.
  • Si seleccionas Evaluar combinaciones completas de parámetros, entonces el algoritmo evalúa todas las combinaciones de los hiperparámetros. Esta opción generalmente tarda más en calcularse.
  • De lo contrario, el algoritmo evalúa los hiperparámetros en este orden:
    1. Tasa de aprendizaje
    2. Fracción de submuestra
    3. Parámetro de complejidad de árbol individual
    Por ejemplo, supongamos que el algoritmo recibe los siguientes hiperparámetros:
    • Tasas de aprendizaje: 0.001, 0.01, 0.1
    • Fracciones de submuestras: 0.4, 0.5, 0.7
    • Número máximo de nodos terminales: 4, 6
    1. El algoritmo establece la proporción de submuestra en 0,4 y el número máximo de nodos terminales en 4. Luego, el algoritmo evalúa las tasas de aprendizaje en orden de menor a mayor: 0.001, 0.01, 0.1.
    2. Supongamos que el algoritmo identifica 0,01 como la mejor tasa de aprendizaje. Luego el algoritmo establece la tasa de aprendizaje en 0,01 y el número máximo de nodos terminales en 4. Luego, el algoritmo evalúa las proporciones de submuestra de 0,4, 0,5 y 0,7.
    3. Supongamos que el algoritmo identifica 0,5 como la mejor proporción de submuestra. Luego el algoritmo establece la tasa de aprendizaje en 0,01, y la proporción submuestral en 0,5. Luego, el algoritmo evalúa el número máximo de nodos de 4 y 6.
    4. Supongamos que el algoritmo identifica 6 como el mejor número máximo de nodos terminales. Luego Minitab produce la tabla de evaluación y los resultados para el modelo con tasa de aprendizaje = 0,01, proporción submuestral 0,5 y número máximo de nodos terminales 6.

    En este ejemplo, el análisis que no evalúa el conjunto completo de combinaciones de parámetros incluye 8 modelos en la tabla de evaluación. Un análisis de todas las combinaciones de parámetros tiene 3 × 3 × 2 = 18 combinaciones y tarda más en calcularse.

Mostrar resultados

Después de especificar los valores a examinar, haz clic Mostrar resultadosen . En un nuevo conjunto de resultados, Minitab produce una tabla que compara el criterio de precisión para las combinaciones de hiperparámetros y los resultados del modelo con el mejor valor del criterio de precisión.

Minitab recrea las mismas tablas y gráficos para el nuevo modelo que para el modelo original. Las tablas y gráficos para el nuevo modelo están en un nuevo conjunto de resultados. El almacenamiento es el mismo que en el análisis original. Las columnas de almacenamiento están en la misma hoja de cálculo. Por ejemplo, si el análisis original almacenaba los valores ajustados en una columna titulada "Ajustar", entonces el nuevo análisis titula una columna vacía como "Fit_1" y almacena los valores ajustados.