Seleccionar las opciones de análisis para Ajustar modelo y Descubrir predictores clave con Regresión TreeNet®

Las opciones de análisis son las mismas para los siguientes análisis:

Módulo de análisis predictivo > Regresión TreeNet® > Ajustar modelo > Opciones

Módulo de análisis predictivo > Regresión TreeNet® > Descubrir predictores clave > Opciones

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.

Seleccione las opciones de análisis.

Loss function
Elija la función de pérdida para crear el modelo. Puede comparar los resultados de varias funciones para determinar la mejor opción para el uso específico.
  • Error al cuadrado: La función de error cuadrático es la opción predeterminada. Ésta es una función de pérdida basada en la media. Esta función de pérdida funciona bien en muchas aplicaciones.
  • Desviación absoluta: La función de desviación absoluta es una función de pérdida basada en la mediana.
  • Huber: La función Huber es un híbrido del error cuadrático y la función de desviación absoluta.
Con la función Huber, especifique un Valor de cambio. La función de pérdida se inicia como el error cuadrático. La función de pérdida sigue siendo el error cuadrático siempre que el valor sea menor que el valor de conmutación. Si el error cuadrático supera el valor de conmutación, la función de pérdida pasa a ser la desviación absoluta. Si la desviación absoluta llega a ser menor que el valor de conmutación, las funciones de pérdida se convierten en el error cuadrático.
Número de árboles
Ingrese un valor entre 1 y 5000 para establecer el número máximo de árboles que se construirán. El valor predeterminado de 300 proporciona resultados iniciales útiles.
Si el modelo seleccionado inicialmente está cerca del número de árboles que usted especifica, considere aumentar el número de árboles para buscar un mejor modelo.
Máximo de nodos terminales por árbol y Profundidad máxima del árbol
También puede limitar el tamaño de los árboles. Elija una de las siguientes opciones para limitar el tamaño de los árboles.
  • Máximo de nodos terminales por árbol: Ingrese un valor entre 2 y 2000 para representar el número máximo de nodos terminales de un árbol. Por lo general, el valor predeterminado de 6 proporciona un buen equilibrio entre la velocidad de cálculo y la investigación de las interacciones entre variables. Un valor de 2 elimina la investigación de las interacciones.
  • Profundidad máxima del árbol: Ingrese un valor entre 2 y 1000 para representar la profundidad máxima de un árbol. El nodo raíz corresponde a una profundidad de 1. La profundidad predeterminada es 4. En muchas aplicaciones, las profundidades de 4 a 6 proporcionan modelos razonablemente adecuados.
Número mínimo de casos permitidos para un nodo terminal
Ingrese el número mínimo de casos para un nodo terminal. Por ejemplo, si el tamaño mínimo es 3 y una división crearía un nodo con menos de 3 casos, Minitab no realiza una división.
Protección de sobreajuste
Utilice las siguientes opciones para minimizar el sobreajuste del modelo.
Tasa de aprendizaje
La tasa de aprendizaje es uno de los dos hiperparámetros extremadamente importantes que puede ajustar para identificar un modelo óptimo para sus datos.
Por opción predeterminada, si el número de casos en sus datos de entrenamiento es 1000 o menos, Minitab utiliza 0.01 como la tasa de aprendizaje. Para conjuntos de datos con más de 1000 casos, la tasa de aprendizaje predeterminada es máx[0.01, 0.1 * mín(1.0, N/10000)]. Por ejemplo, cuando el conjunto de datos tiene 9000 respuestas, la tasa de aprendizaje es igual a 0.09.
Si el modelo inicial no predice bien los datos, considere aumentar o disminuir la tasa de aprendizaje en 5 o diez veces para ver si puede obtener un mejor modelo.
Fracción de submuestra
Especifique la proporción de los datos de aprendizaje que se seleccionará aleatoriamente para crear cada árbol en el análisis. Por lo general, la fracción de 0.5 funciona adecuadamente. Considere aumentar la fracción del valor predeterminado de 0.5 a 0.70 o más si el modelo inicial no se ajusta adecuadamente a los datos.
Número de predictores para la división de nodo
Especifique el número de predictores a tener en cuenta para cada división de nodos. Normalmente, el análisis funciona bien cuando se consideran todos los predictores en cada nodo. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que conducen a un mejor rendimiento del modelo cuando el análisis considera un subconjunto aleatorio diferente de predictores en cada nodo. Para estos casos, la raíz cuadrada del número total de predictores es un punto de partida típico. Después de utilizar la raíz cuadrada y ver el modelo, puede considerar especificar un número mayor o menor de predictores con un porcentaje del total.
  • Número total de predictores: Seleccione esta opción para utilizar todos los predictores para dividir nodos.
  • Raíz cuadrada del número total de predictores: Seleccione esta opción para utilizar la raíz cuadrada del número total de predictores para dividir nodos.
  • K por ciento del número total de predictores; K =: Seleccione esta opción para utilizar un porcentaje de predictores para dividir nodos.
Base para el generador de números aleatorios
Puede especificar una base para el generador de números aleatorios para seleccionar aleatoriamente las submuestras y el subconjunto de predictores. Normalmente, no es necesario cambiar la base. Puede cambiar la base para explorar la sensibilidad de los resultados a las selecciones aleatorias o para garantizar la misma selección aleatoria para análisis repetidos.
Ponderaciones
Escriba una columna que contenga las ponderaciones del caso. La columna debe tener el mismo número de filas que la columna de respuestas. Los valores deben ser ≥ 0. Minitab omite del análisis las filas que contienen valores faltantes o ceros.