Loss function

La función de pérdida que Minitab utiliza para crear el modelo. Minitab utiliza el error al cuadrado (opción predeterminada), la desviación absoluta o la función de pérdida de Huber.

La función de pérdida de desviación absoluta intenta reducir la influencia de los puntos que menos se ajustan en comparación con la función de mínimo cuadrado del error. La función de pérdida de Huber equilibra las otras dos funciones de pérdida, ya que utiliza la función de pérdida de mínimo cuadrado del error. para los residuos absolutos más pequeños y la función de pérdida de desviación absoluta menor para los residuos absolutos más grandes.

Validación del modelo

Minitab utiliza el método de validación cruzada o utiliza un conjunto de pruebas separado para validar el modelo. Con la validación cruzada, puede especificar las filas para cada pliegue o permitir una selección aleatoria. Con un conjunto de pruebas independiente, puede especificar las filas para los conjuntos de entrenamiento y de prueba o permitir una selección aleatoria.

Tasa de aprendizaje

Las tasas de aprendizaje bajas otorgan a cada nuevo árbol del modelo una ponderación menor que las tasas de aprendizaje más altas y a veces producen más árboles para el modelo. El modelo con una tasa de aprendizaje baja tiene menos posibilidades de sobreajustarse al conjunto de datos de entrenamiento.

La tasa de aprendizaje predeterminada es igual a máx[0.01, 0.1 * mín(1.0, N/10000). Si utiliza una tasa de aprendizaje baja, convendría que aumente el número máximo de árboles en el modelo para que el número óptimo de árboles sea menor que el número máximo de árboles.

Fracción de submuestra

La fracción de submuestra muestra la fracción de los datos que el análisis utiliza para crear cada árbol. Ajuste este parámetro si le preocupa que haya sobreajuste.

Máximo de nodos terminales por árbol o profundidad máxima del árbol

Regresión TreeNet® combina muchos árboles CART® pequeños para crear un modelo potente. Puede especificar el número máximo de nodos terminales o la profundidad máxima del árbol para estos árboles CART® más pequeños.
Máximo de nodos terminales por árbol
El número máximo predeterminado de nodo terminales es 6. Si bien un número máximo más grande de nodos terminales por árbol puede mejorar la capacidad de detectar interacciones, los valores superiores a 12 podrían ralentizar el análisis sin mucho beneficio para el modelo.
Profundidad máxima del árbol
La profundidad máxima predeterminada del árbol es 4. Si el modelo ajustado inicial no funciona bien, considere una mayor profundidad máxima del árbol, como 5 o 6, para ver si el modelo mejora con una mayor profundidad máxima del árbol.

Tamaño mínimo del nodo terminal

Indica el número mínimo de casos para un nodo terminal. Por ejemplo, si el tamaño mínimo es 3 y una división crearía un nodo con menos de 3 casos, Minitab no realiza una división.

Número de predictores seleccionados para la división de nodos

Esta fila indica si la división de nodos considera cada predictor en cada nodo o un subconjunto aleatorio de los predictores. Si la división de nodos utiliza un subconjunto aleatorio, esta fila indica la selección del número de predictores que se considerarán.

Si usted utiliza todos los predictores inicialmente, considere utilizar un subconjunto de predictores en modelos posteriores para comparar el rendimiento de los modelos.

Penalización por valor faltante

De forma predeterminada, el análisis no tiene una penalización de valor faltante y esta fila no está presente. La penalización por valores faltantes penaliza a una variable predictora por la proporción de valores faltantes. Es menos probable que una variable con una penalización alta se convierta en el divisor de un nodo.

Penalización por categoría de nivel alto

De forma predeterminada, el análisis no tiene una penalización de categoría de alto nivel y esta fila no está presente. La penalización por categoría de nivel alto penaliza a una variable según el número de niveles categóricos en relación con el tamaño del nodo para cada nodo. Por lo tanto, es menos probable que un competidor con muchos niveles se convierta en el divisor de un nodo.

Ponderaciones

Indica la columna que se utiliza para ponderar la respuesta.

Filas utilizadas

El número de observaciones de respuesta que están en el análisis y que se ajustan al modelo y lo evalúan.

Filas no utilizadas

El número de observaciones de respuesta faltantes. Esto también incluye los valores faltantes o ceros en la columna de ponderación.