Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.
La función de pérdida que Minitab utiliza para crear el modelo. Minitab utiliza el error al cuadrado (opción predeterminada), la desviación absoluta o la función de pérdida de Huber.
La función de pérdida de desviación absoluta intenta reducir la influencia de los puntos que menos se ajustan en comparación con la función de mínimo cuadrado del error. La función de pérdida de Huber equilibra las otras dos funciones de pérdida, ya que utiliza la función de pérdida de mínimo cuadrado del error. para los residuos absolutos más pequeños y la función de pérdida de desviación absoluta menor para los residuos absolutos más grandes.
Minitab utiliza el método de validación cruzada o utiliza un conjunto de pruebas separado para validar el modelo. Con la validación cruzada, puede especificar las filas para cada pliegue o permitir una selección aleatoria. Con un conjunto de pruebas independiente, puede especificar las filas para los conjuntos de entrenamiento y de prueba o permitir una selección aleatoria.
Las tasas de aprendizaje bajas otorgan a cada nuevo árbol del modelo una ponderación menor que las tasas de aprendizaje más altas y a veces producen más árboles para el modelo. El modelo con una tasa de aprendizaje baja tiene menos posibilidades de sobreajustarse al conjunto de datos de entrenamiento.
La tasa de aprendizaje predeterminada es igual a máx[0.01, 0.1 * mín(1.0, N/10000). Si utiliza una tasa de aprendizaje baja, convendría que aumente el número máximo de árboles en el modelo para que el número óptimo de árboles sea menor que el número máximo de árboles.
La fracción de submuestra muestra la fracción de los datos que el análisis utiliza para crear cada árbol. Ajuste este parámetro si le preocupa que haya sobreajuste.
Indica el número mínimo de casos para un nodo terminal. Por ejemplo, si el tamaño mínimo es 3 y una división crearía un nodo con menos de 3 casos, Minitab no realiza una división.
Esta fila indica si la división de nodos considera cada predictor en cada nodo o un subconjunto aleatorio de los predictores. Si la división de nodos utiliza un subconjunto aleatorio, esta fila indica la selección del número de predictores que se considerarán.
Si usted utiliza todos los predictores inicialmente, considere utilizar un subconjunto de predictores en modelos posteriores para comparar el rendimiento de los modelos.
De forma predeterminada, el análisis no tiene una penalización de valor faltante y esta fila no está presente. La penalización por valores faltantes penaliza a una variable predictora por la proporción de valores faltantes. Es menos probable que una variable con una penalización alta se convierta en el divisor de un nodo.
De forma predeterminada, el análisis no tiene una penalización de categoría de alto nivel y esta fila no está presente. La penalización por categoría de nivel alto penaliza a una variable según el número de niveles categóricos en relación con el tamaño del nodo para cada nodo. Por lo tanto, es menos probable que un competidor con muchos niveles se convierta en el divisor de un nodo.
Indica la columna que se utiliza para ponderar la respuesta.
El número de observaciones de respuesta que están en el análisis y que se ajustan al modelo y lo evalúan.
El número de observaciones de respuesta faltantes. Esto también incluye los valores faltantes o ceros en la columna de ponderación.