Seleccionar las opciones para Descubrir el mejor modelo (Respuesta continua)

Módulo de análisis predictivo > Regresión Random Forests® > Descubrir el mejor modelo (Respuesta continua) > Opciones

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

En este tema

Criterio para seleccionar el mejor modelo
Utilice la función de pérdida de Huber con el valor de cambio K para ajustar los modelos de Regresión TreeNet®: K =
Opciones para modelos de regresión TreeNet®
Opciones para modelos de regresión Random Forests®
Opciones para modelos de regresión CART®
Opciones para modelos de regresión MARS®
Base para el generador de números aleatorios

Seleccione los criterios para determinar el mejor modelo y especifique las opciones para los diferentes tipos de modelo. También puede especificar una base para el generador de números aleatorios.

Criterio para seleccionar el mejor modelo

Elija el criterio para determinar el mejor tipo de modelo. Puede comparar los resultados de varios métodos para determinar la mejor opción para el uso específico.

R-cuadrado máximo: El método predeterminado funciona bien en muchas aplicaciones. El método minimiza la suma de los errores cuadráticos.
Desviación absoluta media mínima: Este método minimiza la suma de los valores absolutos de los errores.

Utilice la función de pérdida de Huber con el valor de cambio K para ajustar los modelos de Regresión TreeNet®: K =

La función de Huber es un híbrido de la función de R cuadrada máxima y de la función del valor mínimo de la desviación absoluta media. Con la función de Huber, especifique un valor de conmutación. La función de pérdida se inicia como el error al cuadrado. La función de pérdida sigue siendo el error al cuadrado siempre que el valor sea menor que el valor de conmutación. Si el error al cuadrado supera el valor de conmutación, la función de pérdida pasa a ser la desviación absoluta. Si la desviación absoluta llega a ser menor que el valor de conmutación, la función de pérdida se convierte en el error cuadrático nuevamente.

Opciones para modelos de regresión TreeNet®

Especifique las opciones para el modelo TreeNet^® .

Número de árboles

Ingrese un valor entre 1 y 5000 para establecer el número de árboles que se construirán. El valor predeterminado de 300 proporciona resultados iniciales útiles.

Si el modelo seleccionado inicialmente está cerca del número de árboles que usted especifica, considere aumentar el número de árboles para buscar un mejor modelo.

Máximo de nodos terminales por árbol y Profundidad máxima del árbol

También puede limitar el tamaño de los árboles. Elija una de las siguientes opciones para limitar el tamaño de los árboles.

Máximo de nodos terminales por árbol: Ingrese un valor entre 2 y 2000 para representar el número máximo de nodos terminales de un árbol. Por lo general, el valor predeterminado de 6 proporciona un buen equilibrio entre la velocidad de cálculo y la investigación de las interacciones entre variables. Un valor de 2 elimina la investigación de las interacciones.
Profundidad máxima del árbol: Ingrese un valor entre 2 y 1000 para representar la profundidad máxima de un árbol. El nodo raíz corresponde a una profundidad de 1. La profundidad predeterminada es 4. En muchas aplicaciones, las profundidades de 4 a 6 proporcionan modelos razonablemente adecuados.

Tasa de aprendizaje

Especifique hasta 10 tasas de aprendizaje.

De forma predeterminada, el análisis evalúa 3 tasas de aprendizaje. El análisis suele ajustar los hiperparámetros con 3 valores de K: 0.001, 0.1 y máx. (0.01, 0.1 * mín. (1.0, N/10000)), donde N = número de filas en la columna de respuesta. Si máx. (0.01, 0.1 * mín. (1.0, N/10000)) = 0.001 o 0.1, entonces el análisis ajusta los hiperparámetros con 0.001, 0.01 y 0.1.

Fracción de submuestra

Especifique hasta 10 fracciones de submuestra. En cada iteración, el procedimiento selecciona un subconjunto diferente que contenga esta fracción de los datos para construir un árbol. El submuestreo protege contra el sobreajuste. Las fracciones de submuestra deben ser superiores a 0 e inferiores o iguales a 1. Los valores predeterminados son 0.5 y 0.7.

Número de predictores para la división de nodo

Especifique el número de predictores a tener en cuenta para cada división de nodos. Normalmente, el análisis funciona bien cuando se consideran todos los predictores en cada nodo. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que conducen a un mejor rendimiento del modelo cuando el análisis considera un subconjunto aleatorio diferente de predictores en cada nodo. Para estos casos, la raíz cuadrada del número total de predictores es un punto de partida típico. Después de utilizar la raíz cuadrada y ver el modelo, puede considerar especificar un número mayor o menor de predictores con un porcentaje del total.

Número total de predictores: Seleccione esta opción para utilizar todos los predictores para dividir nodos.
Raíz cuadrada del número total de predictores: Seleccione esta opción para utilizar la raíz cuadrada del número total de predictores para dividir nodos.
K por ciento del número total de predictores; K =: Seleccione esta opción para utilizar un porcentaje de predictores para dividir nodos.

Opciones para modelos de regresión Random Forests®

Especifique las opciones para el modelo Random Forests^®.

Número de muestras de bootstrap para cultivar árboles

Ingrese un valor para determinar el número de muestras con reemplazamiento (bootstrap) y el número de árboles generados por el análisis. Ingrese un valor entre 3 y 3000.

Especifique un tamaño de muestra de bootstrap menor que el tamaño de los datos de entrenamiento

Seleccione esta opción para especificar un valor que establezca el tamaño de la muestra con reemplazamiento (bootstrap). Debe ingresar un valor mayor que o igual a 5. Si ingresa un tamaño que es mayor que el tamaño de los datos de entrenamiento, Minitab utiliza un tamaño de muestra igual al tamaño de los datos de entrenamiento.

Número de predictores para la división de nodo

Especifique el número de predictores a tener en cuenta para cada división de nodos. Normalmente, el análisis funciona bien si se tiene en cuenta la raíz cuadrada del número total de predictores. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que conducen a un mejor rendimiento del modelo cuando el análisis considera un número mayor o menor de predictores para cada nodo. Después de usar la raíz cuadrada y ver el modelo, considere si desea cambiar el número de predictores para intentar mejorar el rendimiento del modelo.

Número total de predictores: Seleccione esta opción para utilizar todos los predictores para dividir nodos. El bosque creado por esta opción se denomina bosque con reemplazamiento (bootstrap).
Raíz cuadrada del número total de predictores: Seleccione esta opción para utilizar la raíz cuadrada del número total de predictores para dividir nodos.
K por ciento del número total de predictores; K =: Seleccione esta opción para utilizar un porcentaje de predictores para dividir nodos.

Número mínimo de casos para dividir un nodo interno

Especifique de 1 a 3 números mínimos. De forma predeterminada, el análisis evalúa 2, 5 y 8. Cuando el número es 2, todos los nodos pueden dividirse en nodos más pequeños hasta que otra división sea imposible. Si el rendimiento del modelo es inadecuado, considere la opción de intentar con otros valores para determinar el efecto del rendimiento.

Opciones para modelos de regresión CART®

Especifique las opciones para el modelo CART^®.

Criterion for selecting optimal tree

Elija entre estos criterios para seleccionar el árbol en los resultados. Puede comparar resultados de diferentes árboles para determinar la mejor opción para su aplicación.

Within K standard errors of maximum R-squared; K=: Seleccione esta opción para que Minitab elija el árbol más pequeño con un valor de R² que se ubique a menos de K errores estándares del árbol con el valor de R² máximo. De forma predeterminada, K=1, por lo que el árbol de los resultados es el árbol de regresión más pequeño con un valor de R² a menos de 1 error estándar del valor máximo de R².
R-cuadrado máximo: Seleccione esta opción para mostrar los resultados del árbol con el valor de R-cuadrado máximo.

Número mínimo de casos para dividir un nodo interno

Introduzca el número mínimo de casos que un nodo puede tener y aún dividirse en más nodos. El valor predeterminado es 10. Con tamaños de muestra más grandes, es conveniente aumentar este mínimo. Por ejemplo, si un nodo interno tiene 10 o más casos, Minitab intenta realizar una división. Si el nodo interno tiene 9 casos o menos, Minitab no intenta realizar una división.

El límite del nodo interno es relevante únicamente cuando el valor es al menos el doble del límite del nodo terminal. Los límites del nodo interno que sean de al menos el triple de los límites del nodo terminal permiten un número razonable de divisores. En general, los límites más grandes son razonables para conjuntos de datos más grandes.

Número mínimo de casos permitidos para un nodo terminal

Introduzca el número mínimo de casos que pueden estar en un nodo terminal. El valor predeterminado es 3. Con tamaños de muestra más grandes, es conveniente aumentar este mínimo. Por ejemplo, si una división crearía un nodo con menos de 3 casos, Minitab no realiza una división.

Opciones para modelos de regresión MARS®

Especifique las opciones para el modelo MARS^®.

Número máximo de funciones de base

El valor predeterminado de 30 funciona bien en la mayoría de los casos. Considere un valor mayor cuando 30 funciones básicas parecen demasiado pequeñas para los datos. Por ejemplo, considere un valor mayor cuando cree que más de 30 predictores son importantes.

Si no está seguro de si 30 es suficiente, revise los resultados iniciales. Por ejemplo, es más probable que un valor mayor mejore el ajuste del modelo si el valor R-cuadrado tiende al alza a medida que el análisis agrega funciones base.

Número mínimo de observaciones entre nudos

Permitir que MARS® elija: El análisis utiliza el tamaño de la muestra y la complejidad del modelo para seleccionar automáticamente un valor. El valor automático funciona bien en la mayoría de los casos.
λ especificado por el usuario: Un valor de 1 indica que los puntos de datos consecutivos son aptos para ser puntos donde cambia la función base. El valor de 1 permite los cambios más rápidos en las predicciones del modelo. Considere diferentes valores para ver el efecto en el ajuste del modelo. Por ejemplo, para algunos datos, los valores más grandes crean modelos más suaves que tienen menos probabilidades de sobreajustar los datos de entrenamiento. Estos modelos más suaves a veces son menos precisos en ciertos rangos de datos.

Interacciones predictoras permitidas

Permita las interacciones predictoras hasta el orden que especifique. Una interacción significa que el efecto de un predictor depende del valor de otros predictores. Por ejemplo, la velocidad a la que el grano se seca en un horno depende del tiempo en el horno, pero el efecto del tiempo depende de la temperatura del horno. Las variables de tiempo y temperatura interactúan.

No permitir ninguna interacción (modelo aditivo)

No permitir interacciones de los predictores. En este caso, Minitab utiliza el modelo aditivo donde las funciones base no interactúan.

Permitir todas las interacciones hasta el orden 2

Order especifica el número de predictores diferentes que pueden estar en una función base. Por ejemplo, un orden de 2 indica que el efecto de un predictor puede depender del valor de 1 otro predictor. Las siguientes funciones básicas son un ejemplo de una interacción de orden 2:

BF1 = máx.(0, X₁ − 800)
BF2 = máx.(0, X₂ − 50) * BF1

Base para el generador de números aleatorios

Puede especificar una base para el generador de números aleatorios para seleccionar las submuestras y el subconjunto de predictores de manera aleatoria. Normalmente, no es necesario cambiar la base. Puede cambiar la base para explorar la sensibilidad de los resultados a las selecciones aleatorias o para garantizar la misma selección aleatoria para análisis repetidos.