Seleccionar las opciones para Descubrir el mejor modelo (Respuesta binaria)

Módulo de análisis predictivo > Regresión Random Forests® > Descubrir el mejor modelo (Respuesta binaria) > Opciones
Nota

Este comando está disponible con el módulo Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Seleccione los criterios para determinar el mejor modelo y especifique las opciones para los diferentes tipos de modelo. También puede especificar la base para el generador de números aleatorios y cuándo asignar una predicción a la clase de evento.

Criterio para seleccionar el mejor modelo

Elija el método para generar el modelo óptimo. Puede comparar los resultados de varios métodos para determinar la mejor opción para el uso específico.
  • Máxima log-verosimilitud: El método de máxima verosimilitud encuentra el máximo de funciones de verosimilitud para los datos.
  • Máxima área bajo la curva ROC: El método de área máxima bajo la curva ROC funciona adecuadamente en muchas aplicaciones. El área bajo la curva ROC mide qué tan efectivo es el modelo para clasificar las filas de la fila con mayor probabilidad de generar un evento a la que tiene menor probabilidad.
  • Tasa mínima de clasificación errónea: Seleccione esta opción para mostrar los resultados del modelo que minimiza la tasa de clasificaciones erróneas. La tasa de clasificaciones erróneas se basa en un conteo simple de la frecuencia con la que el modelo predice un caso de forma correcta o incorrecta.

Opciones para modelos de clasificación TreeNet®

Especifique las opciones para el modelo TreeNet® .

Número de árboles
Ingrese un valor entre 1 y 5000 para establecer el número de árboles que se construirán. El valor predeterminado de 300 proporciona resultados iniciales útiles.
Si el modelo seleccionado inicialmente está cerca del número de árboles que usted especifica, considere aumentar el número de árboles para buscar un mejor modelo.
Máximo de nodos terminales por árbol y Profundidad máxima del árbol
También puede limitar el tamaño de los árboles. Elija una de las siguientes opciones para limitar el tamaño de los árboles.
  • Máximo de nodos terminales por árbol: ingrese un valor entre 2 y 2000 para representar el número máximo de nodos terminales de un árbol. Por lo general, el valor predeterminado de 6 proporciona un buen equilibrio entre la velocidad de cálculo y la investigación de las interacciones entre variables. Un valor de 2 elimina la investigación de las interacciones.
  • Profundidad máxima del árbol: Ingrese un valor entre 2 y 1000 para representar la profundidad máxima de un árbol. El nodo raíz corresponde a una profundidad de 1. La profundidad predeterminada es 4. En muchas aplicaciones, las profundidades de 4 a 6 proporcionan modelos razonablemente adecuados.
Tasa de aprendizaje
Especifique hasta 10 tasas de aprendizaje.
De forma predeterminada, el análisis evalúa 3 tasas de aprendizaje. El análisis suele ajustar los hiperparámetros con 3 valores de K: 0.001, 0.1 y máx. (0.01, 0.1 * mín. (1.0, N/10000)), donde N = número de filas en la columna de respuesta. Si máx. (0.01, 0.1 * mín. (1.0, N/10000)) = 0.001 o 0.1, entonces el análisis ajusta los hiperparámetros con 0.001, 0.01 y 0.1.
Fracción de submuestra
Especifique hasta 10 fracciones de submuestra. En cada iteración, el procedimiento selecciona un subconjunto diferente que contenga esta fracción de los datos para construir un árbol. El submuestreo protege contra el sobreajuste. Las fracciones de submuestra deben ser superiores a 0 e inferiores o iguales a 1. Los valores predeterminados son 0.5 y 0.7.
Número de predictores para la división de nodo
Especifique el número de predictores a tener en cuenta para cada división de nodos. Normalmente, el análisis funciona bien cuando se consideran todos los predictores en cada nodo. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que conducen a un mejor rendimiento del modelo cuando el análisis considera un subconjunto aleatorio diferente de predictores en cada nodo. Para estos casos, la raíz cuadrada del número total de predictores es un punto de partida típico. Después de utilizar la raíz cuadrada y ver el modelo, puede considerar especificar un número mayor o menor de predictores con un porcentaje del total.
  • Número total de predictores: Seleccione esta opción para utilizar todos los predictores para dividir nodos.
  • Raíz cuadrada del número total de predictores: Seleccione esta opción para utilizar la raíz cuadrada del número total de predictores para dividir nodos.
  • K por ciento del número total de predictores; K =: Seleccione esta opción para utilizar un porcentaje de predictores para dividir nodos.

Opciones para modelos de clasificación Random Forests®

Especifique las opciones para el modelo Random Forests®.

Número de muestras de bootstrap para cultivar árboles
Ingrese un valor para determinar el número de muestras con reemplazamiento (bootstrap) y el número de árboles generados por el análisis. Ingrese un valor entre 3 y 3000.
Especifique un tamaño de muestra de bootstrap menor que el tamaño de los datos de entrenamiento
Seleccione esta opción para especificar un valor que establezca el tamaño de la muestra con reemplazamiento (bootstrap) Debe ingresar un valor mayor que o igual a 5. Si ingresa un tamaño que es mayor que el tamaño de los datos de entrenamiento, Minitab utiliza un tamaño de muestra igual al tamaño de los datos de entrenamiento.
Número de predictores para la división de nodo
Especifique el número de predictores a tener en cuenta para cada división de nodos. Normalmente, el análisis funciona bien si se tiene en cuenta la raíz cuadrada del número total de predictores. Sin embargo, algunos conjuntos de datos tienen asociaciones entre los predictores que conducen a un mejor rendimiento del modelo cuando el análisis considera un número mayor o menor de predictores para cada nodo. Después de usar la raíz cuadrada y ver el modelo, considere si desea cambiar el número de predictores para intentar mejorar el rendimiento del modelo.
  • Número total de predictores: Seleccione esta opción para utilizar todos los predictores para dividir nodos. El bosque creado por esta opción se denomina bosque con reemplazamiento (bootstrap).
  • Raíz cuadrada del número total de predictores: Seleccione esta opción para utilizar la raíz cuadrada del número total de predictores para dividir nodos.
  • K por ciento del número total de predictores; K =: Seleccione esta opción para utilizar un porcentaje de predictores para dividir nodos.
Número mínimo de casos para dividir un nodo interno
Especifique de 1 a 3 números mínimos. De forma predeterminada, el análisis evalúa 2, 5 y 8. Cuando el número es 2, todos los nodos pueden dividirse en nodos más pequeños hasta que otra división sea imposible. Si el rendimiento del modelo es inadecuado, considere la opción de intentar con otros valores para determinar el efecto del rendimiento.

Opciones para modelos de clasificación CART®

Especifique las opciones para el modelo CART®.

Node splitting method
Elija el método de división para generar el árbol de decisión. Puede comparar los resultados de varios métodos de división para determinar la mejor opción para la aplicación.
  • Gini: El método Gini es el método predeterminado. El método Gini funciona bien en muchas aplicaciones. El método Gini normalmente genera árboles que incluyen pequeños nodos con una alta concentración de la respuesta de interés.
  • Entropía: El método de entropía es proporcional al máximo de ciertas funciones de verosimilitud para el nodo.
Criterion for selecting optimal tree
Elija entre los siguientes criterios para seleccionar el árbol en los resultados. Puede comparar los resultados de diferentes árboles para determinar la mejor opción para su aplicación.
  • Costo mínimo de clasificación errónea: Seleccione esta opción para mostrar los resultados del árbol que minimiza el costo de clasificación errónea.
  • Within K standard errors of minimum misclassification cost; K=: Seleccione esta opción para mostrar los resultados del árbol más pequeño con un costo de clasificación errónea a menos de K errores estándares del costo mínimo de clasificación errónea.
Número mínimo de casos para dividir un nodo interno
Introduzca el número mínimo de casos que un nodo puede tener y aún dividirse en más nodos. El valor predeterminado es 10. Con tamaños de muestra más grandes, es conveniente aumentar este mínimo. Por ejemplo, si un nodo interno tiene 10 o más casos, Minitab intenta realizar una división. Si el nodo interno tiene 9 casos o menos, Minitab no intenta realizar una división.
El límite del nodo interno es relevante únicamente cuando el valor es al menos el doble del límite del nodo terminal. Los límites del nodo interno que sean de al menos el triple de los límites del nodo terminal permiten un número razonable de divisores. En general, los límites más grandes son razonables para conjuntos de datos más grandes.
Número mínimo de casos permitidos para un nodo terminal
Introduzca el número mínimo de casos que pueden estar en un nodo terminal. El valor predeterminado es 3. Con tamaños de muestra más grandes, es conveniente aumentar este mínimo. Por ejemplo, si una división crearía un nodo con menos de 3 casos, Minitab no realiza una división.

Base para el generador de números aleatorios

Puede especificar una base para el generador de números aleatorios para seleccionar las submuestras y el subconjunto de predictores de manera aleatoria. Normalmente, no es necesario cambiar la base. Puede cambiar la base para explorar la sensibilidad de los resultados a las selecciones aleatorias o para garantizar la misma selección aleatoria para análisis repetidos.

Asignar clase de evento

Especifique el umbral par a signar un caso a la clase de evento. Esta opción afecta a los modelos TreeNet® y a los modelos de regresión logística binaria.

  • La probabilidad de evento supera el valor especificado: Especifique la probabilidad pronosticada mínima para asignar un caso a la clase de evento. Por ejemplo, un valor de 0.5 significa que Minitab asigna un caso a la clase de evento cuando la probabilidad del evento es mayor que 0.5.
  • La probabilidad de evento supera la tasa de eventos de muestra: Especifique esta opción para utilizar la tasa de evento de la muestra de los datos de entrenamiento como el valor umbral para asignar la clase pronosticada para un caso. Cuando la tasa de eventos de la muestra es mayor que 0.50, esta opción hace que sea menos probable clasificar los eventos como evento y que sea más probable clasificarlos como no evento. Normalmente, esta opción se considera cuando se desea equilibrar las tasas de clasificaciones erróneas de los eventos y no eventos en comparación con lo que serían con un valor umbral de 0.50.