Especificar la configuración predeterminada de Clasificación CART®

Archivo > Opciones > Analítica predictiva > Clasificación CART®

Especifique los métodos predeterminados para los árboles de clasificación. Los cambios que haga en los valores predeterminados se mantendrán vigentes hasta que los cambie de nuevo, incluso después de salir de Minitab.

Node splitting method
Elija el método de división para generar el árbol de decisión. Puede comparar los resultados de varios métodos de división para determinar la mejor opción para la aplicación.
  • : El método Gini es el método predeterminado. El método Gini funciona bien en muchas aplicaciones. El método Gini generalmente genera árboles que incluyen pequeños nodos con una alta concentración de la respuesta de interés.
  • : El método Entropy es proporcional al máximo de ciertas funciones de probabilidad para el nodo.
  • : El método Twoing solo está disponible con una respuesta multinomial. El método Twoing generalmente genera divisiones más equilibradas que los métodos Gini o Entropy. Para una respuesta binaria, el método Twoing es el mismo que el método Gini.
  • : El árbol de probabilidad tiende a ser más grande que el árbol Gini. Utilice el método de probabilidad cuando esté interesado en el rendimiento de algunos nodos principales.
Criterion for selecting optimal tree
Elija entre los siguientes criterios para seleccionar el árbol en los resultados. Puede comparar los resultados de diferentes árboles para determinar la mejor opción para su aplicación.
  • : seleccione esta opción para mostrar los resultados del árbol que minimiza el coste de clasificación incorrecta.
  • : Seleccione esta opción para visualizar los resultados del árbol más pequeño con un coste de clasificación errónea dentro de los errores estándar K del coste de clasificación errónea mínimo. De forma predeterminada, K1, por lo que los resultados son para el árbol más pequeño con un coste de clasificación incorrecta dentro de 1 error estándar del árbol con el coste mínimo de clasificación errónea.
Número mínimo de casos para dividir un nodo interno
Introduzca un valor para representar el número mínimo de casos que se dividirá un nodo interno. El valor predeterminado es 10. Con tamaños de muestra más grandes, es posible que desee aumentar este mínimo. Por ejemplo, si un nodo interno tiene 10 o más casos, Minitab intentará realizar una división. Si el nodo interno tiene 9 casos o menos, Minitab no intentará realizar una división.
El límite de nodo interno debe ser al menos el doble del límite del nodo terminal, pero las relaciones más grandes son mejores. Los límites de nodo interno de al menos 3 veces los límites de nodo terminal permiten un número razonable de divisores.
El valor predeterminado es 10.
Número mínimo de casos permitidos para un nodo terminal
Introduzca un valor para representar el número mínimo de casos que se pueden separar en un nodo de terminal. El valor predeterminado es 3. Con tamaños de muestra más grandes, es posible que desee aumentar este mínimo. Por ejemplo, si una división crearía un nodo con menos de 3 casos, Minitab no realizará una división.
El valor predeterminado es 3.
Falta penalización de valor
Introduzca un valor de penalización para un predictor con valores que faltan. Debido a que es más fácil ser un buen divisor con menos datos, los predictores con datos que faltan tienen una ventaja sobre los predictores sin falta de datos. Utilice esta opción para penalizar a los predictores con datos que faltan.
0,0 - K a 2,0, por ejemplo:
  • K á 0: no especifica ninguna penalización.
  • K á 2: especifica la penalización más alta.
Penalización por categoría de alto nivel
Introduzca un valor de penalización para los predictores categóricos que tienen muchos valores. Debido a que los predictores categóricos con muchos niveles pueden distorsionar un árbol debido a su mayor poder de división, tienen una ventaja sobre los predictores con menos niveles. Utilice esta opción para penalizar los predictores con muchos niveles.
0,0 - K a 5,0, por ejemplo:
  • K á 0: no especifica ninguna penalización.
  • K - 5: Especifica la penalización más alta.
Visualización de gráficos y tablas
Tasas de matriz de confusión
Elija las tarifas que desea mostrar en la matriz de confusión.
  • Verdadero positivo: Tasa positiva verdadera (TPR): la probabilidad de que un caso de evento se prediga correctamente.
  • Falso positivo: Tasa de falsos positivos (FPR): la probabilidad de que un caso sin evento se prediga incorrectamente.
  • Falso negativo: Tasa negativa falsa (FNR): la probabilidad de que un caso de evento se prediga incorrectamente.
  • True negative: True negative rate (TNR) - la probabilidad de que un caso sin evento se prediga correctamente.
Curva Característica Operativa del Receptor (ROC)
La curva de la característica de funcionamiento del receptor (ROC) muestra la capacidad de un árbol para distinguir entre clases. La curva ROC traza la tasa positiva verdadera (TPR) con respecto a la tasa de falsos positivos (FPR).
Gráfica de ganancia
El gráfico de ganancia acumulativa ilustra la eficacia del modelo en una parte de la población. El gráfico de ganancias traza % clase versus % población.
Gráfica de elevación
El gráfico de elevación ilustra la eficacia del modelo predictivo. El gráfico de elevación traza la elevación acumulativa frente a la población porcentual y muestra la diferencia entre los resultados obtenidos con y sin el modelo predictivo. Puede especificar o para este gráfico.
Terminal node type
Elija si desea mostrar los mejores nodos, los nodos peores o ambos para la tabla Efectividad de clasificación y la tabla Criterios para clasificar temas.
  • : Por opción predeterminada, Minitab muestra los mejores nodos de terminal. Los mejores nodos tienen los valores de probabilidad de evento (binario) o de probabilidad de clase más alta (multinomial). Para una respuesta binaria, los mejores nodos tienen probabilidades de eventos cercanas a los dos casos finales de 1 o 0.
  • : Seleccione esta opción para mostrar los peores nodos de terminal. Los nodos peores tienen los valores de probabilidad de evento (binario) o de menor probabilidad de clase (multinomial) más bajos. Para una respuesta binaria, los nodos peores tienen probabilidades de eventos cerca del valor medio de 0,5.
  • : Seleccione esta opción para mostrar los mejores y peores nodos de terminal.