Por opción predeterminada, el software estadístico de Minitab produce la salida para el árbol más pequeño con un costo de clasificación errónea dentro de 1 error estándar del costo de clasificación errónea más pequeño. Minitab le permite explorar otros árboles de la secuencia que condujo a la identificación del árbol óptimo. Normalmente, se selecciona un árbol alternativo por una de las dos razones siguientes:
- El árbol óptimo forma parte de un patrón en el que los costos de clasificación errónea disminuyen. Uno o más árboles que tienen algunos nodos más forman parte del mismo patrón. Normalmente, desea realizar predicciones desde un árbol con la mayor exactitud de predicción posible. Si el árbol es lo suficientemente simple, también puede usarlo para comprender cómo afecta cada variable predictora a los valores de respuesta.
- El árbol óptimo forma parte de un patrón en el que los costos de clasificación errónea son relativamente planos. Uno o más árboles con estadísticas de resumen del modelo similares tienen muchos menos nodos que el árbol óptimo. Normalmente, un árbol con menos nodos terminales proporciona una imagen más clara de cómo cada variable predictora afecta a los valores de respuesta. Un árbol más pequeño también facilita la identificación de algunos grupos objetivo para estudios posteriores. Si la diferencia en la exactitud de predicción para un árbol más pequeño es insignificante, también puede utilizar el árbol más pequeño para evaluar las relaciones entre la respuesta y las variables predictoras
Por ejemplo, en la siguiente gráfica, el árbol con 4 nodos es el árbol óptimo. Los dos árboles más grandes a continuación forman parte de un patrón en el que el costo de clasificación errónea disminuye.
El árbol de 7 nodos tiene un costo de clasificación errónea menor que el costo para el árbol de 4 nodos. Dado que el árbol de 7 nodos es similar en complejidad, puede utilizar el árbol más grande con su exactitud adicional en las predicciones para estudiar las variables importantes y realizar predicciones.
Además de los valores de criterio para árboles alternativos, también puede comparar la complejidad de los árboles y la utilidad de diferentes nodos. Considere los siguientes ejemplos de razones por las que un analista elige un árbol determinado que no sacrifica el rendimiento en comparación con otros árboles:
- El analista elige un árbol más pequeño que proporciona una vista más clara de las variables más importantes.
- El análisis elige un árbol porque las divisiones están en variables que son más fáciles de medir que las variables de otro árbol.
- El analista elige un árbol porque un nodo terminal determinado es de interés.