Minitab muestra los resultados tanto del conjunto de datos de entrenamiento como de prueba. Los resultados de prueba indican si el modelo puede predecir adecuadamente los valores de respuesta para nuevas observaciones o resumir correctamente las relaciones entre la respuesta y las variables predictoras. Los resultados de entrenamiento suelen ser más ideales que reales y son solo para referencia.
Haga clic en Seleccionar árbol alternativo para abrir una gráfica interactiva que incluya una tabla de estadísticos de resumen del modelo. Utilice la gráfica para investigar árboles más pequeños con un rendimiento similar.
Normalmente, un árbol con menos nodos terminales proporciona una imagen más clara de cómo cada variable predictora afecta a los valores de respuesta. Un árbol más pequeño también facilita la identificación de algunos grupos objetivo para estudios posteriores. Si la diferencia en la exactitud de la predicción de un árbol más pequeño es insignificante, puede utilizar el árbol más pequeño para evaluar las relaciones entre la respuesta y las variables predictoras.
El número total de predictores disponibles para el árbol de clasificación. Esta es la suma de los predictores continuos y categóricos que especifique.
El número de predictores importantes en el árbol de clasificación. Los predictores importantes son las variables que se utilizan como divisores principales o sustitutos.
Puede utilizar la gráfica de Importancia relativa de las variables para mostrar el orden de Importancia relativa de las variables. Por ejemplo, supongamos que 10 de 20 predictores son importantes en el árbol de clasificación, la gráfica de importancia relativa de la variable muestra las variables en orden de importancia.
Un nodo terminal es un nodo final que no se puede dividir más.
Los nodos terminales son los grupos más puros finales identificados mediante el método del árbol de clasificación. Puede utilizar la información del nodo terminal para realizar predicciones.
El tamaño mínimo del nodo terminal es el nodo terminal con el menor número de casos.
Por opción predeterminada, Minitab establece el número mínimo de casos permitidos para un nodo terminal en 3 casos; sin embargo, su árbol puede tener tamaños mínimos de nodo terminal mayores que 3. También puede cambiar este valor umbral en el cuadro de diálogo secundario Opciones.
Minitab calcula el promedio de la función de log-verosimilitud negativa cuando la respuesta es binaria.
Compare los valores de logverosimilitud promedio de diferentes modelos correspondientes a Prueba para determinar el modelo con el mejor ajuste. El valor de logverosimilitud promedio inferior indica un mejor ajuste.
La curva ROC representa la tasa de verdaderos positivos (TPR), también conocida como potencia, en el eje Y. La curva ROC representa la tasa de falsos positivos (FPR), también conocida como error de tipo 1, en el eje X. El área bajo una curva ROC indica si el árbol de clasificación es un buen clasificador.
Para los árboles de clasificación, el área bajo los valores de la curva ROC oscila entre 0.5 y 1. Cuando un árbol de clasificación puede separar perfectamente las clases, entonces el área debajo de la curva es 1. Cuando un árbol de clasificación no puede separar las clases mejor que una asignación aleatoria, el área debajo de la curva es 0.5.
Minitab muestra la elevación cuando la respuesta es binaria. La elevación es la elevación acumulada para el 10% de los datos con la mejor posibilidad de clasificación correcta.
La elevación representa la relación de la respuesta objetivo dividida entre la respuesta promedio. Cuando la elevación es mayor que 1, un segmento de los datos tiene una respuesta mayor que la esperada.
El costo de clasificación errónea es el costo de clasificación errónea relativo. El costo es con relación a un árbol que predice el resultado más común para cada caso. El costo relativo representa la tasa de error y el costo ponderado.
El costo de clasificación errónea en Prueba representa el costo de clasificación errónea que se produce en todos los niveles cuando Minitab utiliza el árbol de los resultados en lugar de otro árbol para predecir los valores de respuesta para nuevas observaciones. Los valores más pequeños indican que el árbol de los resultados funciona mejor. Los valores menores que 1 indican que el modelo de los resultados cuesta menos que un modelo que predice el resultado más común para cada caso.