La gráfica Costo de clasificación errónea vs. Número de nodos terminales muestra el costo de clasificación errónea para cada árbol de la secuencia que produce el árbol óptimo. Por opción predeterminada, el árbol óptimo inicial es el árbol más pequeño con un costo de clasificación errónea dentro de un error estándar del árbol que minimiza el costo de clasificación errónea. Cuando el análisis utiliza la validación cruzada o un conjunto de datos de prueba, el costo de clasificación errónea procede del ejemplo de validación. Los costos de clasificación errónea para la muestra de validación normalmente se nivelan y, finalmente, aumentan a medida que el árbol crece.
Total de predictores | 13 |
---|---|
Predictores importantes | 13 |
Número de nodos terminales | 4 |
Tamaño mínimo del nodo terminal | 27 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
Logverosimilitud promedio | 0.4772 | 0.5164 |
Área bajo la curva ROC | 0.8192 | 0.8001 |
IC de 95% | (0.3438, 1) | (0.7482, 0.8520) |
Elevación | 1.6189 | 1.8849 |
Costo de clasificación errónea | 0.3856 | 0.4149 |
El árbol de la secuencia con 4 nodos tiene un costo de clasificación errónea cercano a 0.41. El patrón cuando el costo de clasificación errónea disminuye continúa después del árbol de 4 nodos. En un caso como este, los analistas eligen explorar algunos de los otros árboles simples que tienen menores costos de clasificación errónea.
Total de predictores | 13 |
---|---|
Predictores importantes | 13 |
Número de nodos terminales | 7 |
Tamaño mínimo del nodo terminal | 5 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
Logverosimilitud promedio | 0.3971 | 0.5094 |
Área bajo la curva ROC | 0.8861 | 0.8200 |
IC de 95% | (0.5590, 1) | (0.7702, 0.8697) |
Elevación | 1.9376 | 1.8165 |
Costo de clasificación errónea | 0.2924 | 0.3909 |
El árbol de clasificación que minimiza el costo de clasificación errónea con validación cruzada relativo tiene 7 nodos terminales y un costo de clasificación errónea relativo de aproximadamente 0.39. Otros estadísticos, como el área bajo la curva ROC, también confirman que el árbol de 7 nodos funciona mejor que el árbol de 4 nodos. Dado que el árbol de 7 nodos tiene pocos nodos que también es fácil de interpretar, los analistas deciden utilizar el árbol de 7 nodos para estudiar las variables importantes y realizar predicciones.
Después de seleccionar un árbol, investigue los nodos terminales más puros del diagrama. Azul representa el nivel de evento y Rojo representa el nivel de no evento.
Puede hacer clic con el botón derecho en el diagrama de árbol para mostrar la vista de división de nodo del árbol. Esta vista es útil cuando tiene un árbol grande y desea ver solo las variables que dividen los nodos.
Los nodos continúan dividiéndose hasta que los nodos terminales no se pueden dividir en agrupaciones adicionales. Los nodos que son en su mayoría azules indican una proporción fuerte del nivel de evento. Los nodos que son en su mayoría rojos indican una proporción fuerte del nivel de no evento.
El siguiente divisor para el nodo hijo izquierdo y el nodo hijo derecho es Tipo de dolor de pecho, donde el dolor se clasifica como 1, 2, 3 o 4. Nodo 2 es el padre de Nodo de terminal 1, y Nodo 5 es el padre de Nodo de terminal 7.
Utilice el gráfico de importancia de variable relativa para determinar qué predictores son las variables más importantes para el árbol.
Las variables importantes son divisores primarios o sustitutos en el árbol. La variable con la puntuación de mejora más alta se establece como la variable más importante, y las otras variables se clasifican en consecuencia. La Importancia relativa de las variables estandariza los valores de importancia para facilitar la interpretación. La importancia relativa se define como la mejora porcentual con respecto al predictor más importante.
Los valores de importancia relativa de la variable oscilan entre 0% y 100%. La variable más importante siempre tiene una importancia relativa de 100%. Si una variable no está en el árbol, esa variable no es importante.
El árbol más preciso es el que tiene el menor costo de clasificación errónea. A veces, los árboles más simples con costos de clasificación errónea ligeramente más altos funcionan igual de bien. Puede utilizar la gráfica Costo de clasificación errónea frente a nodos terminales para identificar árboles alternativos.
La curva de rendimiento de diagnóstico (ROC) muestra qué tan bien clasifica los datos un árbol. La curva ROC grafica la tasa de verdaderos positivos en el eje Y y la tasa de falsos positivos en el eje X. La tasa de verdaderos positivos también se conoce como potencia. La tasa de falsos positivos también se conoce como error tipo I.
Cuando un árbol de clasificación puede separar perfectamente las categorías en la variable de respuesta, el área bajo la curva ROC es 1, que es el mejor modelo de clasificación posible. Alternativamente, si un árbol de clasificación no puede distinguir categorías y realiza asignaciones de forma totalmente aleatoria, el área bajo la curva ROC es 0.5.
Cuando utiliza una técnica de validación para construir el árbol, Minitab proporciona información sobre el rendimiento del árbol en los datos de entrenamiento y validación (prueba). Cuando las curvas están juntas, puede estar más seguro de que el árbol no está sobreajustado. El rendimiento del árbol con los datos de prueba indica qué tan bien el árbol puede predecir nuevos datos.
Clase de predicción (entrenamiento) | Clase de predicción (prueba) | ||||||
---|---|---|---|---|---|---|---|
Clase real | Conteo | Sí | No | % Correcto | Sí | No | % Correcto |
Sí (Evento) | 139 | 117 | 22 | 84.2 | 105 | 34 | 75.5 |
No | 164 | 22 | 142 | 86.6 | 24 | 140 | 85.4 |
Todo | 303 | 139 | 164 | 85.5 | 129 | 174 | 80.9 |
Estadísticas | Entrenamiento (%) | Prueba (%) |
---|---|---|
Tasa de positivos verdaderos (sensibilidad o potencia) | 84.2 | 75.5 |
Tasa de positivos falsos (error tipo I) | 13.4 | 14.6 |
Tasa de negativos falsos (error tipo II) | 15.8 | 24.5 |
Tasa de negativos verdaderos (especificidad) | 86.6 | 85.4 |
En general, el %Correcto para los datos de entrenamiento es 85.5%, y 80.9% para los datos de prueba.