Interpretar los resultados clave para Clasificación CART®

Complete los siguientes pasos para interpretar Clasificación CART®. La salida clave incluye el diagrama de árbol, los costos de clasificación incorrecta, la importancia variable y la matriz de confusión.

Paso 1: Investigar árboles alternativos

La gráfica Costo de clasificación errónea vs. Número de nodos terminales muestra el costo de clasificación errónea para cada árbol de la secuencia que produce el árbol óptimo. Por opción predeterminada, el árbol óptimo inicial es el árbol más pequeño con un costo de clasificación errónea dentro de un error estándar del árbol que minimiza el costo de clasificación errónea. Cuando el análisis utiliza la validación cruzada o un conjunto de datos de prueba, el costo de clasificación errónea procede del ejemplo de validación. Los costos de clasificación errónea para la muestra de validación normalmente se nivelan y, finalmente, aumentan a medida que el árbol crece.

Haga clic en Seleccionar árbol alternativo para abrir una gráfica interactiva que incluye una tabla de estadísticos de resumen del modelo. Utilice la gráfica para investigar árboles alternativos con un rendimiento similar. Normalmente, se selecciona un árbol alternativo por una de las dos razones siguientes:
  • El árbol óptimo forma parte de un patrón cuando los costos de clasificación errónea disminuyen. Uno o más árboles que tienen algunos nodos más forman parte del mismo patrón. Normalmente, lo que se desea es realizar predicciones a partir de un árbol con la mayor exactitud de predicción posible. Si el árbol es lo suficientemente simple, también puede usarlo para comprender cómo afecta cada variable predictora a los valores de respuesta.
  • El árbol óptimo forma parte de un patrón cuando los costos de clasificación errónea son relativamente planos. Uno o más árboles con estadísticas de resumen del modelo similares tienen muchos menos nodos que el árbol óptimo. Normalmente, un árbol con menos nodos terminales proporciona una imagen más clara de cómo cada variable predictora afecta a los valores de respuesta. Un árbol más pequeño también facilita la identificación de algunos grupos objetivo para estudios posteriores. Si la diferencia en la exactitud de predicción para un árbol más pequeño es insignificante, también puede utilizar el árbol más pequeño para evaluar las relaciones entre la respuesta y las variables predictoras.

CART® clasificación de 4 nodos: Enfermedad cardíaca vs. Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, Old Peak, Sexo, Azúcar en la sangre en ayunas, Ejercicio Angina, Rest ECG, Pendiente, Thal, Tipo de dolor torácico, Buques principales

Resumen del modelo Total de predictores 13 Predictores importantes 13 Número de nodos terminales 4 Tamaño mínimo del nodo terminal 27 Estadísticas Entrenamiento Prueba R-cuad. de la Desviación 0.3082 0.2513 Logverosimilitud promedio 0.4772 0.5164 Área bajo la curva ROC 0.8192 0.8001 IC de 95% (0.3438, 1) (0.7482, 0.8520) Elevación 1.6189 1.8849 Costo de clasificación errónea 0.3856 0.4149
Resultados clave: Gráfica y resumen del modelo para árbol con 4 nodos

El árbol de la secuencia con 4 nodos tiene un costo de clasificación errónea cercano a 0.41. El patrón cuando el costo de clasificación errónea disminuye continúa después del árbol de 4 nodos. En un caso como este, los analistas eligen explorar algunos de los otros árboles simples que tienen menores costos de clasificación errónea.

CART® clasificación de 7 nodos: Enfermedad cardíaca vs. Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, Old Peak, Sexo, Azúcar en la sangre en ayunas, Ejercicio Angina, Rest ECG, Pendiente, Thal, Tipo de dolor torácico, Buques principales

Resumen del modelo Total de predictores 13 Predictores importantes 13 Número de nodos terminales 7 Tamaño mínimo del nodo terminal 5 Estadísticas Entrenamiento Prueba R-cuad. de la Desviación 0.4243 0.2615 Logverosimilitud promedio 0.3971 0.5094 Área bajo la curva ROC 0.8861 0.8200 IC de 95% (0.5590, 1) (0.7702, 0.8697) Elevación 1.9376 1.8165 Costo de clasificación errónea 0.2924 0.3909
Resultados clave: Gráfica y resumen del modelo para árbol con 7 nodos

El árbol de clasificación que minimiza el costo de clasificación errónea con validación cruzada relativo tiene 7 nodos terminales y un costo de clasificación errónea relativo de aproximadamente 0.39. Otros estadísticos, como el área bajo la curva ROC, también confirman que el árbol de 7 nodos funciona mejor que el árbol de 4 nodos. Dado que el árbol de 7 nodos tiene pocos nodos que también es fácil de interpretar, los analistas deciden utilizar el árbol de 7 nodos para estudiar las variables importantes y realizar predicciones.

paso Investigue los nodos terminales más puros en el diagrama de árbol

Después de seleccionar un árbol, investigue los nodos terminales más puros del diagrama. Azul representa el nivel de evento y Rojo representa el nivel sin evento.

Nota

Puede hacer clic con el botón derecho en el diagrama de árbol para mostrar la vista de división de nodo del árbol. Esta vista es útil cuando tiene un árbol grande y desea ver solo las variables que dividen los nodos.

Los nodos continúan dividiéndose hasta que los nodos terminales no se pueden dividir en agrupaciones adicionales. Los nodos que son en su mayoría azules indican una proporción fuerte del nivel de evento. Los nodos que son en su mayoría rojos indican una proporción fuerte del nivel sin evento.

Resultado clave: Diagrama de árbol

Este árbol de clasificación tiene 7 nodos terminales. El azul es para el nivel de evento (Sí) y el rojo es para el nivel sin evento (No). El diagrama de árbol utiliza el conjunto de datos de entrenamiento. Puede alternar las vistas del árbol entre la vista dividida detallada y la vista dividida de nodo.

En el nodo raíz, el evento Yes tiene 139 casos y el evento No tiene 164 casos. El nodo raíz se divide utilizando la variable THAL. Cuando THAL - Normal, vaya al nodo izquierdo (nodo 2). Cuando THAL - Fijo o Reversible, vaya al nodo derecho (Nodo 5).
  • NODO THAL fue normal para 167 casos. De los 167 casos, el 38 o el 22,8% son sí, y el 129 o el 77,2% son No.
  • NODO THAL fue fijo o reversible para 136 casos. De los 136 casos, el 101 o el 74,3% son sí, y el 35 o el 25,7% son No.

El siguiente divisor para el nodo secundario izquierdo y el nodo secundario derecho es Tipo de dolor de pecho, donde el dolor se clasifica como 1, 2, 3 o 4. El nodo 2 es el padre del nodo de terminal 1, y el nodo 5 es el padre del nodo de terminal 7.

El nodo raíz tiene el 45,9% del evento Yes y el 54,1% del evento No. Los siguientes nodos terminales son los más puros y muestran una buena separación de casos:
  • NODO TERMINAL Para 100 casos, THAL fue Normal, y el dolor en el pecho fue de 2 o 3. De los 100 casos, el 9 o 9% son sí, y el 91 o 91% son No.
  • NODO TERMINAL Para 90 casos, THAL fue fijo o reversible, y el dolor en el pecho fue de 4. De los 90 casos, el 80 u 88,9% son sí, y el 10 o el 11,1% son No.
La clasificación de los nodos terminales de la más pura a la menos pura son: 1, 7, 2, 3, 6, 4 y 5.

paso Determinar las variables importantes

Utilice el gráfico de importancia de variablerelativa para determinar qué predictores son las variables más importantes para el árbol.

Las variables importantes son divisores primarios o suplentes en el árbol. La variable con la puntuación de mejora más alta se establece como la variable más importante, y las otras variables se clasifican en consecuencia. La importancia relativa de las variables estandariza los valores de importancia para facilitar la interpretación. La importancia relativa se define como la mejora porcentual con respecto al predictor más importante.

Los valores de importancia de variables relativas oscilan entre 0% y 100%. La variable más importante siempre tiene una importancia relativa del 100%. Si una variable no está en el árbol, esa variable no es importante.

Resultado clave: Importancia relativa de variables

En este ejemplo, la variable predictora más importante es Tipo de dolor torácico. Si la contribución de la variable predictora superior, Tipo de dolor torácico, es 100%, luego puede comparar las otras variables con Tipo de dolor torácico para determinar su importancia. Por lo tanto, puede centrarse en los predictores más importantes. La lista siguiente describe las siguientes variables más importantes en este árbol:
  • Buques principales es alrededor del 87% tan importante como Tipo de dolor torácico.
  • Thal y Ejercicio Angina son tanto 65% tan importantes como Tipo de dolor torácico.
  • Frecuencia cardíaca máxima es alrededor del 55% tan importante como Tipo de dolor torácico.
  • Old Peak es alrededor del 50% tan importante como Tipo de dolor torácico.
  • Pendiente, Edad, SexoY Descansar la presión arterial son mucho menos importantes que Tipo de dolor torácico.

Aunque tienen una importancia positiva, los analistas podrían decidir que Colesterol, Rest ECGY Azúcar en la sangre en ayunas no son contribuyentes importantes al árbol.

paso Evalúe el poder predictivo de su árbol

El árbol más preciso es el que tiene el menor costo de clasificación errónea. A veces, los árboles más simples con costos de clasificación errónea ligeramente más altos funcionan igual de bien. Puede utilizar la clasificación errónea Coste frente a. Nodos de terminal Trazar para identificar árboles alternativos.

La curva de la característica de funcionamiento del receptor (ROC) muestra qué tan bien clasifica los datos un árbol. La curva ROC traza la tasa positiva verdadera en el eje Y y la tasa de falsos positivos en el eje X. La verdadera tasa positiva también se conoce como potencia. La tasa de falsos positivos también se conoce como error de tipo I.

Cuando un árbol de clasificación puede separar perfectamente las categorías en la variable de respuesta, el área bajo la curva ROC es 1, que es el mejor modelo de clasificación posible. Alternativamente, si un árbol de clasificación no puede distinguir categorías y realiza asignaciones de forma totalmente aleatoria, el área bajo la curva ROC es 0.5.

Cuando utiliza una técnica de validación para construir el árbol, Minitab proporciona información sobre el rendimiento del árbol en los datos de entrenamiento y validación (prueba). Cuando las curvas están juntas, puede estar más seguro de que el árbol no está sobreajustado. El rendimiento del árbol con los datos de prueba indica qué tan bien el árbol puede predecir nuevos datos.

La matriz de confusión también muestra qué tan bien el árbol separa las clases utilizando estas métricas:
  • Tasa positiva verdadera (TPR): la probabilidad de que un caso de evento se prediga correctamente
  • Tasa de falsos positivos (FPR) — la probabilidad de que un caso sin evento se prediga incorrectamente
  • Tasa negativa falsa (FNR) — la probabilidad de que un caso de evento se prediga incorrectamente
  • Tasa negativa verdadera (TNR) — la probabilidad de que un caso sin evento se prediga correctamente
Resultado clave: Curva Característica Operativa del Receptor (ROC)

Para este ejemplo, el área bajo la curva ROC es 0.886 para entrenamiento y 0.82 para la prueba. Estos valores indican que el árbol de clasificación es un clasificador razonable, en la mayoría de las aplicaciones.

CART® clasificación de 7 nodos: Enfermedad cardíaca vs. Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, Old Peak, Sexo, Azúcar en la sangre en ayunas, Ejercicio Angina, Rest ECG, Pendiente, Thal, Tipo de dolor torácico, Buques principales

Matriz de confusión Clase de predicción Clase de predicción (entrenamiento) (prueba) Clase real Conteo Sí No %Correcto Sí No %Correcto Sí (Evento) 139 117 22 84.2 105 34 75.5 No 164 22 142 86.6 24 140 85.4 Todo 303 139 164 85.5 129 174 80.9 Entrenamiento Estadísticas (%) Tasa de positivos verdaderos (sensibilidad o potencia) 84.2 Tasa de positivos falsos (error tipo I) 13.4 Tasa de negativos falsos (error tipo II) 15.8 Tasa de negativos verdaderos (especificidad) 86.6
Estadísticas Prueba (%) Tasa de positivos verdaderos (sensibilidad o potencia) 75.5 Tasa de positivos falsos (error tipo I) 14.6 Tasa de negativos falsos (error tipo II) 24.5 Tasa de negativos verdaderos (especificidad) 85.4
Resultado clave: Matriz de confusión

En este ejemplo, el árbol predice eventos y nonevents razonablemente bien porque las tasas verdaderas son relativamente altas y las tasas falsas son relativamente bajas.
  • Tasa positiva verdadera (TPR): 84,2% para los datos de formación y 75,5% para los datos de la prueba
  • Tasa de falsos positivos (FPR) — 13,4% para los datos de formación y 14,6% para los datos de la prueba
  • Tasa negativa falsa (FNR) — 15,8% para los datos de formación y 24,5% para los datos de la prueba
  • Tasa negativa real (TNR) — 86,6% para los datos de formación y 85,4% para los datos de la prueba

En general, el %Correcto para los datos de formación es del 85,5% y del 80,9% para los datos de prueba.