Ejemplo de creación de árboles con Cart® Clasificación

Un equipo de investigadores recopila y publica información detallada sobre los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.

Los investigadores quieren crear un árbol de clasificación que identifique a los predictores importantes para indicar si un paciente tiene una enfermedad cardíaca.

  1. Abra los datos de la muestra, EnfermedadesDelCorazonBinario.MTW.
  2. Elija Estadísticas > Análisis predictivo > CART® Clasificación.
  3. En la lista desplegable, seleccione Respuesta binaria.
  4. Adentro Respuesta, ingrese Enfermedad cardíaca.
  5. Adentro Evento de respuesta, ingrese para indicar que se ha identificado una enfermedad cardíaca en el paciente.
  6. Adentro Predictores continuos, ingrese Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, y Old Peak.
  7. Adentro Predictores categóricos, ingrese Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales, y Thal.
  8. Haga clic en OK.

Interpretar los resultados

Por opción predeterminada, Minitab muestra el árbol más pequeño con un costo de clasificación errónea dentro de 1 error estándar del árbol que minimiza el costo de clasificación errónea. Este árbol tiene 4 nodos terminales.

Antes de que los investigadores examinen el árbol, examinan la gráfica que muestra el costo de clasificación errónea de la validación cruzada y el número de nodos terminales. En esta gráfica, el patrón donde disminuye el costo de clasificación errónea continúa después del árbol de 4 nodos. En un caso como este, los analistas eligen explorar algunos de los otros árboles simples que tienen menores costos de clasificación errónea.

Seleccionar un árbol alternativo

  1. En la salida, haga clic en Seleccionar árbol alternativo
  2. En la gráfica, seleccione el árbol de 7 nodos que tenga el menor costo de clasificación errónea y el mejor valor de ROC.
  3. Haga clic en Crear árbol.

Interpretar los resultados

En el diagrama de árbol, los elementos que son azules son para el nivel de evento. Los elementos que son rojos son para el nivel de no evento. En esta salida, el nivel del evento es "Sí" e indica que alguien tiene enfermedad cardíaca. El nivel de no evento es "No" e indica que alguien no tiene enfermedad cardíaca.

En el nodo raíz, hay 139 conteos del evento Sí y 164 conteos del evento No. El nodo raíz se divide utilizando la variable THAL. Cuando THAL - Normal, vaya al nodo izquierdo (nodo 2). Cuando THAL - Fijo o Reversible, vaya al nodo derecho (Nodo 5).
  • NODO Hay 167 casos cuando THAL era normal. De los 167 casos, el 38 o el 22,8% son Sí y el 129 o el 77,2% son No.
  • NODO Hay 136 casos cuando THAL era fijo o reversible. De los 136 casos, el 101 o el 74,3% son sí y el 35 o 25,7% son No.

El siguiente divisor para el nodo secundario izquierdo y el nodo secundario derecho es Tipo de dolor de pecho, donde el dolor se clasifica como 1, 2, 3 o 4.

Explore otros nodos para ver qué variables son más interesantes. Los nodos que son en su mayoría azules indican una proporción fuerte del nivel de evento. Los nodos que son en su mayoría rojos indican una proporción fuerte del nivel sin evento.

El diagrama de árbol utiliza todo el conjunto de datos o el conjunto de datos de entrenamiento. Puede alternar las vistas del árbol entre la vista detallada y la vista dividida de nodo.

Este árbol tiene un costo de clasificación incorrecta de aproximadamente 0,391.

La variable predictora más importante es el Tipo de Dolor de Pecho. Si la contribución de la variable predictora superior, Tipo de dolor de pecho, es 100%, entonces la siguiente variable importante, Vessels Principales, tiene una contribución de 86.5%. Esto significa que los recipientes principales son 86,5% tan importantes como el tipo de dolor de pecho en este árbol de clasificación.

El área bajo la curva ROC para los datos de prueba es 0.8200, lo que indica un rendimiento de clasificación razonable, en la mayoría de las aplicaciones.

CART® clasificación de 7 nodos: Enfermedad cardíaca vs. Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, Old Peak, Sexo, Azúcar en la sangre en ayunas, Ejercicio Angina, Rest ECG, Pendiente, Thal, Tipo de dolor torácico, Buques principales

Método Probabilidades anteriores Igual para todas las clases División de nodos Gini Árbol óptimo Costo mínimo de clasificación errónea Validación del modelo Validación cruzada de 10 pliegues Filas utilizadas 303
Información de respuesta binaria Variable Clase Conteo % Enfermedad cardíaca Sí (Evento) 139 45.9 No 164 54.1 Todo 303 100.0
Resumen del modelo Total de predictores 13 Predictores importantes 13 Número de nodos terminales 7 Tamaño mínimo del nodo terminal 5 Estadísticas Entrenamiento Prueba R-cuad. de la Desviación 0.4243 0.2615 Logverosimilitud promedio 0.3971 0.5094 Área bajo la curva ROC 0.8861 0.8200 IC de 95% (0.5590, 1) (0.7702, 0.8697) Elevación 1.9376 1.8165 Costo de clasificación errónea 0.2924 0.3909
Matriz de confusión Clase de predicción Clase de predicción (entrenamiento) (prueba) Clase real Conteo Sí No %Correcto Sí No %Correcto Sí (Evento) 139 117 22 84.2 105 34 75.5 No 164 22 142 86.6 24 140 85.4 Todo 303 139 164 85.5 129 174 80.9 Entrenamiento Estadísticas (%) Tasa de positivos verdaderos (sensibilidad o potencia) 84.2 Tasa de positivos falsos (error tipo I) 13.4 Tasa de negativos falsos (error tipo II) 15.8 Tasa de negativos verdaderos (especificidad) 86.6
Estadísticas Prueba (%) Tasa de positivos verdaderos (sensibilidad o potencia) 75.5 Tasa de positivos falsos (error tipo I) 14.6 Tasa de negativos falsos (error tipo II) 24.5 Tasa de negativos verdaderos (especificidad) 85.4
Clasificación errónea Costo de clasificación errónea Clase de ingresado predicción Clase real Sí No Sí 1.00 No 1.00 Entrenamiento Prueba Clasificado Clasificado Clase real Conteo erróneamente % Error Costo erróneamente % Error Sí (Evento) 139 22 15.8 0.1583 34 24.5 No 164 22 13.4 0.1341 24 14.6 Todo 303 44 14.5 0.1462 58 19.1
Clase real Costo Sí (Evento) 0.2446 No 0.1463 Todo 0.1955
Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política