Un equipo de investigadores recopila y publica información detallada sobre los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.
Los investigadores quieren crear un árbol de clasificación que identifique a los predictores importantes para indicar si un paciente tiene una enfermedad cardíaca.
Por opción predeterminada, Minitab muestra el árbol más pequeño con un costo de clasificación errónea dentro de 1 error estándar del árbol que minimiza el costo de clasificación errónea. Este árbol tiene 4 nodos terminales.
En el diagrama de árbol, los elementos que son azules son para el nivel de evento. Los elementos que son rojos son para el nivel de no evento. En esta salida, el nivel del evento es "Sí" e indica que alguien tiene enfermedad cardíaca. El nivel de no evento es "No" e indica que alguien no tiene enfermedad cardíaca.
El siguiente divisor para el nodo hijo izquierdo y el nodo hijo derecho es Tipo de dolor de pecho, donde el dolor se clasifica como 1, 2, 3 o 4.
Explore otros nodos para ver qué variables son más interesantes. Los nodos que son en su mayoría azules indican una proporción fuerte del nivel de evento. Los nodos que son en su mayoría rojos indican una proporción fuerte del nivel de no evento.
El diagrama de árbol utiliza todo el conjunto de datos o el conjunto de datos de entrenamiento. Puede alternar las vistas del árbol entre la vista detallada y la vista dividida de nodos.
Este árbol tiene un costo de clasificación errónea de aproximadamente 0,391.
La variable predictora más importante es Tipo de dolor de pecho. Si la contribución de la variable predictora superior, el tipo de dolor torácico, es del 100%, entonces la siguiente variable importante, los vasos principales, tiene una contribución del 86,5%. Esto significa que los vasos principales son 86.5% tan importantes como el tipo de dolor torácico en este árbol de clasificación.
El área bajo la curva ROC para los datos de prueba es 0.8200, lo que indica un rendimiento de clasificación razonable, en muchas aplicaciones. Para las aplicaciones que requieren una mayor precisión de predicción, puede intentar mejorar el rendimiento con un Clasificación TreeNet® modelo o un Clasificación Random Forests® modelo.
En este ejemplo, la gráfica de ganancia muestra un fuerte aumento por encima de la línea de referencia y, luego, un aplanamiento. En este caso, aproximadamente 40% de los datos representan aproximadamente 70% de los verdaderos positivos.
En este ejemplo, la gráfica de elevación muestra un aumento por encima de la línea de referencia que se reduce gradualmente.
Probabilidades anteriores | Igual para todas las clases |
---|---|
División de nodos | Gini |
Árbol óptimo | Costo mínimo de clasificación errónea |
Validación del modelo | Validación cruzada de 10 pliegues |
Filas utilizadas | 303 |
Variable | Clase | Conteo | % |
---|---|---|---|
Enfermedad cardíaca | Sí (Evento) | 139 | 45.87 |
No | 164 | 54.13 | |
Todo | 303 | 100.00 |
Total de predictores | 13 |
---|---|
Predictores importantes | 13 |
Número de nodos terminales | 7 |
Tamaño mínimo del nodo terminal | 5 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
Logverosimilitud promedio | 0.3971 | 0.5094 |
Área bajo la curva ROC | 0.8861 | 0.8200 |
IC de 95% | (0.5590, 1) | (0.7702, 0.8697) |
Elevación | 1.9376 | 1.8165 |
Costo de clasificación errónea | 0.2924 | 0.3909 |
Clase de predicción (entrenamiento) | Clase de predicción (prueba) | ||||||
---|---|---|---|---|---|---|---|
Clase real | Conteo | Sí | No | % Correcto | Sí | No | % Correcto |
Sí (Evento) | 139 | 117 | 22 | 84.2 | 105 | 34 | 75.5 |
No | 164 | 22 | 142 | 86.6 | 24 | 140 | 85.4 |
Todo | 303 | 139 | 164 | 85.5 | 129 | 174 | 80.9 |
Estadísticas | Entrenamiento (%) | Prueba (%) |
---|---|---|
Tasa de positivos verdaderos (sensibilidad o potencia) | 84.2 | 75.5 |
Tasa de positivos falsos (error tipo I) | 13.4 | 14.6 |
Tasa de negativos falsos (error tipo II) | 15.8 | 24.5 |
Tasa de negativos verdaderos (especificidad) | 86.6 | 85.4 |
Costo de clasificación errónea ingresado | Clase de predicción | |
---|---|---|
Clase real | Sí | No |
Sí | 1.00 | |
No | 1.00 |
Entrenamiento | Prueba | ||||||
---|---|---|---|---|---|---|---|
Clasificado erróneamente | % Error | Costo | Clasificado erróneamente | % Error | Costo | ||
Clase real | Conteo | ||||||
Sí (Evento) | 139 | 22 | 15.8 | 0.1583 | 34 | 24.5 | 0.2446 |
No | 164 | 22 | 13.4 | 0.1341 | 24 | 14.6 | 0.1463 |
Todo | 303 | 44 | 14.5 | 0.1462 | 58 | 19.1 | 0.1955 |