Ejemplo de Clasificación CART^®

Un equipo de investigadores recopila y publica información detallada sobre los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.

Los investigadores quieren crear un árbol de clasificación que identifique a los predictores importantes para indicar si un paciente tiene una enfermedad cardíaca.

Abra los datos de muestra, EnfermedadesDelCorazonBinario.MWX.
Elija Módulo de análisis predictivo > Clasificación CART®.
En la lista desplegable, seleccione Respuesta binaria.
En Respuesta, ingrese Enfermedad cardíaca.
En Response event, seleccione Sí para indicar que se ha identificado una enfermedad cardíaca en el paciente.
En Predictores continuos, escriba Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, y Old Peak.
En Predictores categóricos, escriba Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales, y Thal
Haga clic en Aceptar.

Interpretar los resultados

Por opción predeterminada, Minitab muestra el árbol más pequeño con un costo de clasificación errónea dentro de 1 error estándar del árbol que minimiza el costo de clasificación errónea. Este árbol tiene 4 nodos terminales.

Antes de que los investigadores examinen el árbol, examinan la gráfica que muestra el costo de clasificación errónea de la validación cruzada y el número de nodos terminales. En esta gráfica, el patrón donde disminuye el costo de clasificación errónea continúa después del árbol de 4 nodos. En un caso como este, los analistas eligen explorar algunos de los otros árboles simples que tienen menores costos de clasificación errónea.

Seleccionar un árbol alternativo

En la salida, haga clic en Seleccionar árbol alternativo
En la gráfica, seleccione el árbol de 7 nodos que tenga el menor costo de clasificación errónea y el mejor valor de ROC.
Haga clic en Crear árbol.

Interpretar los resultados

En el diagrama de árbol, los elementos que son azules son para el nivel de evento. Los elementos que son rojos son para el nivel de no evento. En esta salida, el nivel del evento es "Sí" e indica que alguien tiene enfermedad cardíaca. El nivel de no evento es "No" e indica que alguien no tiene enfermedad cardíaca.

En el nodo raíz, hay 139 conteos del evento Sí y 164 conteos del evento No. El nodo raíz se divide utilizando la variable, THAL. Cuando THAL = Normal, vaya al nodo izquierdo (nodo 2). Cuando THAL = Fijo o Reversible, vaya al nodo derecho (Nodo 5).

Nodo 2: Hay 167 casos donde THAL era Normal. De los 167 casos, 38 o el 22,8% son Sí y 129 o el 77,2% son No.
Nodo 5: Hay 136 casos donde THAL era Fijo o Reversible. De los 136 casos, 101 o el 74,3% son Sí y 35 o el 25,7% son No.

El siguiente divisor para el nodo hijo izquierdo y el nodo hijo derecho es Tipo de dolor de pecho, donde el dolor se clasifica como 1, 2, 3 o 4.

Explore otros nodos para ver qué variables son más interesantes. Los nodos que son en su mayoría azules indican una proporción fuerte del nivel de evento. Los nodos que son en su mayoría rojos indican una proporción fuerte del nivel de no evento.

El diagrama de árbol utiliza todo el conjunto de datos o el conjunto de datos de entrenamiento. Puede alternar las vistas del árbol entre la vista detallada y la vista dividida de nodos.

Este árbol tiene un costo de clasificación errónea de aproximadamente 0,391.

La variable predictora más importante es Tipo de dolor de pecho. Si la contribución de la variable predictora superior, el tipo de dolor torácico, es del 100%, entonces la siguiente variable importante, los vasos principales, tiene una contribución del 86,5%. Esto significa que los vasos principales son 86.5% tan importantes como el tipo de dolor torácico en este árbol de clasificación.

El área bajo la curva ROC para los datos de prueba es 0.8200, lo que indica un rendimiento de clasificación razonable, en muchas aplicaciones. Para las aplicaciones que requieren una mayor precisión de predicción, puede intentar mejorar el rendimiento con un Clasificación TreeNet^® modelo o un Clasificación Random Forests^® modelo.

En este ejemplo, la gráfica de ganancia muestra un fuerte aumento por encima de la línea de referencia y, luego, un aplanamiento. En este caso, aproximadamente 40% de los datos representan aproximadamente 70% de los verdaderos positivos.

En este ejemplo, la gráfica de elevación muestra un aumento por encima de la línea de referencia que se reduce gradualmente.

Clasificación CART® de 7 nodos: Enfermedad cardíaca vs. Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, Old Peak, Sexo, Azúcar en la sangre en ayunas, Ejercicio Angina, Rest ECG, Pendiente, Thal, Tipo de dolor torácico, Buques principales

Método

Probabilidades anteriores	Igual para todas las clases
División de nodos	Gini
Árbol óptimo	Costo mínimo de clasificación errónea
Validación del modelo	Validación cruzada de 10 pliegues
Filas utilizadas	303

Información de respuesta binaria

Variable	Clase	Conteo	%
Enfermedad cardíaca	Sí (Evento)	139	45.87
	No	164	54.13
	Todo	303	100.00

Resumen del modelo

Total de predictores	13
Predictores importantes	13
Número de nodos terminales	7
Tamaño mínimo del nodo terminal	5

Estadísticas	Entrenamiento	Prueba
Logverosimilitud promedio	0.3971	0.5094
Área bajo la curva ROC	0.8861	0.8200
IC de 95%	(0.5590, 1)	(0.7702, 0.8697)
Elevación	1.9376	1.8165
Costo de clasificación errónea	0.2924	0.3909

Matriz de confusión

		Clase de predicción (entrenamiento)			Clase de predicción (prueba)
		Clase de predicción (entrenamiento)			Clase de predicción (prueba)
Clase real	Conteo	Sí	No	% Correcto	Sí	No	% Correcto
Sí (Evento)	139	117	22	84.2	105	34	75.5
No	164	22	142	86.6	24	140	85.4
Todo	303	139	164	85.5	129	174	80.9

Estadísticas	Entrenamiento (%)	Prueba (%)
Tasa de positivos verdaderos (sensibilidad o potencia)	84.2	75.5
Tasa de positivos falsos (error tipo I)	13.4	14.6
Tasa de negativos falsos (error tipo II)	15.8	24.5
Tasa de negativos verdaderos (especificidad)	86.6	85.4

Clasificación errónea

Costo de clasificación errónea ingresado	Clase de predicción
Clase real	Sí	No
Sí		1.00
No	1.00

		Entrenamiento			Prueba
		Clasificado erróneamente	% Error	Costo	Clasificado erróneamente	% Error	Costo
Clase real	Conteo	Clasificado erróneamente			Clasificado erróneamente
Sí (Evento)	139	22	15.8	0.1583	34	24.5	0.2446
No	164	22	13.4	0.1341	24	14.6	0.1463
Todo	303	44	14.5	0.1462	58	19.1	0.1955

Ejemplo de Clasificación CART®

Interpretar los resultados

Seleccionar un árbol alternativo

Interpretar los resultados

Método

Información de respuesta binaria

Resumen del modelo

Matriz de confusión

Clasificación errónea

Ejemplo de Clasificación CART^®