Ejemplo de Ajustar modelo con Clasificación TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores recopila y publica información detallada acerca de los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.

Después de la exploración inicial con Clasificación CART® para identificar los predictores importantes, los investigadores utilizan Clasificación TreeNet® y Clasificación Random Forests® para crear modelos más intensivos a partir del mismo conjunto de datos. Los investigadores comparan la tabla de resumen del modelo y la gráfica ROC de los resultados para evaluar qué modelo proporciona un mejor resultado de predicción. Para los resultados de los otros análisis, vaya a Ejemplo de Clasificación CART® y a Ejemplo de Clasificación Random Forests®.

  1. Abra los datos de muestra, EnfermedadesDelCorazonBinario.MTW.
  2. Elija Módulo de análisis predictivo > Clasificación TreeNet® > Ajustar modelo.
  3. En la lista desplegable, seleccione Respuesta binaria.
  4. En Respuesta, escriba Enfermedad cardíaca.
  5. En Response event, seleccione para indicar que se ha identificado una enfermedad cardíaca en el paciente.
  6. En Predictores continuos, ingrese Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima y Old Peak.
  7. En Predictores categóricos, ingrese Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales y Thal.
  8. Haga clic en Aceptar.

Interpretar los resultados

Para este análisis, Minitab cultiva 300 árboles y el número óptimo de árboles es 298. Cuando el número óptimo de árboles esté cerca del número máximo de árboles que crea el modelo, los investigadores repiten el análisis con más árboles.

Resumen del modelo

Total de predictores13
Predictores importantes13
Número de árboles cultivados500
Número óptimo de árboles351
EstadísticasEntrenamientoPrueba
Logverosimilitud promedio0.23410.3865
Área bajo la curva ROC0.98250.9089
        IC de 95%(0.9706, 0.9945)(0.8757, 0.9421)
Elevación2.17992.1087
Tasa de clasificación errónea0.07590.1750

Ejemplo con 500 árboles

  1. Después de la tabla de resumen del modelo, haga clic en Ajustar hiperparámetros para identificar un mejor modelo.
  2. En Número de árboles, ingrese 500.
  3. Haga clic en Mostrar resultados.

Interpretar los resultados

Para este análisis, hubo 500 árboles cultivados y el número óptimo de árboles es 351. El mejor modelo utiliza una tasa de aprendizaje de 0.01, utiliza una fracción de submuestra de 0.5 y utiliza 6 como número máximo de nodos terminales.

Método

Criterio para seleccionar un número óptimo de árbolesMáxima logverosimilitud
Validación del modeloValidación cruzada de 5 pliegues
Tasa de aprendizaje0.01
Método de selección de submuestrasCompletamente aleatorio
    Fracción de submuestra0.5
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 13
Filas utilizadas303

Información de respuesta binaria

VariableClaseConteo%
Enfermedad cardíacaSí (Evento)13945.87
  No16454.13
  Todo303100.00
Clasificación TreeNet® con ajuste de hiperparámetros: Enfermedad cardíaca vs. Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, Old Peak, Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales, Thal

Método

Criterio para seleccionar un número óptimo de árbolesMáxima logverosimilitud
Validación del modeloValidación cruzada de 5 pliegues
Tasa de aprendizaje0.001, 0.01, 0.1
Fracción de submuestra0.5, 0.7
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 13
Filas utilizadas303

Información de respuesta binaria

VariableClaseConteo%
Enfermedad cardíacaSí (Evento)13945.87
  No16454.13
  Todo303100.00

Optimización de hiperparámetros

Prueba
ModeloNúmero
óptimo de
árboles
Log-verosimilitud
promedio
Área bajo la
curva ROC
Tasa de
clasificación
errónea
Tasa de
aprendizaje
Fracción de
submuestra
15000.5429020.9029560.1717490.0010.5
2*3510.3865360.9089200.1750270.0100.5
3330.3965550.9007820.1616940.1000.5
45000.5432920.8941780.1781420.0010.7
53740.3896070.9066200.1650820.0100.7
6390.3933820.9013990.1749730.1000.7
ModeloMáximo de
nodos
terminales
16
2*6
36
46
56
66
* El modelo óptimo tiene una mínima -logverosimilitud promedio. A continuación se muestra la
     salida del modelo óptimo.

La gráfica de log-verosimilitud promedio vs número de árboles muestra toda la curva sobre el número de árboles crecidos. El valor óptimo para los datos de prueba es 0.3865 cuando el número de árboles es 351.

Resumen del modelo

Total de predictores13
Predictores importantes13
Número de árboles cultivados500
Número óptimo de árboles351
EstadísticasEntrenamientoPrueba
Logverosimilitud promedio0.23410.3865
Área bajo la curva ROC0.98250.9089
        IC de 95%(0.9706, 0.9945)(0.8757, 0.9421)
Elevación2.17992.1087
Tasa de clasificación errónea0.07590.1750

Resumen del modelo

Total de predictores13
Predictores importantes13
EstadísticasOut-of-Bag
Logverosimilitud promedio0.4004
Área bajo la curva ROC0.9028
        IC de 95%(0.8693, 0.9363)
Elevación2.1079
Tasa de clasificación errónea0.1848

La tabla Resumen del modelo muestra que la log-verosimilitud negativa promedio cuando el número de árboles es 351 es de aproximadamente 0.23 para los datos de entrenamiento y es de aproximadamente 0.39 para los datos de prueba. Estas estadísticas indican un modelo similar al creado por Minitab Random Forests®. Además, las tasas de clasificaciones erróneas son similares.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Thal. Si la contribución de la variable predictora más importante, Thal, es 100%, entonces la siguiente variable importante, Grandes vasos, tiene una contribución de 97.8%. Esto significa que Vasos principales es 97.8% tan importante como Thal en este modelo de clasificación.

Matriz de confusión



Clase de predicción
(entrenamiento)
Clase de predicción
(prueba)


Clase realConteoNo% CorrectoNo% Correcto
Sí (Evento)1391241589.211102979.14
No164815695.122414085.37
Todo30313217192.4113416982.51
Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que
     0.5.
     
EstadísticasEntrenamiento
(%)
Prueba (%)
Tasa de positivos verdaderos (sensibilidad o potencia)89.2179.14
Tasa de positivos falsos (error tipo I)4.8814.63
Tasa de negativos falsos (error tipo II)10.7920.86
Tasa de negativos verdaderos (especificidad)95.1285.37

La matriz de confusión muestra qué tan efectivo es el modelo para separar las clases correctamente. En este ejemplo, la probabilidad de que un evento sea pronosticado correctamente es 79.14%. La probabilidad de que un no evento se pronosticado correctamente es 85.37%.

Clasificación errónea



EntrenamientoPrueba


Clasificado
erróneamente
% ErrorClasificado
erróneamente
% Error
Clase realConteo

Sí (Evento)1391510.792920.86
No16484.882414.63
Todo303237.595317.49
Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que
     0.5.

La tasa de clasificaciones erróneas ayuda a indicar si el modelo predecirá nuevas observaciones con exactitud. Para la predicción de eventos, el error de clasificaciones erróneas de prueba es 20.86%. Para la predicción de no eventos, el error de clasificaciones erróneas es 14.63% y, en general, el error de clasificaciones erróneas es 17.49%.

El área debajo de la curva ROC, cuando el número de árboles es 351, es aproximadamente 0.98 para los datos de entrenamiento y es aproximadamente 0,91 para los datos de prueba. Esto muestra una buena mejora con respecto al modelo Clasificación CART®. El modelo Clasificación Random Forests® tiene una prueba AUROC de 0.9028, por lo que estos dos métodos proporcionan resultados similares.

En este ejemplo, la gráfica de ganancia muestra un fuerte aumento por encima de la línea de referencia y, luego, un aplanamiento. En este caso, aproximadamente 40% de los datos representan aproximadamente 80% de los verdaderos positivos. Esta diferencia es la ganancia adicional que se obtiene al utilizar el modelo.

En este ejemplo, la gráfica de elevación muestra un gran aumento por encima de la línea de referencia que disminuye gradualmente.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan la respuesta pronosticada. Los valores de respuesta en la escala de 1/2 logaritmo son las predicciones a partir del modelo. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

Por ejemplo, en la gráfica de dependencia parcial del tipo de dolor de pecho, las probabilidades de 1/2 logaritmo varían y luego aumentan de forma drástica. Cuando el tipo de dolor de pecho es 4, las probabilidades de 1/2 logaritmo de la incidencia de enfermedad cardíaca aumentan de aproximadamente −0.04 a 0.03. Haga clic en Seleccionar más predictores para graficar para crear gráficas para otras variables