Ejemplo de Ajustar modelo con Clasificación TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores recopila y publica información detallada sobre los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.

Después de la exploración inicial para Clasificación CART® identificar los predictores importantes, los investigadores utilizan ambos Clasificación TreeNet® y Clasificación Random Forests® crean modelos más intensivos a partir del mismo conjunto de datos. Los investigadores comparan la tabla de resumen del modelo y la gráfica ROC de los resultados para evaluar qué modelo proporciona un mejor resultado de predicción. Para los resultados de los otros análisis, vaya a Ejemplo de Clasificación CART® y a Ejemplo de Clasificación Random Forests®.

  1. Abra los datos de muestra, EnfermedadesDelCorazonBinario.MTW.
  2. Elija Módulo de análisis predictivo > Clasificación TreeNet® > Ajustar modelo.
  3. En la lista desplegable, seleccione Respuesta binaria.
  4. En Respuesta, ingrese Enfermedad cardíaca.
  5. En Response event, seleccione para indicar que se ha identificado una enfermedad cardíaca en el paciente.
  6. En Predictores continuos, escriba Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, y Old Peak.
  7. En Predictores categóricos, escriba Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales, y Thal.
  8. Haga clic en Aceptar.

Interpretar los resultados

Para este análisis, Minitab cultiva 300 árboles y el número óptimo de árboles es 298. Debido a que el número óptimo de árboles está cerca del número máximo de árboles que crece el modelo, los investigadores repiten el análisis con más árboles.

Resumen del modelo

Total de predictores13
Predictores importantes13
Número de árboles cultivados300
Número óptimo de árboles298
EstadísticasEntrenamientoPrueba
Logverosimilitud promedio0.25560.3881
Área bajo la curva ROC0.97960.9089
        IC de 95%(0.9664, 0.9929)(0.8759, 0.9419)
Elevación2.17992.1087
Tasa de clasificación errónea0.08910.1617

Ejemplo con 500 árboles

  1. Seleccione Ajustar hiperparámetros en los resultados.
  2. En Número de árboles, ingrese 500.
  3. Haga clic en Mostrar resultados.

Interpretar los resultados

Para este análisis, hubo 500 árboles cultivados y el número óptimo de árboles es 351. El mejor modelo utiliza una tasa de aprendizaje de 0,01, utiliza una fracción de submuestra de 0,5 y utiliza 6 como número máximo de nodos terminales.

Método

Criterio para seleccionar un número óptimo de árbolesMáxima logverosimilitud
Validación del modeloValidación cruzada de 5 pliegues
Tasa de aprendizaje0.01
Método de selección de submuestrasCompletamente aleatorio
    Fracción de submuestra0.5
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 13
Filas utilizadas303

Información de respuesta binaria

VariableClaseConteo%
Enfermedad cardíacaSí (Evento)13945.87
  No16454.13
  Todo303100.00
Clasificación TreeNet® con ajuste de hiperparámetros: Enfermedad cardíaca vs. Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, Old Peak, Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales, Thal

Método

Criterio para seleccionar un número óptimo de árbolesMáxima logverosimilitud
Validación del modeloValidación cruzada de 5 pliegues
Tasa de aprendizaje0.001, 0.01, 0.1
Fracción de submuestra0.5, 0.7
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 13
Filas utilizadas303

Información de respuesta binaria

VariableClaseConteo%
Enfermedad cardíacaSí (Evento)13945.87
  No16454.13
  Todo303100.00

Optimización de hiperparámetros

Prueba
ModeloNúmero
óptimo de
árboles
Log-verosimilitud
promedio
Área bajo la
curva ROC
Tasa de
clasificación
errónea
Tasa de
aprendizaje
Fracción de
submuestra
15000.5429020.9029560.1717490.0010.5
2*3510.3865360.9089200.1750270.0100.5
3330.3965550.9007820.1616940.1000.5
45000.5432920.8941780.1781420.0010.7
53740.3896070.9066200.1650820.0100.7
6390.3933820.9013990.1749730.1000.7
ModeloMáximo de
nodos
terminales
16
2*6
36
46
56
66
* El modelo óptimo tiene una mínima -logverosimilitud promedio. A continuación se muestra la
     salida del modelo óptimo.

La gráfica de log-verosimilitud promedio vs número de árboles muestra toda la curva sobre el número de árboles crecidos. El valor óptimo para los datos de prueba es 0.3865 cuando el número de árboles es 351.

Resumen del modelo

Total de predictores13
Predictores importantes13
Número de árboles cultivados500
Número óptimo de árboles351
EstadísticasEntrenamientoPrueba
Logverosimilitud promedio0.23410.3865
Área bajo la curva ROC0.98250.9089
        IC de 95%(0.9706, 0.9945)(0.8757, 0.9421)
Elevación2.17992.1087
Tasa de clasificación errónea0.07590.1750

Resumen del modelo

Total de predictores13
Predictores importantes13
EstadísticasOut-of-Bag
Logverosimilitud promedio0.4004
Área bajo la curva ROC0.9028
        IC de 95%(0.8693, 0.9363)
Elevación2.1079
Tasa de clasificación errónea0.1848

La tabla de resumen del modelo muestra que la probabilidad logarítmica negativa media cuando el número de árboles es 351 es de aproximadamente 0,23 para los datos de entrenamiento y de aproximadamente 0,39 para los datos de prueba. Estas estadísticas indican un modelo similar al que crea Minitab Random Forests®. Además, las tasas de clasificaciones erróneas son similares.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Thal. Si la contribución de la variable predictora más importante, Thal, es 100%, entonces la siguiente variable importante, Vasos principales, tiene una contribución de 97.8%. Esto significa que Vasos principales es 97.8% tan importante como Thal en este modelo de clasificación.

Matriz de confusión



Clase de predicción
(entrenamiento)
Clase de predicción
(prueba)


Clase realConteoNo% CorrectoNo% Correcto
Sí (Evento)1391241589.211102979.14
No164815695.122414085.37
Todo30313217192.4113416982.51
Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que
     0.5.
     
EstadísticasEntrenamiento
(%)
Prueba (%)
Tasa de positivos verdaderos (sensibilidad o potencia)89.2179.14
Tasa de positivos falsos (error tipo I)4.8814.63
Tasa de negativos falsos (error tipo II)10.7920.86
Tasa de negativos verdaderos (especificidad)95.1285.37

La matriz de confusión muestra qué tan efectivo es el modelo para separar las clases correctamente. En este ejemplo, la probabilidad de que un evento sea pronosticado correctamente es 79.14%. La probabilidad de que un no evento se pronosticado correctamente es 85.37%.

Clasificación errónea



EntrenamientoPrueba


Clasificado
erróneamente
% ErrorClasificado
erróneamente
% Error
Clase realConteo

Sí (Evento)1391510.792920.86
No16484.882414.63
Todo303237.595317.49
Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que
     0.5.

La tasa de clasificaciones erróneas ayuda a indicar si el modelo predecirá nuevas observaciones con exactitud. Para la predicción de eventos, el error de clasificaciones erróneas de prueba es 20.86%. Para la predicción de no eventos, el error de clasificaciones erróneas es 14.63% y, en general, el error de clasificaciones erróneas es 17.49%.

El área bajo de la curva ROC, cuando el número de árboles es 351, es aproximadamente 0.98 para los datos de entrenamiento y aproximadamente 0.91 para los datos de prueba. Esto muestra una buena mejora con respecto al Clasificación CART® modelo . El Clasificación Random Forests® modelo tiene un AUROC de prueba de 0.9028, por lo que estos 2 métodos dan resultados similares.

En este ejemplo, la gráfica de ganancia muestra un fuerte aumento por encima de la línea de referencia y, luego, un aplanamiento. En este caso, aproximadamente 40% de los datos representan aproximadamente 80% de los verdaderos positivos. Esta diferencia es la ganancia adicional que se obtiene al utilizar el modelo.

En este ejemplo, la gráfica de elevación muestra un gran aumento por encima de la línea de referencia que disminuye gradualmente.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan los valores de respuesta ajustados. Los valores de respuesta ajustados están se encuentran en la escala semi-logarítmica. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

Por ejemplo, en la gráfica de dependencia parcial del tipo de dolor de pecho, las probabilidades de 1/2 logaritmo varían y luego aumentan abruptamente. Cuando el tipo de dolor de pecho es 4, las probabilidades de 1/2 logaritmo de la incidencia de enfermedad cardíaca aumentan de aproximadamente −0.04 a 0.03. Seleccionar Gráficos de un predictor o Gráficos de dos predictores producir gráficas para otras variables