Ejemplo de Ajustar modelo con Clasificación TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores recopila y publica información detallada acerca de los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.

Después de la exploración inicial con Clasificación CART® para identificar los predictores importantes, los investigadores utilizan Clasificación TreeNet® y Clasificación Random Forests® para crear modelos más intensivos a partir del mismo conjunto de datos. Los investigadores comparan la tabla de resumen del modelo y la gráfica ROC de los resultados para evaluar qué modelo proporciona un mejor resultado de predicción. Para los resultados de los otros análisis, vaya a Ejemplo de Clasificación CART® y a Ejemplo de Clasificación Random Forests®.

  1. Abra los datos de muestra, EnfermedadesDelCorazonBinario.MTW.
  2. Elija Módulo de análisis predictivo > Clasificación TreeNet® > Ajustar modelo.
  3. En la lista desplegable, seleccione Respuesta binaria.
  4. En Respuesta, escriba Enfermedad cardíaca.
  5. En Response event, seleccione para indicar que se ha identificado una enfermedad cardíaca en el paciente.
  6. En Predictores continuos, ingrese Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima y Old Peak.
  7. En Predictores categóricos, ingrese Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales y Thal.
  8. Haga clic en Aceptar.

Interpretar los resultados

Para este análisis, Minitab cultiva 300 árboles y el número óptimo de árboles es 298. Cuando el número óptimo de árboles esté cerca del número máximo de árboles que crea el modelo, los investigadores repiten el análisis con más árboles.

Clasificación de TreeNet®: Enfermedad c vs Edad, Descansar la, Colesterol, ...

Resumen del modelo Total de predictores 13 Predictores importantes 13 Número de árboles cultivados 300 Número óptimo de árboles 298 Estadísticas Entrenamiento Prueba Logverosimilitud promedio 0.2556 0.3881 Área bajo la curva ROC 0.9796 0.9089 IC de 95% (0.9664, 0.9929) (0.8759, 0.9419) Elevación 2.1799 2.1087 Tasa de clasificación errónea 0.0891 0.1617

Ejemplo con 500 árboles

  1. Después de la tabla de resumen del modelo, haga clic en Ajustar hiperparámetros para identificar un mejor modelo.
  2. En Número de árboles, ingrese 500.
  3. Haga clic en Mostrar resultados.

Interpretar los resultados

Para este análisis, hubo 500 árboles cultivados y el número óptimo de árboles es 351. El mejor modelo utiliza una tasa de aprendizaje de 0.01, utiliza una fracción de submuestra de 0.5 y utiliza 6 como número máximo de nodos terminales.

Clasificación TreeNet®: Enfermedad c vs Edad, Descansar la, Colesterol, ...

Método Criterio para seleccionar un número óptimo de árboles Máxima logverosimilitud Validación del modelo Validación cruzada de 5 pliegues Tasa de aprendizaje 0.01 Método de selección de submuestras Completamente aleatorio Fracción de submuestra 0.5 Máximo de nodos terminales por árbol 6 Tamaño mínimo del nodo terminal 3 Número de predictores seleccionados para la división de nodos Número total de predictores = 13 Filas utilizadas 303
Información de respuesta binaria Variable Clase Conteo % Enfermedad cardíaca Sí (Evento) 139 45.87 No 164 54.13 Todo 303 100.00

Clasificación TreeNet® con ajuste de hiperparámetros: Enfermedad c vs. Edad, Descansar la, ...

Método Criterio para seleccionar un número óptimo de árboles Máxima logverosimilitud Validación del modelo Validación cruzada de 5 pliegues Tasa de aprendizaje 0.001, 0.01, 0.1 Fracción de submuestra 0.5, 0.7 Máximo de nodos terminales por árbol 6 Tamaño mínimo del nodo terminal 3 Número de predictores seleccionados para la división de nodos Número total de predictores = 13 Filas utilizadas 303
Información de respuesta binaria Variable Clase Conteo % Enfermedad cardíaca Sí (Evento) 139 45.87 No 164 54.13 Todo 303 100.00
Optimización de hiperparámetros Prueba Número Tasa de óptimo de Log-verosimilitud Área bajo la clasificación Tasa de Modelo árboles promedio curva ROC errónea aprendizaje 1 500 0.542902 0.902956 0.171749 0.001 2* 351 0.386536 0.908920 0.175027 0.010 3 33 0.396555 0.900782 0.161694 0.100 4 500 0.543292 0.894178 0.178142 0.001 5 374 0.389607 0.906620 0.165082 0.010 6 39 0.393382 0.901399 0.174973 0.100 Máximo de Fracción de nodos Modelo submuestra terminales 1 0.5 6 2* 0.5 6 3 0.5 6 4 0.7 6 5 0.7 6 6 0.7 6 * El modelo óptimo tiene una mínima -logverosimilitud promedio. A continuación se muestra la salida del modelo óptimo.

La gráfica de log-verosimilitud promedio vs número de árboles muestra toda la curva sobre el número de árboles crecidos. El valor óptimo para los datos de prueba es 0.3865 cuando el número de árboles es 351.

Clasificación de TreeNet®: Enfermedad c vs Edad, Descansar la, Colesterol, ...

Resumen del modelo Total de predictores 13 Predictores importantes 13 Número de árboles cultivados 500 Número óptimo de árboles 351 Estadísticas Entrenamiento Prueba Logverosimilitud promedio 0.2341 0.3865 Área bajo la curva ROC 0.9825 0.9089 IC de 95% (0.9706, 0.9945) (0.8757, 0.9421) Elevación 2.1799 2.1087 Tasa de clasificación errónea 0.0759 0.1750

Random Forests® Clasificación: Enfermedad c vs Edad, Descansar la, ...

Resumen del modelo Total de predictores 13 Predictores importantes 13 Estadísticas Out-of-Bag Logverosimilitud promedio 0.4004 Área bajo la curva ROC 0.9028 IC de 95% (0.8693, 0.9363) Elevación 2.1079 Tasa de clasificación errónea 0.1848

La tabla Resumen del modelo muestra que la log-verosimilitud negativa promedio cuando el número de árboles es 351 es de aproximadamente 0.23 para los datos de entrenamiento y es de aproximadamente 0.39 para los datos de prueba. Estas estadísticas indican un modelo similar al creado por Minitab Random Forests®. Además, las tasas de clasificaciones erróneas son similares.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Thal. Si la contribución de la variable predictora más importante, Thal, es 100%, entonces la siguiente variable importante, Grandes vasos, tiene una contribución de 97.8%. Esto significa que Vasos principales es 97.8% tan importante como Thal en este modelo de clasificación.

Clasificación de TreeNet®: Enfermedad c vs Edad, Descansar la, Colesterol, ...

Matriz de confusión Clase de predicción Clase de predicción (entrenamiento) (prueba) Clase real Conteo Sí No % Correcto Sí No % Correcto Sí (Evento) 139 124 15 89.21 110 29 79.14 No 164 8 156 95.12 24 140 85.37 Todo 303 132 171 92.41 134 169 82.51 Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que 0.5.
Entrenamiento Estadísticas (%) Tasa de positivos verdaderos (sensibilidad o potencia) 89.21 Tasa de positivos falsos (error tipo I) 4.88 Tasa de negativos falsos (error tipo II) 10.79 Tasa de negativos verdaderos (especificidad) 95.12
Estadísticas Prueba (%) Tasa de positivos verdaderos (sensibilidad o potencia) 79.14 Tasa de positivos falsos (error tipo I) 14.63 Tasa de negativos falsos (error tipo II) 20.86 Tasa de negativos verdaderos (especificidad) 85.37

La matriz de confusión muestra qué tan efectivo es el modelo para separar las clases correctamente. En este ejemplo, la probabilidad de que un evento sea pronosticado correctamente es 79.14%. La probabilidad de que un no evento se pronosticado correctamente es 85.37%.

Clasificación de TreeNet®: Enfermedad c vs Edad, Descansar la, Colesterol, ...

Clasificación errónea Entrenamiento Prueba Clasificado Clasificado Clase real Conteo erróneamente % Error erróneamente % Error Sí (Evento) 139 15 10.79 29 20.86 No 164 8 4.88 24 14.63 Todo 303 23 7.59 53 17.49 Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que 0.5.

La tasa de clasificaciones erróneas ayuda a indicar si el modelo predecirá nuevas observaciones con exactitud. Para la predicción de eventos, el error de clasificaciones erróneas de prueba es 20.86%. Para la predicción de no eventos, el error de clasificaciones erróneas es 14.63% y, en general, el error de clasificaciones erróneas es 17.49%.

El área debajo de la curva ROC, cuando el número de árboles es 351, es aproximadamente 0.98 para los datos de entrenamiento y es aproximadamente 0,91 para los datos de prueba. Esto muestra una buena mejora con respecto al modelo Clasificación CART®. El modelo Clasificación Random Forests® tiene una prueba AUROC de 0.9028, por lo que estos dos métodos proporcionan resultados similares.

En este ejemplo, la gráfica de ganancia muestra un fuerte aumento por encima de la línea de referencia y, luego, un aplanamiento. En este caso, aproximadamente 40% de los datos representan aproximadamente 80% de los verdaderos positivos. Esta diferencia es la ganancia adicional que se obtiene al utilizar el modelo.

En este ejemplo, la gráfica de elevación muestra un gran aumento por encima de la línea de referencia que disminuye gradualmente.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan la respuesta pronosticada. Los valores de respuesta en la escala de 1/2 logaritmo son las predicciones a partir del modelo. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

Por ejemplo, en la gráfica de dependencia parcial del tipo de dolor de pecho, las probabilidades de 1/2 logaritmo varían y luego aumentan de forma drástica. Cuando el tipo de dolor de pecho es 4, las probabilidades de 1/2 logaritmo de la incidencia de enfermedad cardíaca aumentan de aproximadamente −0.04 a 0.03. Haga clic en Seleccionar más predictores para graficar para crear gráficas para otras variables