Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.
Un equipo de investigadores recopila y publica información detallada sobre los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.
Después de la exploración inicial para Clasificación CART® identificar los predictores importantes, los investigadores utilizan ambos Clasificación TreeNet® y Clasificación Random Forests® crean modelos más intensivos a partir del mismo conjunto de datos. Los investigadores comparan la tabla de resumen del modelo y la gráfica ROC de los resultados para evaluar qué modelo proporciona un mejor resultado de predicción. Para los resultados de los otros análisis, vaya a Ejemplo de Clasificación CART® y a Ejemplo de Clasificación Random Forests®.
Para este análisis, Minitab cultiva 300 árboles y el número óptimo de árboles es 298. Debido a que el número óptimo de árboles está cerca del número máximo de árboles que crece el modelo, los investigadores repiten el análisis con más árboles.
Total de predictores | 13 |
---|---|
Predictores importantes | 13 |
Número de árboles cultivados | 300 |
Número óptimo de árboles | 298 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
Logverosimilitud promedio | 0.2556 | 0.3881 |
Área bajo la curva ROC | 0.9796 | 0.9089 |
IC de 95% | (0.9664, 0.9929) | (0.8759, 0.9419) |
Elevación | 2.1799 | 2.1087 |
Tasa de clasificación errónea | 0.0891 | 0.1617 |
Para este análisis, hubo 500 árboles cultivados y el número óptimo de árboles es 351. El mejor modelo utiliza una tasa de aprendizaje de 0,01, utiliza una fracción de submuestra de 0,5 y utiliza 6 como número máximo de nodos terminales.
Criterio para seleccionar un número óptimo de árboles | Máxima logverosimilitud |
---|---|
Validación del modelo | Validación cruzada de 5 pliegues |
Tasa de aprendizaje | 0.01 |
Método de selección de submuestras | Completamente aleatorio |
Fracción de submuestra | 0.5 |
Máximo de nodos terminales por árbol | 6 |
Tamaño mínimo del nodo terminal | 3 |
Número de predictores seleccionados para la división de nodos | Número total de predictores = 13 |
Filas utilizadas | 303 |
Variable | Clase | Conteo | % |
---|---|---|---|
Enfermedad cardíaca | Sí (Evento) | 139 | 45.87 |
No | 164 | 54.13 | |
Todo | 303 | 100.00 |
Criterio para seleccionar un número óptimo de árboles | Máxima logverosimilitud |
---|---|
Validación del modelo | Validación cruzada de 5 pliegues |
Tasa de aprendizaje | 0.001, 0.01, 0.1 |
Fracción de submuestra | 0.5, 0.7 |
Máximo de nodos terminales por árbol | 6 |
Tamaño mínimo del nodo terminal | 3 |
Número de predictores seleccionados para la división de nodos | Número total de predictores = 13 |
Filas utilizadas | 303 |
Variable | Clase | Conteo | % |
---|---|---|---|
Enfermedad cardíaca | Sí (Evento) | 139 | 45.87 |
No | 164 | 54.13 | |
Todo | 303 | 100.00 |
Modelo | Número óptimo de árboles | Log-verosimilitud promedio | Área bajo la curva ROC | Tasa de clasificación errónea | Tasa de aprendizaje | Fracción de submuestra |
---|---|---|---|---|---|---|
1 | 500 | 0.542902 | 0.902956 | 0.171749 | 0.001 | 0.5 |
2* | 351 | 0.386536 | 0.908920 | 0.175027 | 0.010 | 0.5 |
3 | 33 | 0.396555 | 0.900782 | 0.161694 | 0.100 | 0.5 |
4 | 500 | 0.543292 | 0.894178 | 0.178142 | 0.001 | 0.7 |
5 | 374 | 0.389607 | 0.906620 | 0.165082 | 0.010 | 0.7 |
6 | 39 | 0.393382 | 0.901399 | 0.174973 | 0.100 | 0.7 |
Modelo | Máximo de nodos terminales |
---|---|
1 | 6 |
2* | 6 |
3 | 6 |
4 | 6 |
5 | 6 |
6 | 6 |
Total de predictores | 13 |
---|---|
Predictores importantes | 13 |
Número de árboles cultivados | 500 |
Número óptimo de árboles | 351 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
Logverosimilitud promedio | 0.2341 | 0.3865 |
Área bajo la curva ROC | 0.9825 | 0.9089 |
IC de 95% | (0.9706, 0.9945) | (0.8757, 0.9421) |
Elevación | 2.1799 | 2.1087 |
Tasa de clasificación errónea | 0.0759 | 0.1750 |
Total de predictores | 13 |
---|---|
Predictores importantes | 13 |
Estadísticas | Out-of-Bag |
---|---|
Logverosimilitud promedio | 0.4004 |
Área bajo la curva ROC | 0.9028 |
IC de 95% | (0.8693, 0.9363) |
Elevación | 2.1079 |
Tasa de clasificación errónea | 0.1848 |
La tabla de resumen del modelo muestra que la probabilidad logarítmica negativa media cuando el número de árboles es 351 es de aproximadamente 0,23 para los datos de entrenamiento y de aproximadamente 0,39 para los datos de prueba. Estas estadísticas indican un modelo similar al que crea Minitab Random Forests®. Además, las tasas de clasificaciones erróneas son similares.
Clase de predicción (entrenamiento) | Clase de predicción (prueba) | ||||||
---|---|---|---|---|---|---|---|
Clase real | Conteo | Sí | No | % Correcto | Sí | No | % Correcto |
Sí (Evento) | 139 | 124 | 15 | 89.21 | 110 | 29 | 79.14 |
No | 164 | 8 | 156 | 95.12 | 24 | 140 | 85.37 |
Todo | 303 | 132 | 171 | 92.41 | 134 | 169 | 82.51 |
Estadísticas | Entrenamiento (%) | Prueba (%) |
---|---|---|
Tasa de positivos verdaderos (sensibilidad o potencia) | 89.21 | 79.14 |
Tasa de positivos falsos (error tipo I) | 4.88 | 14.63 |
Tasa de negativos falsos (error tipo II) | 10.79 | 20.86 |
Tasa de negativos verdaderos (especificidad) | 95.12 | 85.37 |
La matriz de confusión muestra qué tan efectivo es el modelo para separar las clases correctamente. En este ejemplo, la probabilidad de que un evento sea pronosticado correctamente es 79.14%. La probabilidad de que un no evento se pronosticado correctamente es 85.37%.
Entrenamiento | Prueba | ||||
---|---|---|---|---|---|
Clasificado erróneamente | % Error | Clasificado erróneamente | % Error | ||
Clase real | Conteo | ||||
Sí (Evento) | 139 | 15 | 10.79 | 29 | 20.86 |
No | 164 | 8 | 4.88 | 24 | 14.63 |
Todo | 303 | 23 | 7.59 | 53 | 17.49 |
La tasa de clasificaciones erróneas ayuda a indicar si el modelo predecirá nuevas observaciones con exactitud. Para la predicción de eventos, el error de clasificaciones erróneas de prueba es 20.86%. Para la predicción de no eventos, el error de clasificaciones erróneas es 14.63% y, en general, el error de clasificaciones erróneas es 17.49%.