Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.
Un equipo de investigadores recopila y publica información detallada acerca de los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.
Después de la exploración inicial con Clasificación CART® para identificar los predictores importantes, los investigadores utilizan Clasificación TreeNet® y Clasificación Random Forests® para crear modelos más intensivos a partir del mismo conjunto de datos. Los investigadores comparan la tabla de resumen del modelo y la gráfica ROC de los resultados para evaluar qué modelo proporciona un mejor resultado de predicción. Para los resultados de los otros análisis, vaya a Ejemplo de Clasificación CART® y a Ejemplo de Ajustar modelo con Clasificación TreeNet®.
Para este análisis, el número de observaciones es 303. Cada una de las 300 muestras de bootstrap utiliza las 303 observaciones para crear un árbol. Los datos incluyen una división adecuada de no eventos y eventos.
Validación del modelo | Validación con datos de "out-of-bag" |
---|---|
Número de muestras de bootstrap | 300 |
Tamaño de la muestra | Igual que el tamaño de los datos de entrenamiento de 303 |
Número de predictores seleccionados para la división de nodos | Raíz cuadrada del número total de predictores = 3 |
Tamaño mínimo del nodo interno | 2 |
Filas utilizadas | 303 |
Variable | Clase | Conteo | % |
---|---|---|---|
Enfermedad cardíaca | Sí (Evento) | 139 | 45.87 |
No | 164 | 54.13 | |
Todo | 303 | 100.00 |
Total de predictores | 13 |
---|---|
Predictores importantes | 13 |
Estadísticas | Out-of-Bag |
---|---|
Logverosimilitud promedio | 0.4004 |
Área bajo la curva ROC | 0.9028 |
IC de 95% | (0.8693, 0.9363) |
Elevación | 2.1079 |
Tasa de clasificación errónea | 0.1848 |
Total de predictores | 13 |
---|---|
Predictores importantes | 13 |
Número de árboles cultivados | 500 |
Número óptimo de árboles | 351 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
Logverosimilitud promedio | 0.2341 | 0.3865 |
Área bajo la curva ROC | 0.9825 | 0.9089 |
IC de 95% | (0.9706, 0.9945) | (0.8757, 0.9421) |
Elevación | 2.1799 | 2.1087 |
Tasa de clasificación errónea | 0.0759 | 0.1750 |
La tabla Resumen del modelo muestra que la logverosimilitud negativa promedio es 0.3994. Estas estadísticas indican un modelo similar al que crea Minitab TreeNet® al cultivar 500 árboles. Además, las tasas de clasificaciones erróneas son similares.
Clase de predicción (Out-of-Bag) | ||||
---|---|---|---|---|
Clase real | Conteo | Sí | No | % Correcto |
Sí (Evento) | 139 | 109 | 30 | 78.42 |
No | 164 | 26 | 138 | 84.15 |
Todo | 303 | 135 | 168 | 81.52 |
Estadísticas | Out-of-Bag (%) |
---|---|
Tasa de positivos verdaderos (sensibilidad o potencia) | 78.42 |
Tasa de positivos falsos (error tipo I) | 15.85 |
Tasa de negativos falsos (error tipo II) | 21.58 |
Tasa de negativos verdaderos (especificidad) | 84.15 |
La matriz de confusión muestra qué tan efectivo es el modelo para separar las clases correctamente. En este ejemplo, la probabilidad de que un evento sea pronosticado correctamente es 78.42%. La probabilidad de que un no evento se pronosticado correctamente es 84.15%.
Out-of-Bag | |||
---|---|---|---|
Conteo | Clasificado erróneamente | % Error | |
Clase real | |||
Sí (Evento) | 139 | 30 | 21.58 |
No | 164 | 26 | 15.85 |
Todo | 303 | 56 | 18.48 |
La tasa de clasificaciones erróneas ayuda a indicar si el modelo predecirá nuevas observaciones con exactitud. Para la predicción de eventos, el error de clasificaciones erróneas es 21.58%. Para la predicción de no eventos, el error de clasificaciones erróneas es 15.85% y, en general, el error de clasificaciones erróneas es 18.48%.