Ejemplo de Clasificación Random Forests®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores recopila y publica información detallada acerca de los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.

Después de la exploración inicial con Clasificación CART® para identificar los predictores importantes, los investigadores utilizan Clasificación TreeNet® y Clasificación Random Forests® para crear modelos más intensivos a partir del mismo conjunto de datos. Los investigadores comparan la tabla de resumen del modelo y la gráfica ROC de los resultados para evaluar qué modelo proporciona un mejor resultado de predicción. Para los resultados de los otros análisis, vaya a Ejemplo de Clasificación CART® y a Ejemplo de Ajustar modelo con Clasificación TreeNet®.

  1. Abra los datos de muestra, EnfermedadesDelCorazonBinario.MTW.
  2. Elija Módulo de análisis predictivo > Clasificación Random Forests®.
  3. En la lista desplegable, seleccione Respuesta binaria.
  4. En Respuesta, escriba Enfermedad cardíaca.
  5. En Response event, seleccione para indicar que se ha identificado una enfermedad cardíaca en el paciente.
  6. En Predictores continuos, ingrese Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima y Old Peak.
  7. En Predictores categóricos, ingrese Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales y Thal.
  8. Haga clic en Aceptar.

Interpretar los resultados

Para este análisis, el número de observaciones es 303. Cada una de las 300 muestras de bootstrap utiliza las 303 observaciones para crear un árbol. Los datos incluyen una división adecuada de no eventos y eventos.

Método

Validación del modeloValidación con datos de "out-of-bag"
Número de muestras de bootstrap300
    Tamaño de la muestraIgual que el tamaño de los datos de entrenamiento de 303
Número de predictores seleccionados para la división de nodosRaíz cuadrada del número total de predictores = 3
Tamaño mínimo del nodo interno2
Filas utilizadas303

Información de respuesta binaria

VariableClaseConteo%
Enfermedad cardíacaSí (Evento)13945.87
  No16454.13
  Todo303100.00

La gráfica Tasa de clasificaciones erróneas vs. número de árboles muestra toda la curva sobre el número de árboles cultivados. La tasa de clasificaciones erróneas es aproximadamente 0.18.

Resumen del modelo

Total de predictores13
Predictores importantes13
EstadísticasOut-of-Bag
Logverosimilitud promedio0.4004
Área bajo la curva ROC0.9028
        IC de 95%(0.8693, 0.9363)
Elevación2.1079
Tasa de clasificación errónea0.1848

Resumen del modelo

Total de predictores13
Predictores importantes13
Número de árboles cultivados500
Número óptimo de árboles351
EstadísticasEntrenamientoPrueba
Logverosimilitud promedio0.23410.3865
Área bajo la curva ROC0.98250.9089
        IC de 95%(0.9706, 0.9945)(0.8757, 0.9421)
Elevación2.17992.1087
Tasa de clasificación errónea0.07590.1750

La tabla Resumen del modelo muestra que la logverosimilitud negativa promedio es 0.3994. Estas estadísticas indican un modelo similar al que crea Minitab TreeNet® al cultivar 500 árboles. Además, las tasas de clasificaciones erróneas son similares.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Grandes vasos. Si la contribución de la variable predictora más importante, Grandes vasos, es 100%, entonces la siguiente variable importante, Thal, tiene una contribución de 89.7%. Esto significa que Thal es 89.7% tan importante como Grandes vasos en este modelo de clasificación.

Matriz de confusión


Clase de predicción (Out-of-Bag)
Clase realConteoNo% Correcto
Sí (Evento)1391093078.42
No1642613884.15
Todo30313516881.52
EstadísticasOut-of-Bag
(%)
Tasa de positivos verdaderos (sensibilidad o potencia)78.42
Tasa de positivos falsos (error tipo I)15.85
Tasa de negativos falsos (error tipo II)21.58
Tasa de negativos verdaderos (especificidad)84.15

La matriz de confusión muestra qué tan efectivo es el modelo para separar las clases correctamente. En este ejemplo, la probabilidad de que un evento sea pronosticado correctamente es 78.42%. La probabilidad de que un no evento se pronosticado correctamente es 84.15%.

Clasificación errónea


Out-of-Bag

ConteoClasificado
erróneamente
% Error
Clase real

Sí (Evento)1393021.58
No1642615.85
Todo3035618.48

La tasa de clasificaciones erróneas ayuda a indicar si el modelo predecirá nuevas observaciones con exactitud. Para la predicción de eventos, el error de clasificaciones erróneas es 21.58%. Para la predicción de no eventos, el error de clasificaciones erróneas es 15.85% y, en general, el error de clasificaciones erróneas es 18.48%.

El área bajo la curva ROC para estos datos es aproximadamente 0.9028, lo que indica una ligera mejora con respecto al modelo Clasificación CART®. El modelo Clasificación TreeNet® tiene una prueba AUROC de 0.9089, por lo que estos dos métodos proporcionan resultados similares.

En este ejemplo, la gráfica de ganancia muestra un fuerte aumento por encima de la línea de referencia y, luego, un aplanamiento. En este caso, aproximadamente 40% de los datos representan aproximadamente 78% de los verdaderos positivos. Esta diferencia es la ganancia adicional que se obtiene al utilizar el modelo.

En este ejemplo, la gráfica de elevación muestra un gran aumento por encima de la línea de referencia que disminuye gradualmente.