Ejemplo de Descubrir el mejor modelo (Respuesta binaria)

Nota

Este comando está disponible con el módulo Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Búsqueda del mejor tipo de modelo

Un equipo de investigadores recopila y publica información detallada sobre los factores que afectan las enfermedades cardíacas. Las variables incluyen edad, sexo, niveles de colesterol, frecuencia cardíaca máxima, y más. Este ejemplo se basa en un conjunto de datos públicos que proporciona información detallada sobre las enfermedades cardíacas. Los datos originales son de archive.ics.uci.edu.

Los investigadores quieren encontrar un modelo que realice las predicciones más precisas posibles. Los investigadores utilizan el modelo Descubrir el mejor modelo (Respuesta binaria) para comparar el rendimiento predictivo de 4 tipos de modelos: regresión logística binaria, TreeNet®, Random Forests® y CART®. Los investigadores planean explorar más a fondo el tipo de modelo con el mejor rendimiento predictivo.

Utilice los siguientes vínculos para ver un ejemplo de cada tipo de modelo para un conjunto de datos diferente:
  1. Abra los datos de muestra, CorazonDiseaseBinarioMejorModelo.MTW.
  2. Elija Módulo de análisis predictivo > Regresión Random Forests® > Descubrir el mejor modelo (Respuesta binaria).
  3. En Respuesta, ingrese'Enfermedad cardíaca'.
  4. En Predictores continuos, ingrese Edad, 'Descansar la presión arterial', Colesterol, 'Frecuencia cardíaca máxima' y ' Old Peak'.
  5. En Predictores categóricos, ingrese Sexo, ' Tipo de dolor torácico', 'Azúcar en la sangre en ayunas', 'Rest ECG', 'Ejercicio Angina', Pendiente, 'Buques principales' y Thal.
  6. Haga clic en Aceptar.

Interpretar los resultados

La tabla Selección de modelos compara el rendimiento de los diferentes tipos de modelos. El modelo Random Forests® tiene el valor mínimo de log-verosimilitud promedio. Los siguientes resultados son para el mejor modelo de Random Forests®.

La gráfica Tasa de clasificaciones erróneas vs. número de árboles muestra toda la curva sobre el número de árboles cultivados. La tasa de clasificaciones erróneas es aproximadamente 0.16.

La tabla Resumen del modelo muestra que la log-verosimilitud negativa promedio aproximada es 0.39.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Thal. Si la contribución de la variable predictora más importante, Thal, es 100%, entonces la siguiente variable importante, Grandes vasos, tiene una contribución de 98.9%. Esto significa que Grandes vasos es 98.9% tan importante como Thal en este modelo de clasificación.

La matriz de confusión muestra qué tan efectivo es el modelo para separar las clases correctamente. En este ejemplo, la probabilidad de que un evento sea pronosticado correctamente es 87%. La probabilidad de que un no evento sea pronosticado correctamente es 81%.

La tasa de clasificación errónea ayuda a indicar si el modelo pronosticará con exactitud nuevas observaciones. Para la predicción de eventos, el error por clasificación errónea out-of-bag es aproximadamente 13%. Para la predicción de no eventos, el error de clasificación errónea es aproximadamente 19%. En general, el error de clasificación errónea para los datos de prueba es aproximadamente 16%.

El área bajo la curva ROC para el modelo Random Forests® es aproximadamente 0.90 para los datos out-of-bag.

Descubrir el mejor modelo (respuesta binaria): Enfermedad cardíaca vs Edad, Descansar la presión arterial, Colesterol, Frecuencia cardíaca máxima, Old Peak, Sexo, Tipo de dolor torácico, Azúcar en la sangre en ayunas, Rest ECG, Ejercicio Angina, Pendiente, Buques principales, Thal

Método

Ajustar un modelo de regresión logística escalonada con términos lineales y términos de orden 2.
Ajustar 6 modelo(s) de Clasificación TreeNet®.
Ajustar 3 modelo(s) de Clasificación Random Forests® con el tamaño de la muestra de bootstrap igual al tamaño de los datos de entrenamiento de 303.
Ajustar un modelo óptimo de clasificación CART®.
Seleccione el modelo con la máxima logverosimilitud de la valoración cruzada de 5 pliegues.
Número total de filas: 303
Filas utilizadas para el modelo de regresión logística: 303
Filas utilizadas para los modelos basados en árboles: 303

Información de respuesta binaria

VariableClaseConteo%
Enfermedad cardíaca1 (Evento)16554.46
  013845.54
  Todo303100.00
Mejor modelo dentro
del tipo
Log-verosimilitud
promedio
Área bajo
la curva
ROC
Tasa de
clasificación
errónea
Random Forests®*0.39040.90480.1584
TreeNet®0.39070.90320.1520
Regresión logística0.46710.91420.1518
CART®1.80720.79910.2080
* El mejor modelo entre todos los tipos de modelo con la mínima -logverosimilitud promedio.
     La siguiente es la salida correspondiente al mejor modelo.

Hiperparámetros para el mejor modelo Random Forests®

Número de muestras de bootstrap300
    Tamaño de la muestraIgual que el tamaño de los datos de entrenamiento de 303
Número de predictores seleccionados para la división de nodosRaíz cuadrada del número total de predictores = 3
Tamaño mínimo del nodo interno8

Resumen del modelo

Total de predictores13
Predictores importantes13
EstadísticasOut-of-Bag
Logverosimilitud promedio0.3904
Área bajo la curva ROC0.9048
        IC de 95%(0.8706, 0.9389)
Elevación1.7758
Tasa de clasificación errónea0.1584

Matriz de confusión


Clase de predicción (Out-of-Bag)
Clase realConteo10% Correcto
1 (Evento)1651432286.67
01382611281.16
Todo30316913484.16
EstadísticasOut-of-Bag
(%)
Tasa de positivos verdaderos (sensibilidad o potencia)86.67
Tasa de positivos falsos (error tipo I)18.84
Tasa de negativos falsos (error tipo II)13.33
Tasa de negativos verdaderos (especificidad)81.16

Clasificación errónea


Out-of-Bag

ConteoClasificado
erróneamente
% Error
Clase real

1 (Evento)1652213.33
01382618.84
Todo3034815.84

Selección de un modelo alternativo

Los investigadores pueden ver los resultados de otros modelos al buscar el mejor modelo. Para un modelo TreeNet®, puede seleccionar entre un modelo que formó parte de la búsqueda o especificar hiperparámetros para un modelo diferente.

  1. Después de la tabla Selección de modelo, haga clic en Seleccione un modelo alternativo.
  2. En Tipo de modelo, seleccione TreeNet®.
  3. En Seleccionar un modelo existente, elija el tercer modelo, que tiene el mejor valor log-verosimilitud mínima promedio.
  4. Haga clic en Mostrar resultados.

Interpretar los resultados

Para este análisis, se generan 300 árboles y el número óptimo de árboles es 46. El modelo utiliza una tasa de aprendizaje de 0.1 y una fracción de submuestra de 0.5. El número máximo de nodos terminales por árbol es 6.

La gráfica de log-verosimilitud promedio vs número de árboles muestra toda la curva sobre el número de árboles crecidos. El valor óptimo para los datos de prueba es 0.3907 cuando el número de árboles es 46.

Resumen del modelo

Total de predictores13
Predictores importantes13
Número de árboles cultivados300
Número óptimo de árboles46
EstadísticasEntrenamientoPrueba
Logverosimilitud promedio0.20880.3907
Área bajo la curva ROC0.98420.9032
        IC de 95%(0.9721, 0.9964)(0.8683, 0.9381)
Elevación1.83641.7744
Tasa de clasificación errónea0.07260.1520

Cuando el número de árboles es 46, la tabla de Resumen del modelo indica que la log-verosimilitud negativa promedio es aproximadamente 0.21 para los datos de entrenamiento y aproximadamente 0.39 los datos de prueba.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Tipo de dolor de pecho. Si la contribución de la variable predictora más importante, Tipo de dolor de pecho, es 100%, entonces la siguiente variable importante, Thal, tiene una contribución de 95.8%. Esto significa que Thal es 95.8% tan importante como Tipo de dolor de pecho en este modelo de clasificación.

Matriz de confusión



Clase de predicción
(entrenamiento)
Clase de predicción
(prueba)


Clase realConteo10% Correcto10% Correcto
1 (Evento)165156994.551471889.09
01381312590.582811079.71
Todo30316913492.7417512884.82
Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que
     0.5.
     
EstadísticasEntrenamiento
(%)
Prueba (%)
Tasa de positivos verdaderos (sensibilidad o potencia)94.5589.09
Tasa de positivos falsos (error tipo I)9.4220.29
Tasa de negativos falsos (error tipo II)5.4510.91
Tasa de negativos verdaderos (especificidad)90.5879.71

La matriz de confusión muestra qué tan efectivo es el modelo para separar las clases correctamente. En este ejemplo, la probabilidad de que un evento sea pronosticado correctamente es 89%. La probabilidad de que un no evento sea pronosticado correctamente es 80%.

Clasificación errónea



EntrenamientoPrueba


Clasificado
erróneamente
% ErrorClasificado
erróneamente
% Error
Clase realConteo

1 (Evento)16595.451810.91
0138139.422820.29
Todo303227.264615.18
Asigne una fila a la clase de evento si la probabilidad del evento para la fila es mayor que
     0.5.

La tasa de clasificación errónea ayuda a indicar si el modelo pronosticará con exactitud nuevas observaciones. Para la predicción de eventos, el error de clasificación errónea es aproximadamente 11%. Para la predicción de no eventos, el error de clasificación errónea es aproximadamente 20%. En general, el error de clasificación errónea para los datos de prueba es aproximadamente 15%.

El área bajo de la curva ROC, cuando el número de árboles es 46, es aproximadamente 0.98 para los datos de entrenamiento y aproximadamente 0.90 para los datos de prueba.

En este ejemplo, la gráfica de ganancia muestra un fuerte aumento por encima de la línea de referencia y, luego, un aplanamiento. En este caso, aproximadamente 60% de los datos representan aproximadamente 90% de los verdaderos positivos. Esta diferencia es la ganancia adicional que se obtiene al utilizar el modelo.

En este ejemplo, la gráfica de elevación muestra un gran incremento por encima de la línea de referencia que disminuye con mayor rapidez después de alcanzar aproximadamente 50% del recuento total.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan los valores de respuesta ajustados. Los valores de respuesta ajustados están se encuentran en la escala semi-logarítmica. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

Por ejemplo, en la gráfica de dependencia parcial del tipo de dolor de pecho, la probabilidad semi-logarítmica es mayor en el valor de 3. Haga clic en Seleccionar más predictores para graficar para crear gráficas para otras variables