Ejemplo de Descubrir el mejor modelo (Respuesta continua)

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Búsqueda del mejor tipo de modelo

Los investigadores de un sistema de salud recopilan datos de sus clínicas médicas regionales. En particular, el equipo de investigación está interesado en los datos de los exámenes iniciales realizados a los pacientes enfermos por los médicos. Al final de los exámenes iniciales, los médicos asignan una puntuación a cada paciente según la gravedad de su enfermedad. Los investigadores quieren desarrollar un breve cuestionario para ayudar a priorizar a los pacientes más enfermos antes de que el médico realice el examen. A través de consultas con expertos en la materia y la exploración inicial de los datos, el equipo selecciona 8 variables para predecir la puntuación de gravedad. Los investigadores quieren determinar el mejor tipo de modelo para predecir la puntuación de gravedad antes de refinar aún más el modelo.

Los investigadores utilizan Descubrir el mejor modelo (Respuesta continua) para comparar el rendimiento predictivo de 5 tipos de modelos: regresión múltiple, TreeNet®, Random Forests® CART® y MARS®. El equipo planea explorar más a fondo el tipo de modelo con el mejor rendimiento predictivo.

Utilice los siguientes vínculos para ver un ejemplo de cada tipo de modelo para un conjunto de datos diferente:
  1. Abra los datos de muestra, Enfermedad.mtw.
  2. Elija Módulo de análisis predictivo > Regresión Random Forests® > Descubrir el mejor modelo (Respuesta continua).
  3. En Respuesta, ingrese ‘Puntuación de la enfermedad’.
  4. En Predictores continuos, ingrese ‘Número de síntomas ahora’.
  5. En Predictores categóricos, escriba 'Alta producción de flema'-'Límites a las actividades normales’.
  6. Haga clic en Aceptar.

Interpretar los resultados

La tabla Selección de modelo compara el rendimiento de los tipos de modelos. El modelo de regresión múltiple tiene el valor máximo de R2. Los siguientes resultados son para el mejor modelo de regresión múltiple.

Para determinar si la asociación entre la respuesta y cada término en el modelo es estadísticamente significativa, compare el valor p del término con su nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que no hay asociación entre el término y la respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real. En estos resultados, dos de los términos de interacción tienen valores p que son superiores a 0.05: Dificultad para respirar severa*Dolor de cabeza intenso y Dolor de cabeza intenso*Trastornos graves del sueño. Cuando los investigadores exploren otros modelos de regresión múltiple, utilizarán métricas de rendimiento del modelo y gráficas residuales para explorar los efectos de incluir estos términos en el modelo.

La tabla de resumen del modelo muestra que tanto la R2 de entrenamiento como la R2 de prueba son de aproximadamente 91%. La raíz del error cuadrático medio (RMSE) de prueba, que representa hasta qué punto los valores de datos difieren de los valores ajustados, es aproximadamente 4. Debido a que el valor de RMSE es pequeño en la escala de la puntuación de la enfermedad, los investigadores consideran con optimismo que se obtendrá suficiente información para ayudar a priorizar a los pacientes con un pequeño número de preguntas.

La tabla de ajustes y diagnósticos para información poco común muestra puntos de datos que no siguen bien la ecuación de regresión propuesta. Estos son los ajustes y diagnósticos del conjunto completo de datos.

La letra R indica un punto con un residuo grande. Examine los puntos de datos poco comunes para ver los valores predictores donde el modelo podría no ajustarse bien. La letra X indica un punto con alto apalancamiento. Los puntos con alto apalancamiento tienen combinaciones de predictores poco comunes en relación con el resto del conjunto de datos.

Los puntos con grandes residuos y alto apalancamiento son puntos de influencia potenciales. Por ejemplo, la inclusión o exclusión de un punto de inflexión puede determinar si un coeficiente es estadísticamente significativo o no. Si nota una observación de influencia, determine si la observación es un error en la entrada de datos o un error de medición. Si la observación no es un error, determine cuánto influye la observación en los resultados. Cuando los investigadores exploren más a fondo el modelo, ajustarán el modelo con y sin las observaciones. Luego, compararán los coeficientes, los valores p, R2 y otra información del modelo. Si el modelo cambia significativamente al eliminar la observación de influencia, examine el modelo más a fondo para determinar si el modelo se especificó de forma incorrecta. Es posible que deba recopilar más datos para resolver el problema.

La gráfica de dispersión de las puntuaciones ajustadas de la enfermedad en comparación con las puntuaciones reales de la enfermedad muestra que la relación entre los valores ajustados y los valores reales tanto para los datos de entrenamiento como para los datos de prueba. Aproximadamente, los puntos caen cerca de la línea de referencia de y=x, lo que indica que el modelo se ajusta bien a los datos.

Método

Ajustar un modelo de regresión con términos lineales y términos de orden 2.
Ajustar 6 modelo(s) de Regresión TreeNet® utilizando la función de pérdida cuadrática.
Ajustar 3 modelo(s) de Regresión Random Forests® con el tamaño de la muestra de bootstrap igual al tamaño de los datos de entrenamiento de 1546.
Ajustar un modelo óptimo de regresión CART®.
Ajustar un modelo óptimo de regresión MARS®.
Seleccione el modelo con el máximo R-cuadrado de la valoración cruzada de 5 pliegues.
Número total de filas: 1546
Filas utilizadas para el modelo de regresión: 1546
Filas utilizadas para los modelos basados en árboles: 1546

Información de respuesta

MediaDesv.Est.MínimoQ1MedianaQ3Máximo
31.011014.0820019.0530.9540.4876.19
Mejor modelo dentro
del tipo
R-cuadrado
(%)
Desviación
absoluta
media
Regresión múltiple*91.233.1011
MARS®91.053.1604
TreeNet®90.903.1613
Random Forests®89.933.3248
CART®86.113.9369
* El mejor modelo entre todos los tipos de modelo con el R-cuadrado máximo. La siguiente es
     la salida correspondiente al mejor modelo.

Selección hacia adelante de términos con validación para el mejor modelo de regresión múltiple

Términos seleccionados: Número de síntomas ahora, Alta producción de flema, Dificultad para
     respirar severa, Dolor de cabeza intenso, Trastornos graves del sueño, Generalmente me siento
     muy mal, Límites a las actividades norma, Número de síntomas ahora*Dificultad para respirar
     severa, Número de síntomas ahora*Dolor severo en el pecho, Dificultad para respirar
     severa*Trastornos graves del sueño, Generalmente me siento muy mal*Límites a las actividades
     norma
 

Ecuación de regresión

Puntuación de la enfermedad=1.241 + 2.5386 Número de síntomas ahora
+ 0.0 Alta producción de flema_0
+ 3.900 Alta producción de flema_1
+ 0.0 Dificultad para respirar severa_0
+ 0.94 Dificultad para respirar severa_1
+ 0.0 Dolor de cabeza intenso_0
+ 4.094 Dolor de cabeza intenso_1
+ 0.0 Trastornos graves del sueño_0
+ 3.884 Trastornos graves del sueño_1
+ 0.0 Generalmente me siento muy mal_0
+ 3.473 Generalmente me siento muy mal_1
+ 0.0 Límites a las actividades norma_0
+ 3.140 Límites a las actividades norma_1
+ 0.0 Número de síntomas ahora*Dificultad para respirar severa_
0
+ 0.373 Número de síntomas ahora*Dificultad para respirar sever
a_1 + 0.0 Número de síntomas ahora*Dolor severo en el pecho_0
+ 0.4765 Número de síntomas ahora*Dolor severo en el pecho_1
+ 0.0 Dificultad para respirar severa*Trastornos graves del sue
ño_0 0
+ 0.0 Dificultad para respirar severa*Trastornos graves del sue
ño_0 1
+ 0.0 Dificultad para respirar severa*Trastornos graves del sue
ño_1 0
+ 1.337 Dificultad para respirar severa*Trastornos graves del s
ueño_1 1
+ 0.0 Generalmente me siento muy mal*Límites a las actividades
norma_0 0
+ 0.0 Generalmente me siento muy mal*Límites a las actividades
norma_0 1
+ 0.0 Generalmente me siento muy mal*Límites a las actividades
norma_1 0
+ 1.372 Generalmente me siento muy mal*Límites a las actividade
s norma_1 1

Coeficientes

TérminoCoefEE del coef.Valor T
Constante1.2410.3853.22
Número de síntomas ahora2.53860.059342.81
Alta producción de flema     
  13.9000.22517.35
Dificultad para respirar severa     
  10.941.180.80
Dolor de cabeza intenso     
  14.0940.25316.18
Trastornos graves del sueño     
  13.8840.28413.69
Generalmente me siento muy mal     
  13.4730.34310.14
Límites a las actividades norma     
  13.1400.4247.40
Número de síntomas ahora*Dificultad para respirar severa     
  10.3730.1332.81
Número de síntomas ahora*Dolor severo en el pecho     
  10.47650.031215.26
Dificultad para respirar severa*Trastornos graves del sueño     
  1 11.3370.5282.53
Generalmente me siento muy mal*Límites a las actividades norma     
  1 11.3720.5272.61
TérminoValor pFIV
Constante0.001 
Número de síntomas ahora0.0001.95
Alta producción de flema   
  10.0001.10
Dificultad para respirar severa   
  10.42423.23
Dolor de cabeza intenso   
  10.0001.25
Trastornos graves del sueño   
  10.0001.73
Generalmente me siento muy mal   
  10.0002.62
Límites a las actividades norma   
  10.0003.98
Número de síntomas ahora*Dificultad para respirar severa   
  10.00526.80
Número de síntomas ahora*Dolor severo en el pecho   
  10.0001.25
Dificultad para respirar severa*Trastornos graves del sueño   
  1 10.0113.26
Generalmente me siento muy mal*Límites a las actividades norma   
  1 10.0095.73

Resumen del modelo

EstadísticasEntrenamientoPrueba
R-cuadrado91.35%91.23%
Raíz de los cuadrados medios del error (RMSE)4.15624.1679
Cuadrado medio del error (MSE)17.274117.3714
Desviación absoluta media (MAD)3.07983.1011
     
R-cuadrado (ajust.)91.29% 
R-cuadrado (pred.)  91.19%

Análisis de Varianza

FuenteGLSC Ajust.MC Ajust.
Regresión1127988125443.7
  Número de síntomas ahora13165531654.8
  Alta producción de flema152025201.8
  Dificultad para respirar severa11111.1
  Dolor de cabeza intenso145204520.0
  Trastornos graves del sueño132393238.8
  Generalmente me siento muy mal117761775.6
  Límites a las actividades norma1945945.4
  Número de síntomas ahora*Dificultad para respirar severa1136136.4
  Número de síntomas ahora*Dolor severo en el pecho140234023.4
  Dificultad para respirar severa*Trastornos graves del sueño1111110.7
  Generalmente me siento muy mal*Límites a las actividades norma1117117.3
Error15342649817.3
  Falta de ajuste484924719.1
  Error puro10501725116.4
Total1545306379 
FuenteValor FValor p
Regresión1472.940.000
  Número de síntomas ahora1832.510.000
  Alta producción de flema301.140.000
  Dificultad para respirar severa0.640.424
  Dolor de cabeza intenso261.660.000
  Trastornos graves del sueño187.500.000
  Generalmente me siento muy mal102.790.000
  Límites a las actividades norma54.730.000
  Número de síntomas ahora*Dificultad para respirar severa7.900.005
  Número de síntomas ahora*Dolor severo en el pecho232.920.000
  Dificultad para respirar severa*Trastornos graves del sueño6.410.011
  Generalmente me siento muy mal*Límites a las actividades norma6.790.009
Error   
  Falta de ajuste1.160.025
  Error puro   
Total   

Ajustes y diagnósticos para observaciones poco comunes

ObsPuntuación
de la
enfermedad
AjusteResidResid est.
1166.67056.7579.9132.40R 
1352.38041.17711.2032.71R 
1659.52048.60410.9162.64R 
3350.00060.657-10.657-2.57R 
4864.29055.4168.8742.14R 
5261.90053.3698.5312.06R 
5450.00041.5988.4022.03R 
5650.00058.328-8.328-2.02R 
5838.10046.485-8.385-2.03R 
10659.52049.02810.4922.53R 
11459.52047.16012.3602.99R 
12869.05058.32810.7222.59R 
14450.00040.4719.5292.30R 
17347.62056.757-9.137-2.21R 
17442.86034.0008.8602.14R 
19142.86052.051-9.191-2.23R 
19859.52048.41111.1092.68R 
20273.81064.0469.7642.36R 
20547.62037.55910.0612.43R 
21335.71034.9700.7400.18  X
21716.67019.053-2.383-0.58  X
23947.62058.328-10.708-2.59R 
24171.43066.3115.1191.25  X
24314.29024.088-9.798-2.36R 
30450.00041.1308.8702.14R 
30714.29010.9203.3700.83  X
35264.29051.25413.0363.15R 
36938.10049.275-11.175-2.70R 
39116.67032.073-15.403-3.72R 
3920.00011.395-11.395-2.75R 
3950.00013.934-13.934-3.36R 
42440.48052.504-12.024-2.90R 
42547.62034.59713.0233.16R 
47447.62038.5389.0822.21R 
47940.48030.8969.5842.31R 
48916.67025.023-8.353-2.02R 
49130.95024.3486.6021.61  X
49357.14044.33912.8013.09R 
49535.71025.48010.2302.47R 
50938.10026.69611.4042.77R 
52073.81058.32815.4823.75R 
53738.10028.3589.7422.35R 
55014.29024.458-10.168-2.45R 
58342.86053.369-10.509-2.54R 
69419.05021.817-2.767-0.68  X
72059.52065.602-6.082-1.49  X
72240.48032.0668.4142.03R 
80230.95042.586-11.636-2.81R 
80530.95039.868-8.918-2.16R 
81440.48032.0738.4072.03R 
82361.90048.14813.7523.33R 
83333.33044.054-10.724-2.60R 
85938.10049.275-11.175-2.70R 
86847.62037.7899.8312.38R 
89130.95019.94511.0052.66R 
89328.57048.860-20.290-4.92R 
90545.24055.416-10.176-2.46R 
92454.76056.019-1.259-0.31  X
97764.29053.10711.1832.72R 
98357.14047.6839.4572.29R 
98850.00044.5015.4991.34  X
99373.81064.0469.7642.36R 
99733.33024.4588.8722.14R 
100354.76045.1289.6322.33R 
102533.33047.705-14.375-3.49R 
105957.14048.6638.4772.05R 
110547.62037.31910.3012.49R 
115059.52044.33915.1813.67R 
116052.38040.05112.3292.97R 
116330.95041.598-10.648-2.57R 
116569.05056.75712.2932.97R 
116959.52049.27510.2452.48R 
119842.86051.516-8.656-2.09R 
120776.19063.53412.6563.07R 
121326.19040.278-14.088-3.41R 
122840.48050.571-10.091-2.45R 
123559.52050.1759.3452.26R 
123757.14048.2398.9012.15R 
124664.29055.4168.8742.14R 
126245.24035.9579.2832.24R 
126357.14043.95113.1893.18R 
128233.33036.011-2.681-0.65  X
128445.24056.564-11.324-2.74R 
128547.62060.657-13.037-3.15R 
130326.19036.567-10.377-2.51R 
130535.71045.499-9.789-2.36R 
131130.95040.089-9.139-2.21R 
134526.19025.1051.0850.26  X
135342.86053.175-10.315-2.49R 
136526.19017.8348.3562.01R 
137747.62035.22212.3983.00R 
138069.05055.41613.6343.29R 
138450.00038.49611.5042.78R 
141426.19035.345-9.155-2.21R 
150261.90050.19511.7052.84R 
152638.10025.45012.6503.05R 
153514.29024.088-9.798-2.36R 
154438.10029.1658.9352.16R 
154850.00040.4559.5452.31R 
156538.10042.846-4.746-1.16  X
158266.67055.43711.2332.72R 
Residuo grande R
X  poco común X

Selección de un modelo alternativo

Los investigadores deciden examinar los resultados para encontrar el mejor modelo TreeNet®.

  1. En los resultados de Descubrir el mejor modelo (Respuesta continua), seleccione Seleccionar modelo alternativo.
  2. En Tipo de modelo, seleccione TreeNet®.
  3. En Seleccionar un modelo existente, elija el sexto modelo, que tiene el mejor valor de R2.
  4. Haga clic en Mostrar resultados.

Interpretar los resultados

Para este análisis, se generan 300 árboles y el número óptimo de árboles es 63. El modelo utiliza una tasa de aprendizaje de 0.1 y una fracción de submuestra de 0.7. El número máximo de nodos terminales es 6.

Método

Función de pérdidaError cuadrático
Criterio para seleccionar un número óptimo de árbolesR-cuadrado máximo
Validación del modeloValidación cruzada de 5 pliegues
Tasa de aprendizaje0.1
Fracción de submuestra0.7
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 8
Filas utilizadas1546
Filas no utilizadas70

Información de respuesta

MediaDesv.Est.MínimoQ1MedianaQ3Máximo
31.011014.0820019.0530.9540.4876.19

La gráfica de R-cuadrada vs. número de árboles muestra la curva completa del número de árboles creados. El valor óptimo para los datos de prueba es de aproximadamente 91% cuando el número de árboles es 63.

Resumen del modelo

Total de predictores8
Predictores importantes8
Número de árboles cultivados300
Número óptimo de árboles63
EstadísticasEntrenamientoPrueba
R-cuadrado91.93%90.90%
Raíz de los cuadrados medios del error (RMSE)3.99924.2471
Cuadrado medio del error (MSE)15.993218.0375
Desviación absoluta media (MAD)2.99433.1613
Media del error porcentual absoluto (MAPE)0.10880.1130

La tabla de resumen del modelo muestra que el valor de R2 cuando el número de árboles es 63 es de aproximadamente 92% para los datos de entrenamiento y de aproximadamente 91% para los datos de prueba.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Número de síntomas ahora. Si la contribución de la variable predictora superior, Número de síntomas ahora, es del 100%, entonces la siguiente variable importante, Límites a las actividades normales, tiene una contribución del 44.4%. Esto significa que Límites a las actividades normales es un 44.4% tan importante como Número de síntomas ahora en este modelo de regresión.

La gráfica de dispersión de las puntuaciones ajustadas de la enfermedad en comparación con las puntuaciones reales de la enfermedad muestra que la relación entre los valores ajustados y los valores reales tanto para los datos de entrenamiento como para los datos de prueba. Aproximadamente, los puntos caen cerca de la línea de referencia de y=x, lo que indica que el modelo se ajusta bien a los datos.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan los valores de respuesta ajustados. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

La primera gráfica ilustra la relación entre las puntuaciones de la enfermedad y el número de síntomas que el paciente ahora tiene. Puede pasar el cursor sobre puntos de datos individuales para ver los valores específicos de X y Y. Por ejemplo, el punto más alto en el lado derecho de la gráfica corresponde al paciente con 13 síntomas y la puntuación ajustada de la enfermedad es aproximadamente 45.

La segunda gráfica ilustra que la puntuación ajustada de la enfermedad aumenta aproximadamente 5 puntos cuando los pacientes informan acerca limitaciones en sus actividades normales.

La tercera gráfica ilustra que la puntuación de la enfermedad ajustada aumenta aproximadamente 5 puntos cuando los pacientes informan que generalmente se sienten muy mal.

La cuarta gráfica ilustra que la puntuación ajustada de la enfermedad aumenta aproximadamente 4 puntos cuando los pacientes notifican dificultad respiratoria grave.

La última gráfica ilustra cómo la puntuación ajustada de la enfermedad para una serie de síntomas depende de si el paciente también tiene límites en sus actividades normales. Para el mismo número de síntomas, los pacientes que también informan acerca de límites en sus actividades normales tienen puntuaciones ajustadas de la enfermedad más altas.