Ejemplo de Descubrir el mejor modelo (Respuesta continua)

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Búsqueda del mejor tipo de modelo

Los investigadores de un sistema de salud recopilan datos de sus clínicas médicas regionales. En particular, el equipo de investigación está interesado en los datos de los exámenes iniciales realizados a los pacientes enfermos por los médicos. Al final de los exámenes iniciales, los médicos asignan una puntuación a cada paciente según la gravedad de su enfermedad. Los investigadores quieren desarrollar un breve cuestionario para ayudar a priorizar a los pacientes más enfermos antes de que el médico realice el examen. A través de consultas con expertos en la materia y la exploración inicial de los datos, el equipo selecciona 8 variables para predecir la puntuación de gravedad. Los investigadores quieren determinar el mejor tipo de modelo para predecir la puntuación de gravedad antes de refinar aún más el modelo.

Los investigadores utilizan Descubrir el mejor modelo (Respuesta continua) para comparar el rendimiento predictivo de 5 tipos de modelos: regresión múltiple, TreeNet®, Random Forests® CART® y MARS®. El equipo planea explorar más a fondo el tipo de modelo con el mejor rendimiento predictivo.

Utilice los siguientes vínculos para ver un ejemplo de cada tipo de modelo para un conjunto de datos diferente:
  1. Abra los datos de muestra, Enfermedad.mtw.
  2. Elija Módulo de análisis predictivo > Regresión Random Forests® > Descubrir el mejor modelo (Respuesta continua).
  3. En Respuesta, ingrese ‘Puntuación de la enfermedad’.
  4. En Predictores continuos, ingrese ‘Número de síntomas ahora’.
  5. En Predictores categóricos, escriba 'Alta producción de flema'-'Límites a las actividades normales’.
  6. Haga clic en Aceptar.

Interpretar los resultados

La tabla Selección de modelo compara el rendimiento de los tipos de modelos. El modelo de regresión múltiple tiene el valor máximo de R2. Los siguientes resultados son para el mejor modelo de regresión múltiple.

Para determinar si la asociación entre la respuesta y cada término en el modelo es estadísticamente significativa, compare el valor p del término con su nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que no hay asociación entre el término y la respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real. En estos resultados, dos de los términos de interacción tienen valores p que son superiores a 0.05: Dificultad para respirar severa*Dolor de cabeza intenso y Dolor de cabeza intenso*Trastornos graves del sueño. Cuando los investigadores exploren otros modelos de regresión múltiple, utilizarán métricas de rendimiento del modelo y gráficas residuales para explorar los efectos de incluir estos términos en el modelo.

La tabla de resumen del modelo muestra que tanto la R2 de entrenamiento como la R2 de prueba son de aproximadamente 91%. La raíz del error cuadrático medio (RMSE) de prueba, que representa hasta qué punto los valores de datos difieren de los valores ajustados, es aproximadamente 4. Debido a que el valor de RMSE es pequeño en la escala de la puntuación de la enfermedad, los investigadores consideran con optimismo que se obtendrá suficiente información para ayudar a priorizar a los pacientes con un pequeño número de preguntas.

La tabla de ajustes y diagnósticos para información poco común muestra puntos de datos que no siguen bien la ecuación de regresión propuesta. Estos son los ajustes y diagnósticos del conjunto completo de datos.

La letra R indica un punto con un residuo grande. Examine los puntos de datos poco comunes para ver los valores predictores donde el modelo podría no ajustarse bien. La letra X indica un punto con alto apalancamiento. Los puntos con alto apalancamiento tienen combinaciones de predictores poco comunes en relación con el resto del conjunto de datos.

Los puntos con grandes residuos y alto apalancamiento son puntos de influencia potenciales. Por ejemplo, la inclusión o exclusión de un punto de inflexión puede determinar si un coeficiente es estadísticamente significativo o no. Si nota una observación de influencia, determine si la observación es un error en la entrada de datos o un error de medición. Si la observación no es un error, determine cuánto influye la observación en los resultados. Cuando los investigadores exploren más a fondo el modelo, ajustarán el modelo con y sin las observaciones. Luego, compararán los coeficientes, los valores p, R2 y otra información del modelo. Si el modelo cambia significativamente al eliminar la observación de influencia, examine el modelo más a fondo para determinar si el modelo se especificó de forma incorrecta. Es posible que deba recopilar más datos para resolver el problema.

La gráfica de dispersión de las puntuaciones ajustadas de la enfermedad en comparación con las puntuaciones reales de la enfermedad muestra que la relación entre los valores ajustados y los valores reales tanto para los datos de entrenamiento como para los datos de prueba. Aproximadamente, los puntos caen cerca de la línea de referencia de y=x, lo que indica que el modelo se ajusta bien a los datos.

Método

Ajustar un modelo de regresión escalonada con términos lineales y términos de orden 2.
Ajustar 6 modelo(s) de Regresión TreeNet® utilizando la función de pérdida cuadrática.
Ajustar 3 modelo(s) de Regresión Random Forests® con el tamaño de la muestra de bootstrap igual al tamaño de los datos de entrenamiento de 1546.
Ajustar un modelo óptimo de regresión CART®.
Ajustar un modelo óptimo de regresión MARS®.
Seleccione el modelo con el máximo R-cuadrado de la valoración cruzada de 5 pliegues.
Número total de filas: 1546
Filas utilizadas para el modelo de regresión: 1546
Filas utilizadas para los modelos basados en árboles: 1546

Información de respuesta

MediaDesv.Est.MínimoQ1MedianaQ3Máximo
31.011014.0820019.0530.9540.4876.19
Mejor modelo dentro
del tipo
R-cuadrado
(%)
Desviación
absoluta
media
Regresión múltiple*91.313.0785
MARS®91.053.1604
TreeNet®90.903.1613
Random Forests®89.933.3248
CART®86.113.9369
* El mejor modelo entre todos los tipos de modelo con el R-cuadrado máximo. La siguiente es
     la salida correspondiente al mejor modelo.

Selección escalonada de términos para el mejor modelo de regresión múltiple

Términos seleccionados: Número de síntomas ahora, Alta producción de flema, Dolor severo en
     el pecho, Dolor de cabeza intenso, Trastornos graves del sueño, Límites a las actividades
     norma, Número de síntomas ahora*Número de síntomas ahora, Número de síntomas ahora*Dificultad
     para respirar severa, Número de síntomas ahora*Generalmente me siento muy mal, Dificultad
     para respirar severa*Dolor de cabeza intenso, Dolor severo en el pecho*Trastornos graves del
     sueño, Dolor de cabeza intenso*Trastornos graves del sueño, Trastornos graves del
     sueño*Límites a las actividades norma
α a entrar = 0.15, α a retirar = 0.15

Ecuación de regresión

Puntuación de la enfermedad=0.344 + 2.985 Número de síntomas ahora
+ 0.0 Alta producción de flema_0
+ 3.874 Alta producción de flema_1
+ 0.0 Dolor severo en el pecho_0
+ 3.247 Dolor severo en el pecho_1
+ 0.0 Dolor de cabeza intenso_0
+ 4.203 Dolor de cabeza intenso_1
+ 0.0 Trastornos graves del sueño_0
+ 3.591 Trastornos graves del sueño_1
+ 0.0 Límites a las actividades norma_0
+ 3.400 Límites a las actividades norma_1
- 0.0419 Número de síntomas ahora*Número de síntomas ahora
+ 0.0 Número de síntomas ahora*Dificultad para respirar severa_
0
+ 0.5118 Número de síntomas ahora*Dificultad para respirar seve
ra_1
+ 0.0 Número de síntomas ahora*Generalmente me siento muy mal_0
+ 0.5164 Número de síntomas ahora*Generalmente me siento muy ma
l_1
+ 0.0 Dificultad para respirar severa*Dolor de cabeza intenso_0
0
+ 0.0 Dificultad para respirar severa*Dolor de cabeza intenso_0
1
+ 0.0 Dificultad para respirar severa*Dolor de cabeza intenso_1
0
+ 1.000 Dificultad para respirar severa*Dolor de cabeza intenso
_1 1
+ 0.0 Dolor severo en el pecho*Trastornos graves del sueño_0 0
+ 0.0 Dolor severo en el pecho*Trastornos graves del sueño_0 1
+ 0.0 Dolor severo en el pecho*Trastornos graves del sueño_1 0
+ 1.741 Dolor severo en el pecho*Trastornos graves del sueño_1
1 + 0.0 Dolor de cabeza intenso*Trastornos graves del sueño_0 0
+ 0.0 Dolor de cabeza intenso*Trastornos graves del sueño_0 1
+ 0.0 Dolor de cabeza intenso*Trastornos graves del sueño_1 0
- 0.881 Dolor de cabeza intenso*Trastornos graves del sueño_1 1
+ 0.0 Trastornos graves del sueño*Límites a las actividades nor
ma_0 0
+ 0.0 Trastornos graves del sueño*Límites a las actividades nor
ma_0 1
+ 0.0 Trastornos graves del sueño*Límites a las actividades nor
ma_1 0
+ 1.146 Trastornos graves del sueño*Límites a las actividades n
orma_1 1

Coeficientes

TérminoCoefEE del coef.Valor T
Constante0.3440.7390.47
Número de síntomas ahora2.9850.21313.99
Alta producción de flema     
  13.8740.22417.32
Dolor severo en el pecho     
  13.2470.4127.89
Dolor de cabeza intenso     
  14.2030.37011.37
Trastornos graves del sueño     
  13.5910.3709.70
Límites a las actividades norma     
  13.4000.3519.68
Número de síntomas ahora*Número de síntomas ahora-0.04190.0145-2.88
Número de síntomas ahora*Dificultad para respirar severa     
  10.51180.039812.87
Número de síntomas ahora*Generalmente me siento muy mal     
  10.51640.033215.56
Dificultad para respirar severa*Dolor de cabeza intenso     
  1 11.0000.5461.83
Dolor severo en el pecho*Trastornos graves del sueño     
  1 11.7410.5573.13
Dolor de cabeza intenso*Trastornos graves del sueño     
  1 1-0.8810.493-1.79
Trastornos graves del sueño*Límites a las actividades norma     
  1 11.1460.4872.35
TérminoValor pFIV
Constante0.641 
Número de síntomas ahora0.00025.48
Alta producción de flema   
  10.0001.10
Dolor severo en el pecho   
  10.0002.47
Dolor de cabeza intenso   
  10.0002.69
Trastornos graves del sueño   
  10.0002.98
Límites a las actividades norma   
  10.0002.76
Número de síntomas ahora*Número de síntomas ahora0.00426.19
Número de síntomas ahora*Dificultad para respirar severa   
  10.0002.42
Número de síntomas ahora*Generalmente me siento muy mal   
  10.0002.12
Dificultad para respirar severa*Dolor de cabeza intenso   
  1 10.0672.68
Dolor severo en el pecho*Trastornos graves del sueño   
  1 10.0022.95
Dolor de cabeza intenso*Trastornos graves del sueño   
  1 10.0743.37
Trastornos graves del sueño*Límites a las actividades norma   
  1 10.0194.21

Resumen del modelo

EstadísticasEntrenamientoPrueba
R-cuadrado91.45%91.31%
Raíz de los cuadrados medios del error (RMSE)4.13394.1509
Cuadrado medio del error (MSE)17.088917.2303
Desviación absoluta media (MAD)3.05023.0785
     
R-cuadrado (ajust.)91.38% 
R-cuadrado (pred.)  91.27%

Análisis de Varianza

FuenteGLSC Ajust.MC Ajust.
Regresión1328019921553.8
  Número de síntomas ahora133463346.0
  Alta producción de flema151285128.2
  Dolor severo en el pecho110631063.4
  Dolor de cabeza intenso122092208.9
  Trastornos graves del sueño116091609.3
  Límites a las actividades norma116021601.8
  Número de síntomas ahora*Número de síntomas ahora1142142.1
  Número de síntomas ahora*Dificultad para respirar severa128312831.4
  Número de síntomas ahora*Generalmente me siento muy mal141404140.1
  Dificultad para respirar severa*Dolor de cabeza intenso15757.4
  Dolor severo en el pecho*Trastornos graves del sueño1167167.2
  Dolor de cabeza intenso*Trastornos graves del sueño15554.6
  Trastornos graves del sueño*Límites a las actividades norma19594.7
Error15322618017.1
  Falta de ajuste482892918.5
  Error puro10501725116.4
Total1545306379 
FuenteValor FValor p
Regresión1261.280.000
  Número de síntomas ahora195.800.000
  Alta producción de flema300.090.000
  Dolor severo en el pecho62.230.000
  Dolor de cabeza intenso129.260.000
  Trastornos graves del sueño94.170.000
  Límites a las actividades norma93.740.000
  Número de síntomas ahora*Número de síntomas ahora8.320.004
  Número de síntomas ahora*Dificultad para respirar severa165.690.000
  Número de síntomas ahora*Generalmente me siento muy mal242.270.000
  Dificultad para respirar severa*Dolor de cabeza intenso3.360.067
  Dolor severo en el pecho*Trastornos graves del sueño9.780.002
  Dolor de cabeza intenso*Trastornos graves del sueño3.190.074
  Trastornos graves del sueño*Límites a las actividades norma5.540.019
Error   
  Falta de ajuste1.130.059
  Error puro   
Total   

Ajustes y diagnósticos para observaciones poco comunes

ObsPuntuación
de la
enfermedad
AjusteResidResid est.
1166.67056.8769.7942.38R 
1352.38040.29512.0852.94R 
1659.52048.75310.7672.62R 
2445.24053.741-8.501-2.07R 
2554.76051.9512.8090.69  X
3350.00060.750-10.750-2.61R 
4864.29055.7618.5292.07R 
5450.00041.2138.7872.14R 
5571.43062.4468.9842.20R 
5650.00058.812-8.812-2.14R 
10659.52049.13210.3882.52R 
11459.52048.17611.3442.76R 
12869.05058.81210.2382.49R 
14450.00041.6788.3222.03R 
17347.62056.876-9.256-2.25R 
19142.86051.882-9.022-2.20R 
19859.52048.30511.2152.73R 
20273.81063.80110.0092.43R 
20547.62038.3769.2442.25R 
22664.29055.7938.4972.08R 
23947.62058.812-11.192-2.72R 
24171.43065.1046.3261.56  X
24314.29023.821-9.531-2.31R 
35264.29051.49812.7923.11R 
36938.10049.420-11.320-2.75R 
39116.67031.869-15.199-3.69R 
3920.00011.616-11.616-2.81R 
3950.00014.224-14.224-3.44R 
42440.48052.627-12.147-2.95R 
42547.62034.96812.6523.08R 
47940.48030.08010.4002.53R 
48916.67025.679-9.009-2.19R 
49357.14044.91712.2232.97R 
49535.71025.64210.0682.45R 
50938.10027.09411.0062.68R 
52073.81058.81214.9983.65R 
53738.10027.12210.9782.67R 
55014.29023.248-8.958-2.17R 
58342.86053.741-10.881-2.65R 
72059.52064.053-4.533-1.12  X
72240.48030.7349.7462.37R 
80230.95041.786-10.836-2.63R 
81440.48031.8698.6112.09R 
82361.90048.14313.7573.36R 
83333.33042.941-9.611-2.34R 
83942.86034.5758.2852.01R 
85938.10049.420-11.320-2.75R 
86847.62036.91010.7102.61R 
89130.95019.84811.1022.69R 
89328.57048.766-20.196-4.98RX
90545.24055.761-10.521-2.56R 
94242.86034.5268.3342.02R 
97764.29054.9559.3352.28R 
98357.14047.8149.3262.27R 
99373.81063.80110.0092.43R 
99733.33023.24810.0822.45R 
100354.76045.2589.5022.31R 
102533.33045.945-12.615-3.12RX
103433.33041.525-8.195-2.00R 
105957.14048.7488.3922.05R 
110547.62037.6919.9292.41R 
115059.52044.91714.6033.55R 
116052.38039.92912.4513.02R 
116330.95041.213-10.263-2.49R 
116569.05056.87612.1742.96R 
116959.52049.42010.1002.46R 
119842.86051.887-9.027-2.20R 
120776.19062.89313.2973.24R 
121326.19040.350-14.160-3.44R 
122840.48050.081-9.601-2.34R 
123559.52050.7998.7212.12R 
123757.14048.7928.3482.03R 
124664.29055.7618.5292.07R 
126245.24036.6078.6332.10R 
126357.14043.80313.3373.24R 
128445.24056.429-11.189-2.72R 
128547.62060.750-13.130-3.19R 
128835.71044.896-9.186-2.24R 
130326.19036.882-10.692-2.60R 
130535.71045.087-9.377-2.28R 
131130.95040.129-9.179-2.24R 
135342.86053.294-10.434-2.54R 
137747.62035.29812.3223.00R 
138069.05055.76113.2893.23R 
138450.00039.31310.6872.60R 
141426.19035.935-9.745-2.37R 
150261.90051.9059.9952.43R 
152638.10025.42212.6783.07R 
153514.29023.821-9.531-2.31R 
154438.10028.1179.9832.43R 
154850.00039.31910.6812.60R 
156538.10039.528-1.428-0.35  X
158266.67055.15211.5182.81R 
Residuo grande R
X  poco común X

Selección de un modelo alternativo

Los investigadores deciden examinar los resultados para encontrar el mejor modelo TreeNet®.

  1. En los resultados para Descubrir el mejor modelo (Respuesta continua), después de la selección escalonada de términos para determinar el mejor modelo de regresión múltiple, haga clic Seleccione un modelo alternativo.
  2. En Tipo de modelo, seleccione TreeNet®.
  3. En Seleccionar un modelo existente, elija el sexto modelo, que tiene el mejor valor de R2.
  4. Haga clic en Mostrar resultados.

Interpretar los resultados

Para este análisis, se generan 300 árboles y el número óptimo de árboles es 63. El modelo utiliza una tasa de aprendizaje de 0.1 y una fracción de submuestra de 0.7. El número máximo de nodos terminales es 6.

Método

Función de pérdidaError cuadrático
Criterio para seleccionar un número óptimo de árbolesR-cuadrado máximo
Validación del modeloValidación cruzada de 5 pliegues
Tasa de aprendizaje0.1
Fracción de submuestra0.7
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 8
Filas utilizadas1546
Filas no utilizadas70

Información de respuesta

MediaDesv.Est.MínimoQ1MedianaQ3Máximo
31.011014.0820019.0530.9540.4876.19

La gráfica de R-cuadrada vs. número de árboles muestra la curva completa del número de árboles creados. El valor óptimo para los datos de prueba es de aproximadamente 91% cuando el número de árboles es 63.

Resumen del modelo

Total de predictores8
Predictores importantes8
Número de árboles cultivados300
Número óptimo de árboles63
EstadísticasEntrenamientoPrueba
R-cuadrado91.93%90.90%
Raíz de los cuadrados medios del error (RMSE)3.99924.2471
Cuadrado medio del error (MSE)15.993218.0375
Desviación absoluta media (MAD)2.99433.1613
Media del error porcentual absoluto (MAPE)0.10880.1130

La tabla de resumen del modelo muestra que el valor de R2 cuando el número de árboles es 63 es de aproximadamente 92% para los datos de entrenamiento y de aproximadamente 91% para los datos de prueba.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Número de síntomas ahora. Si la contribución de la variable predictora superior, Número de síntomas ahora, es del 100%, entonces la siguiente variable importante, Límites a las actividades normales, tiene una contribución del 44.4%. Esto significa que Límites a las actividades normales es un 44.4% tan importante como Número de síntomas ahora en este modelo de regresión.

La gráfica de dispersión de las puntuaciones ajustadas de la enfermedad en comparación con las puntuaciones reales de la enfermedad muestra que la relación entre los valores ajustados y los valores reales tanto para los datos de entrenamiento como para los datos de prueba. Aproximadamente, los puntos caen cerca de la línea de referencia de y=x, lo que indica que el modelo se ajusta bien a los datos.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan los valores de respuesta ajustados. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

La primera gráfica ilustra la relación entre las puntuaciones de la enfermedad y el número de síntomas que el paciente ahora tiene. Puede pasar el cursor sobre puntos de datos individuales para ver los valores específicos de X y Y. Por ejemplo, el punto más alto en el lado derecho de la gráfica corresponde al paciente con 13 síntomas y la puntuación ajustada de la enfermedad es aproximadamente 45.

La segunda gráfica ilustra que la puntuación ajustada de la enfermedad aumenta aproximadamente 5 puntos cuando los pacientes informan acerca limitaciones en sus actividades normales.

La tercera gráfica ilustra que la puntuación de la enfermedad ajustada aumenta aproximadamente 5 puntos cuando los pacientes informan que generalmente se sienten muy mal.

La cuarta gráfica ilustra que la puntuación ajustada de la enfermedad aumenta aproximadamente 4 puntos cuando los pacientes notifican dificultad respiratoria grave.

La última gráfica ilustra cómo la puntuación ajustada de la enfermedad para una serie de síntomas depende de si el paciente también tiene límites en sus actividades normales. Para el mismo número de síntomas, los pacientes que también informan acerca de límites en sus actividades normales tienen puntuaciones ajustadas de la enfermedad más altas.

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política