Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.
Los investigadores de un sistema de salud recopilan datos de sus clínicas médicas regionales. En particular, el equipo de investigación está interesado en los datos de los exámenes iniciales realizados a los pacientes enfermos por los médicos. Al final de los exámenes iniciales, los médicos asignan una puntuación a cada paciente según la gravedad de su enfermedad. Los investigadores quieren desarrollar un breve cuestionario para ayudar a priorizar a los pacientes más enfermos antes de que el médico realice el examen. A través de consultas con expertos en la materia y la exploración inicial de los datos, el equipo selecciona 8 variables para predecir la puntuación de gravedad. Los investigadores quieren determinar el mejor tipo de modelo para predecir la puntuación de gravedad antes de refinar aún más el modelo.
Los investigadores utilizan Descubrir el mejor modelo (Respuesta continua) para comparar el rendimiento predictivo de 5 tipos de modelos: regresión múltiple, TreeNet®, Random Forests® CART® y MARS®. El equipo planea explorar más a fondo el tipo de modelo con el mejor rendimiento predictivo.
La tabla Selección de modelo compara el rendimiento de los tipos de modelos. El modelo de regresión múltiple tiene el valor máximo de R2. Los siguientes resultados son para el mejor modelo de regresión múltiple.
Para determinar si la asociación entre la respuesta y cada término en el modelo es estadísticamente significativa, compare el valor p del término con su nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que no hay asociación entre el término y la respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real. En estos resultados, dos de los términos de interacción tienen valores p que son superiores a 0.05: Dificultad para respirar severa*Dolor de cabeza intenso y Dolor de cabeza intenso*Trastornos graves del sueño. Cuando los investigadores exploren otros modelos de regresión múltiple, utilizarán métricas de rendimiento del modelo y gráficas residuales para explorar los efectos de incluir estos términos en el modelo.
La tabla de resumen del modelo muestra que tanto la R2 de entrenamiento como la R2 de prueba son de aproximadamente 91%. La raíz del error cuadrático medio (RMSE) de prueba, que representa hasta qué punto los valores de datos difieren de los valores ajustados, es aproximadamente 4. Debido a que el valor de RMSE es pequeño en la escala de la puntuación de la enfermedad, los investigadores consideran con optimismo que se obtendrá suficiente información para ayudar a priorizar a los pacientes con un pequeño número de preguntas.
La tabla de ajustes y diagnósticos para información poco común muestra puntos de datos que no siguen bien la ecuación de regresión propuesta. Estos son los ajustes y diagnósticos del conjunto completo de datos.
La letra R indica un punto con un residuo grande. Examine los puntos de datos poco comunes para ver los valores predictores donde el modelo podría no ajustarse bien. La letra X indica un punto con alto apalancamiento. Los puntos con alto apalancamiento tienen combinaciones de predictores poco comunes en relación con el resto del conjunto de datos.
Los puntos con grandes residuos y alto apalancamiento son puntos de influencia potenciales. Por ejemplo, la inclusión o exclusión de un punto de inflexión puede determinar si un coeficiente es estadísticamente significativo o no. Si nota una observación de influencia, determine si la observación es un error en la entrada de datos o un error de medición. Si la observación no es un error, determine cuánto influye la observación en los resultados. Cuando los investigadores exploren más a fondo el modelo, ajustarán el modelo con y sin las observaciones. Luego, compararán los coeficientes, los valores p, R2 y otra información del modelo. Si el modelo cambia significativamente al eliminar la observación de influencia, examine el modelo más a fondo para determinar si el modelo se especificó de forma incorrecta. Es posible que deba recopilar más datos para resolver el problema.
La gráfica de dispersión de las puntuaciones ajustadas de la enfermedad en comparación con las puntuaciones reales de la enfermedad muestra que la relación entre los valores ajustados y los valores reales tanto para los datos de entrenamiento como para los datos de prueba. Aproximadamente, los puntos caen cerca de la línea de referencia de y=x, lo que indica que el modelo se ajusta bien a los datos.
Ajustar un modelo de regresión con términos lineales y términos de orden 2. |
---|
Ajustar 6 modelo(s) de Regresión TreeNet® utilizando la función de pérdida cuadrática. |
Ajustar 3 modelo(s) de Regresión Random Forests® con el tamaño de la muestra de bootstrap igual al tamaño de los datos de entrenamiento de 1546. |
Ajustar un modelo óptimo de regresión CART®. |
Ajustar un modelo óptimo de regresión MARS®. |
Seleccione el modelo con el máximo R-cuadrado de la valoración cruzada de 5 pliegues. |
Número total de filas: 1546 |
Filas utilizadas para el modelo de regresión: 1546 |
Filas utilizadas para los modelos basados en árboles: 1546 |
Media | Desv.Est. | Mínimo | Q1 | Mediana | Q3 | Máximo |
---|---|---|---|---|---|---|
31.0110 | 14.0820 | 0 | 19.05 | 30.95 | 40.48 | 76.19 |
Mejor modelo dentro del tipo | R-cuadrado (%) | Desviación absoluta media |
---|---|---|
Regresión múltiple* | 91.23 | 3.1011 |
MARS® | 91.05 | 3.1604 |
TreeNet® | 90.90 | 3.1613 |
Random Forests® | 89.93 | 3.3248 |
CART® | 86.11 | 3.9369 |
Puntuación de la enfermedad | = | 1.241 + 2.5386 Número de síntomas ahora + 0.0 Alta producción de flema_0 + 3.900 Alta producción de flema_1 + 0.0 Dificultad para respirar severa_0 + 0.94 Dificultad para respirar severa_1 + 0.0 Dolor de cabeza intenso_0 + 4.094 Dolor de cabeza intenso_1 + 0.0 Trastornos graves del sueño_0 + 3.884 Trastornos graves del sueño_1 + 0.0 Generalmente me siento muy mal_0 + 3.473 Generalmente me siento muy mal_1 + 0.0 Límites a las actividades norma_0 + 3.140 Límites a las actividades norma_1 + 0.0 Número de síntomas ahora*Dificultad para respirar severa_ 0 + 0.373 Número de síntomas ahora*Dificultad para respirar sever a_1 + 0.0 Número de síntomas ahora*Dolor severo en el pecho_0 + 0.4765 Número de síntomas ahora*Dolor severo en el pecho_1 + 0.0 Dificultad para respirar severa*Trastornos graves del sue ño_0 0 + 0.0 Dificultad para respirar severa*Trastornos graves del sue ño_0 1 + 0.0 Dificultad para respirar severa*Trastornos graves del sue ño_1 0 + 1.337 Dificultad para respirar severa*Trastornos graves del s ueño_1 1 + 0.0 Generalmente me siento muy mal*Límites a las actividades norma_0 0 + 0.0 Generalmente me siento muy mal*Límites a las actividades norma_0 1 + 0.0 Generalmente me siento muy mal*Límites a las actividades norma_1 0 + 1.372 Generalmente me siento muy mal*Límites a las actividade s norma_1 1 |
---|
Término | Coef | EE del coef. | Valor T |
---|---|---|---|
Constante | 1.241 | 0.385 | 3.22 |
Número de síntomas ahora | 2.5386 | 0.0593 | 42.81 |
Alta producción de flema | |||
1 | 3.900 | 0.225 | 17.35 |
Dificultad para respirar severa | |||
1 | 0.94 | 1.18 | 0.80 |
Dolor de cabeza intenso | |||
1 | 4.094 | 0.253 | 16.18 |
Trastornos graves del sueño | |||
1 | 3.884 | 0.284 | 13.69 |
Generalmente me siento muy mal | |||
1 | 3.473 | 0.343 | 10.14 |
Límites a las actividades norma | |||
1 | 3.140 | 0.424 | 7.40 |
Número de síntomas ahora*Dificultad para respirar severa | |||
1 | 0.373 | 0.133 | 2.81 |
Número de síntomas ahora*Dolor severo en el pecho | |||
1 | 0.4765 | 0.0312 | 15.26 |
Dificultad para respirar severa*Trastornos graves del sueño | |||
1 1 | 1.337 | 0.528 | 2.53 |
Generalmente me siento muy mal*Límites a las actividades norma | |||
1 1 | 1.372 | 0.527 | 2.61 |
Término | Valor p | FIV |
---|---|---|
Constante | 0.001 | |
Número de síntomas ahora | 0.000 | 1.95 |
Alta producción de flema | ||
1 | 0.000 | 1.10 |
Dificultad para respirar severa | ||
1 | 0.424 | 23.23 |
Dolor de cabeza intenso | ||
1 | 0.000 | 1.25 |
Trastornos graves del sueño | ||
1 | 0.000 | 1.73 |
Generalmente me siento muy mal | ||
1 | 0.000 | 2.62 |
Límites a las actividades norma | ||
1 | 0.000 | 3.98 |
Número de síntomas ahora*Dificultad para respirar severa | ||
1 | 0.005 | 26.80 |
Número de síntomas ahora*Dolor severo en el pecho | ||
1 | 0.000 | 1.25 |
Dificultad para respirar severa*Trastornos graves del sueño | ||
1 1 | 0.011 | 3.26 |
Generalmente me siento muy mal*Límites a las actividades norma | ||
1 1 | 0.009 | 5.73 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
R-cuadrado | 91.35% | 91.23% |
Raíz de los cuadrados medios del error (RMSE) | 4.1562 | 4.1679 |
Cuadrado medio del error (MSE) | 17.2741 | 17.3714 |
Desviación absoluta media (MAD) | 3.0798 | 3.1011 |
R-cuadrado (ajust.) | 91.29% | |
R-cuadrado (pred.) | 91.19% |
Fuente | GL | SC Ajust. | MC Ajust. |
---|---|---|---|
Regresión | 11 | 279881 | 25443.7 |
Número de síntomas ahora | 1 | 31655 | 31654.8 |
Alta producción de flema | 1 | 5202 | 5201.8 |
Dificultad para respirar severa | 1 | 11 | 11.1 |
Dolor de cabeza intenso | 1 | 4520 | 4520.0 |
Trastornos graves del sueño | 1 | 3239 | 3238.8 |
Generalmente me siento muy mal | 1 | 1776 | 1775.6 |
Límites a las actividades norma | 1 | 945 | 945.4 |
Número de síntomas ahora*Dificultad para respirar severa | 1 | 136 | 136.4 |
Número de síntomas ahora*Dolor severo en el pecho | 1 | 4023 | 4023.4 |
Dificultad para respirar severa*Trastornos graves del sueño | 1 | 111 | 110.7 |
Generalmente me siento muy mal*Límites a las actividades norma | 1 | 117 | 117.3 |
Error | 1534 | 26498 | 17.3 |
Falta de ajuste | 484 | 9247 | 19.1 |
Error puro | 1050 | 17251 | 16.4 |
Total | 1545 | 306379 |
Fuente | Valor F | Valor p |
---|---|---|
Regresión | 1472.94 | 0.000 |
Número de síntomas ahora | 1832.51 | 0.000 |
Alta producción de flema | 301.14 | 0.000 |
Dificultad para respirar severa | 0.64 | 0.424 |
Dolor de cabeza intenso | 261.66 | 0.000 |
Trastornos graves del sueño | 187.50 | 0.000 |
Generalmente me siento muy mal | 102.79 | 0.000 |
Límites a las actividades norma | 54.73 | 0.000 |
Número de síntomas ahora*Dificultad para respirar severa | 7.90 | 0.005 |
Número de síntomas ahora*Dolor severo en el pecho | 232.92 | 0.000 |
Dificultad para respirar severa*Trastornos graves del sueño | 6.41 | 0.011 |
Generalmente me siento muy mal*Límites a las actividades norma | 6.79 | 0.009 |
Error | ||
Falta de ajuste | 1.16 | 0.025 |
Error puro | ||
Total |
Obs | Puntuación de la enfermedad | Ajuste | Resid | Resid est. | ||
---|---|---|---|---|---|---|
11 | 66.670 | 56.757 | 9.913 | 2.40 | R | |
13 | 52.380 | 41.177 | 11.203 | 2.71 | R | |
16 | 59.520 | 48.604 | 10.916 | 2.64 | R | |
33 | 50.000 | 60.657 | -10.657 | -2.57 | R | |
48 | 64.290 | 55.416 | 8.874 | 2.14 | R | |
52 | 61.900 | 53.369 | 8.531 | 2.06 | R | |
54 | 50.000 | 41.598 | 8.402 | 2.03 | R | |
56 | 50.000 | 58.328 | -8.328 | -2.02 | R | |
58 | 38.100 | 46.485 | -8.385 | -2.03 | R | |
106 | 59.520 | 49.028 | 10.492 | 2.53 | R | |
114 | 59.520 | 47.160 | 12.360 | 2.99 | R | |
128 | 69.050 | 58.328 | 10.722 | 2.59 | R | |
144 | 50.000 | 40.471 | 9.529 | 2.30 | R | |
173 | 47.620 | 56.757 | -9.137 | -2.21 | R | |
174 | 42.860 | 34.000 | 8.860 | 2.14 | R | |
191 | 42.860 | 52.051 | -9.191 | -2.23 | R | |
198 | 59.520 | 48.411 | 11.109 | 2.68 | R | |
202 | 73.810 | 64.046 | 9.764 | 2.36 | R | |
205 | 47.620 | 37.559 | 10.061 | 2.43 | R | |
213 | 35.710 | 34.970 | 0.740 | 0.18 | X | |
217 | 16.670 | 19.053 | -2.383 | -0.58 | X | |
239 | 47.620 | 58.328 | -10.708 | -2.59 | R | |
241 | 71.430 | 66.311 | 5.119 | 1.25 | X | |
243 | 14.290 | 24.088 | -9.798 | -2.36 | R | |
304 | 50.000 | 41.130 | 8.870 | 2.14 | R | |
307 | 14.290 | 10.920 | 3.370 | 0.83 | X | |
352 | 64.290 | 51.254 | 13.036 | 3.15 | R | |
369 | 38.100 | 49.275 | -11.175 | -2.70 | R | |
391 | 16.670 | 32.073 | -15.403 | -3.72 | R | |
392 | 0.000 | 11.395 | -11.395 | -2.75 | R | |
395 | 0.000 | 13.934 | -13.934 | -3.36 | R | |
424 | 40.480 | 52.504 | -12.024 | -2.90 | R | |
425 | 47.620 | 34.597 | 13.023 | 3.16 | R | |
474 | 47.620 | 38.538 | 9.082 | 2.21 | R | |
479 | 40.480 | 30.896 | 9.584 | 2.31 | R | |
489 | 16.670 | 25.023 | -8.353 | -2.02 | R | |
491 | 30.950 | 24.348 | 6.602 | 1.61 | X | |
493 | 57.140 | 44.339 | 12.801 | 3.09 | R | |
495 | 35.710 | 25.480 | 10.230 | 2.47 | R | |
509 | 38.100 | 26.696 | 11.404 | 2.77 | R | |
520 | 73.810 | 58.328 | 15.482 | 3.75 | R | |
537 | 38.100 | 28.358 | 9.742 | 2.35 | R | |
550 | 14.290 | 24.458 | -10.168 | -2.45 | R | |
583 | 42.860 | 53.369 | -10.509 | -2.54 | R | |
694 | 19.050 | 21.817 | -2.767 | -0.68 | X | |
720 | 59.520 | 65.602 | -6.082 | -1.49 | X | |
722 | 40.480 | 32.066 | 8.414 | 2.03 | R | |
802 | 30.950 | 42.586 | -11.636 | -2.81 | R | |
805 | 30.950 | 39.868 | -8.918 | -2.16 | R | |
814 | 40.480 | 32.073 | 8.407 | 2.03 | R | |
823 | 61.900 | 48.148 | 13.752 | 3.33 | R | |
833 | 33.330 | 44.054 | -10.724 | -2.60 | R | |
859 | 38.100 | 49.275 | -11.175 | -2.70 | R | |
868 | 47.620 | 37.789 | 9.831 | 2.38 | R | |
891 | 30.950 | 19.945 | 11.005 | 2.66 | R | |
893 | 28.570 | 48.860 | -20.290 | -4.92 | R | |
905 | 45.240 | 55.416 | -10.176 | -2.46 | R | |
924 | 54.760 | 56.019 | -1.259 | -0.31 | X | |
977 | 64.290 | 53.107 | 11.183 | 2.72 | R | |
983 | 57.140 | 47.683 | 9.457 | 2.29 | R | |
988 | 50.000 | 44.501 | 5.499 | 1.34 | X | |
993 | 73.810 | 64.046 | 9.764 | 2.36 | R | |
997 | 33.330 | 24.458 | 8.872 | 2.14 | R | |
1003 | 54.760 | 45.128 | 9.632 | 2.33 | R | |
1025 | 33.330 | 47.705 | -14.375 | -3.49 | R | |
1059 | 57.140 | 48.663 | 8.477 | 2.05 | R | |
1105 | 47.620 | 37.319 | 10.301 | 2.49 | R | |
1150 | 59.520 | 44.339 | 15.181 | 3.67 | R | |
1160 | 52.380 | 40.051 | 12.329 | 2.97 | R | |
1163 | 30.950 | 41.598 | -10.648 | -2.57 | R | |
1165 | 69.050 | 56.757 | 12.293 | 2.97 | R | |
1169 | 59.520 | 49.275 | 10.245 | 2.48 | R | |
1198 | 42.860 | 51.516 | -8.656 | -2.09 | R | |
1207 | 76.190 | 63.534 | 12.656 | 3.07 | R | |
1213 | 26.190 | 40.278 | -14.088 | -3.41 | R | |
1228 | 40.480 | 50.571 | -10.091 | -2.45 | R | |
1235 | 59.520 | 50.175 | 9.345 | 2.26 | R | |
1237 | 57.140 | 48.239 | 8.901 | 2.15 | R | |
1246 | 64.290 | 55.416 | 8.874 | 2.14 | R | |
1262 | 45.240 | 35.957 | 9.283 | 2.24 | R | |
1263 | 57.140 | 43.951 | 13.189 | 3.18 | R | |
1282 | 33.330 | 36.011 | -2.681 | -0.65 | X | |
1284 | 45.240 | 56.564 | -11.324 | -2.74 | R | |
1285 | 47.620 | 60.657 | -13.037 | -3.15 | R | |
1303 | 26.190 | 36.567 | -10.377 | -2.51 | R | |
1305 | 35.710 | 45.499 | -9.789 | -2.36 | R | |
1311 | 30.950 | 40.089 | -9.139 | -2.21 | R | |
1345 | 26.190 | 25.105 | 1.085 | 0.26 | X | |
1353 | 42.860 | 53.175 | -10.315 | -2.49 | R | |
1365 | 26.190 | 17.834 | 8.356 | 2.01 | R | |
1377 | 47.620 | 35.222 | 12.398 | 3.00 | R | |
1380 | 69.050 | 55.416 | 13.634 | 3.29 | R | |
1384 | 50.000 | 38.496 | 11.504 | 2.78 | R | |
1414 | 26.190 | 35.345 | -9.155 | -2.21 | R | |
1502 | 61.900 | 50.195 | 11.705 | 2.84 | R | |
1526 | 38.100 | 25.450 | 12.650 | 3.05 | R | |
1535 | 14.290 | 24.088 | -9.798 | -2.36 | R | |
1544 | 38.100 | 29.165 | 8.935 | 2.16 | R | |
1548 | 50.000 | 40.455 | 9.545 | 2.31 | R | |
1565 | 38.100 | 42.846 | -4.746 | -1.16 | X | |
1582 | 66.670 | 55.437 | 11.233 | 2.72 | R |
Los investigadores deciden examinar los resultados para encontrar el mejor modelo TreeNet®.
Para este análisis, se generan 300 árboles y el número óptimo de árboles es 63. El modelo utiliza una tasa de aprendizaje de 0.1 y una fracción de submuestra de 0.7. El número máximo de nodos terminales es 6.
Función de pérdida | Error cuadrático |
---|---|
Criterio para seleccionar un número óptimo de árboles | R-cuadrado máximo |
Validación del modelo | Validación cruzada de 5 pliegues |
Tasa de aprendizaje | 0.1 |
Fracción de submuestra | 0.7 |
Máximo de nodos terminales por árbol | 6 |
Tamaño mínimo del nodo terminal | 3 |
Número de predictores seleccionados para la división de nodos | Número total de predictores = 8 |
Filas utilizadas | 1546 |
Filas no utilizadas | 70 |
Media | Desv.Est. | Mínimo | Q1 | Mediana | Q3 | Máximo |
---|---|---|---|---|---|---|
31.0110 | 14.0820 | 0 | 19.05 | 30.95 | 40.48 | 76.19 |
Total de predictores | 8 |
---|---|
Predictores importantes | 8 |
Número de árboles cultivados | 300 |
Número óptimo de árboles | 63 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
R-cuadrado | 91.93% | 90.90% |
Raíz de los cuadrados medios del error (RMSE) | 3.9992 | 4.2471 |
Cuadrado medio del error (MSE) | 15.9932 | 18.0375 |
Desviación absoluta media (MAD) | 2.9943 | 3.1613 |
Media del error porcentual absoluto (MAPE) | 0.1088 | 0.1130 |
La tabla de resumen del modelo muestra que el valor de R2 cuando el número de árboles es 63 es de aproximadamente 92% para los datos de entrenamiento y de aproximadamente 91% para los datos de prueba.