Cette commande est disponible avec la commande Module d'analyse prédictive. Cliquez ici pour plus d’informations sur la façon d’activer le module.
Les chercheurs d’un système de santé collectent des données auprès de leurs cliniques médicales régionales. L’équipe de recherche s’intéresse en particulier aux données issues des premiers examens médicaux de patients malades. À l’issue des premiers examens, les médecins attribuent à chaque patient une note en fonction de la gravité de sa maladie. Les chercheurs veulent développer un court questionnaire pour aider à prioriser les patients les plus malades avant l’examen par un médecin. En consultant des experts en la matière et en explorant initialement les données, l’équipe sélectionne 8 variables pour prédire le score de gravité. Les chercheurs veulent déterminer le meilleur type de modèle pour prédire le score de gravité avant d’affiner davantage le modèle.
Les chercheurs comparent Découvrir le meilleur modèle (réponse continue) les performances prédictives de 5 types de modèles : la régression multiple, TreeNet®, Random Forests®, CART® et MARS®. L’équipe prévoit d’explorer davantage le type de modèle offrant les meilleures performances prédictives.
Le tableau Sélection de modèle compare les performances des types de modèles. Le modèle de régression multiple a la valeur maximale de R2. Les résultats qui suivent concernent le meilleur modèle de régression multiple.
Pour déterminer si l’association entre la réponse et chaque terme du modèle est statistiquement significative, comparez la valeur p du terme à votre niveau de signification pour évaluer l’hypothèse nulle. L’hypothèse nulle est qu’il n’y a pas d’association entre le terme et la réponse. Habituellement, un niveau de signification (noté α ou alpha) de 0,05 fonctionne bien. Un niveau de signification de 0,05 indique un risque de 5 % de conclure à l’existence d’une association lorsqu’il n’y a pas d’association réelle. Dans ces résultats, deux des termes d’interaction ont des valeurs p supérieures à 0,05 : Essoufflement sévère*Maux de tête sévères et Maux de tête sévères*Troubles graves du sommeil. Lorsque les chercheurs exploreront d’autres modèles de régression multiple, ils utiliseront des mesures de performance du modèle et des graphiques résiduels pour explorer les effets de l’inclusion de ces termes dans le modèle.
Le tableau récapitulatif du modèle montre que l’entraînement R2 et le test R2 sont tous deux d’environ 91 %. La racine de test de l’erreur quadratique moyenne (EQM), qui représente l’écart entre les valeurs de données et les valeurs ajustées, est d’environ 4. Étant donné que le RMSE est petit sur l’échelle du score de maladie, les chercheurs sont optimistes qu’un petit nombre de questions constitue une information suffisante pour aider à prioriser les patients.
Le tableau des ajustements et des diagnostics pour les informations inhabituelles montre les points de données qui ne suivent pas bien l’équation de régression proposée. Il s’agit des ajustements et des diagnostics à partir de l’ensemble complet des données.
La lettre R indique un point avec un grand résidu. Examinez les points de données inhabituels pour voir les valeurs de prédiction où le modèle pourrait ne pas bien s’adapter. La lettre X indique un point avec un effet de levier élevé. Les points avec un effet de levier élevé ont des combinaisons de prédicteurs inhabituelles par rapport au reste de l’ensemble de données.
Des résidus importants et des points d’endettement élevés sont des points potentiellement influents. Par exemple, l’inclusion ou l’exclusion d’un point influent peut modifier le caractère statistiquement significatif ou non d’un coefficient. Si vous voyez une observation influente, déterminez s’il s’agit d’une erreur de saisie de données ou d’une erreur de mesure. Si l’observation n’est pas une erreur, déterminez dans quelle mesure l’observation influence les résultats. Lorsque les chercheurs exploreront davantage le modèle, ils l’ajusteront avec et sans les observations. Ensuite, ils compareront les coefficients, les valeurs p, R2 et d’autres informations du modèle. Si le modèle change considérablement lorsque vous supprimez l’observation influente, examinez-le plus en détail pour déterminer si vous l’avez spécifié de manière incorrecte. Vous devrez peut-être collecter plus de données pour résoudre le problème.
Le nuage de points des scores de maladie ajustés par rapport aux scores de maladie réels montre la relation entre les valeurs ajustées et réelles pour les données d’entraînement et de test. Les points se trouvent approximativement près de la ligne de référence y=x, ce qui indique que le modèle s’ajuste bien aux données.
Ajustez un modèle de régression avec des termes linéaires et des termes d'ordre 2. |
---|
Ajustez 6 modèle(s) de régression TreeNet® en utilisant la fonction de perte quadratique. |
Ajustez 3 modèle(s) de régression Random Forests® avec un effectif d'échantillon bootstrap identique à la taille des données d'apprentissage de 1546. |
Ajuster un modèle de régression CART® optimal. |
Ajuster un modèle de régression MARS® optimal. |
Sélectionnez le modèle avec un R carré maximal d'après la validation croisée sur 5 partitions. |
Nombre total de lignes : 1546 |
Lignes utilisées pour le modèle de régression : 1546 |
Lignes utilisées pour les modèles basés sur des arbres : 1546 |
Moyenne | EcTyp | Minimum | Q1 | Médiane | Q3 | Maximum |
---|---|---|---|---|---|---|
31,0110 | 14,0820 | 0 | 19,05 | 30,95 | 40,48 | 76,19 |
Meilleur modèle pour le type | R carré (%) | Écart absolu moyen |
---|---|---|
Régression multiple* | 91,23 | 3,1011 |
MARS® | 91,05 | 3,1604 |
TreeNet® | 90,90 | 3,1613 |
Random Forests® | 89,93 | 3,3248 |
CART® | 86,11 | 3,9369 |
Score de gravité de la maladie | = | 1,241 + 2,5386 Nombre de symptômes maintenant + 0,0 Haute production de mucosités_0 + 3,900 Haute production de mucosités_1 + 0,0 Essoufflement sévère_0 + 0,94 Essoufflement sévère_1 + 0,0 Maux de tête sévères_0 + 4,094 Maux de tête sévères_1 + 0,0 Troubles graves du sommeil_0 + 3,884 Troubles graves du sommeil_1 + 0,0 Se sentir généralement très mal_0 + 3,473 Se sentir généralement très mal_1 + 0,0 Limites aux activités normales_0 + 3,140 Limites aux activités normales_1 + 0,0 Nombre de symptômes maintenant*Essoufflement sévère_0 + 0,373 Nombre de symptômes maintenant*Essoufflement sévère_ 1 + 0,0 Nombre de symptômes maintenant*Douleur thoracique sévè re_0 + 0,4765 Nombre de symptômes maintenant*Douleur thoracique s évère_1 + 0,0 Essoufflement sévère*Troubles graves du sommeil_0 0 + 0,0 Essoufflement sévère*Troubles graves du sommeil_0 1 + 0,0 Essoufflement sévère*Troubles graves du sommeil_1 0 + 1,337 Essoufflement sévère*Troubles graves du sommeil_1 1 + 0,0 Se sentir généralement très mal*Limites aux activités normales_0 0 + 0,0 Se sentir généralement très mal*Limites aux activités normales_0 1 + 0,0 Se sentir généralement très mal*Limites aux activités normales_1 0 + 1,372 Se sentir généralement très mal*Limites aux activité s normales_1 1 |
---|
Terme | Coeff | Coef ErT | Valeur de T |
---|---|---|---|
Constante | 1,241 | 0,385 | 3,22 |
Nombre de symptômes maintenant | 2,5386 | 0,0593 | 42,81 |
Haute production de mucosités | |||
1 | 3,900 | 0,225 | 17,35 |
Essoufflement sévère | |||
1 | 0,94 | 1,18 | 0,80 |
Maux de tête sévères | |||
1 | 4,094 | 0,253 | 16,18 |
Troubles graves du sommeil | |||
1 | 3,884 | 0,284 | 13,69 |
Se sentir généralement très mal | |||
1 | 3,473 | 0,343 | 10,14 |
Limites aux activités normales | |||
1 | 3,140 | 0,424 | 7,40 |
Nombre de symptômes maintenant*Essoufflement sévère | |||
1 | 0,373 | 0,133 | 2,81 |
Nombre de symptômes maintenant*Douleur thoracique sévère | |||
1 | 0,4765 | 0,0312 | 15,26 |
Essoufflement sévère*Troubles graves du sommeil | |||
1 1 | 1,337 | 0,528 | 2,53 |
Se sentir généralement très mal*Limites aux activités normales | |||
1 1 | 1,372 | 0,527 | 2,61 |
Terme | Valeur de p | FIV |
---|---|---|
Constante | 0,001 | |
Nombre de symptômes maintenant | 0,000 | 1,95 |
Haute production de mucosités | ||
1 | 0,000 | 1,10 |
Essoufflement sévère | ||
1 | 0,424 | 23,23 |
Maux de tête sévères | ||
1 | 0,000 | 1,25 |
Troubles graves du sommeil | ||
1 | 0,000 | 1,73 |
Se sentir généralement très mal | ||
1 | 0,000 | 2,62 |
Limites aux activités normales | ||
1 | 0,000 | 3,98 |
Nombre de symptômes maintenant*Essoufflement sévère | ||
1 | 0,005 | 26,80 |
Nombre de symptômes maintenant*Douleur thoracique sévère | ||
1 | 0,000 | 1,25 |
Essoufflement sévère*Troubles graves du sommeil | ||
1 1 | 0,011 | 3,26 |
Se sentir généralement très mal*Limites aux activités normales | ||
1 1 | 0,009 | 5,73 |
Statistiques | Apprentissage | Test |
---|---|---|
R carré | 91,35% | 91,23% |
Racine de l'erreur quadratique moyenne (RMSE) | 4,1562 | 4,1679 |
Erreur quadratique moyenne (MSE) | 17,2741 | 17,3714 |
Ecart absolu moyen (MAD) | 3,0798 | 3,1011 |
R carré (ajus) | 91,29% | |
R carré (prév) | 91,19% |
Source | DL | SomCar ajust |
---|---|---|
Régression | 11 | 279881 |
Nombre de symptômes maintenant | 1 | 31655 |
Haute production de mucosités | 1 | 5202 |
Essoufflement sévère | 1 | 11 |
Maux de tête sévères | 1 | 4520 |
Troubles graves du sommeil | 1 | 3239 |
Se sentir généralement très mal | 1 | 1776 |
Limites aux activités normales | 1 | 945 |
Nombre de symptômes maintenant*Essoufflement sévère | 1 | 136 |
Nombre de symptômes maintenant*Douleur thoracique sévère | 1 | 4023 |
Essoufflement sévère*Troubles graves du sommeil | 1 | 111 |
Se sentir généralement très mal*Limites aux activités normales | 1 | 117 |
Erreur | 1534 | 26498 |
Inadéquation de l'ajustement | 484 | 9247 |
Erreur pure | 1050 | 17251 |
Total | 1545 | 306379 |
Source | CM ajust | Valeur F |
---|---|---|
Régression | 25443,7 | 1472,94 |
Nombre de symptômes maintenant | 31654,8 | 1832,51 |
Haute production de mucosités | 5201,8 | 301,14 |
Essoufflement sévère | 11,1 | 0,64 |
Maux de tête sévères | 4520,0 | 261,66 |
Troubles graves du sommeil | 3238,8 | 187,50 |
Se sentir généralement très mal | 1775,6 | 102,79 |
Limites aux activités normales | 945,4 | 54,73 |
Nombre de symptômes maintenant*Essoufflement sévère | 136,4 | 7,90 |
Nombre de symptômes maintenant*Douleur thoracique sévère | 4023,4 | 232,92 |
Essoufflement sévère*Troubles graves du sommeil | 110,7 | 6,41 |
Se sentir généralement très mal*Limites aux activités normales | 117,3 | 6,79 |
Erreur | 17,3 | |
Inadéquation de l'ajustement | 19,1 | 1,16 |
Erreur pure | 16,4 | |
Total |
Source | Valeur de p |
---|---|
Régression | 0,000 |
Nombre de symptômes maintenant | 0,000 |
Haute production de mucosités | 0,000 |
Essoufflement sévère | 0,424 |
Maux de tête sévères | 0,000 |
Troubles graves du sommeil | 0,000 |
Se sentir généralement très mal | 0,000 |
Limites aux activités normales | 0,000 |
Nombre de symptômes maintenant*Essoufflement sévère | 0,005 |
Nombre de symptômes maintenant*Douleur thoracique sévère | 0,000 |
Essoufflement sévère*Troubles graves du sommeil | 0,011 |
Se sentir généralement très mal*Limites aux activités normales | 0,009 |
Erreur | |
Inadéquation de l'ajustement | 0,025 |
Erreur pure | |
Total |
Observation | Score de gravité de la maladie | Valeur ajustée | Résiduelle | Val. résid. norm. | ||
---|---|---|---|---|---|---|
11 | 66,670 | 56,757 | 9,913 | 2,40 | R | |
13 | 52,380 | 41,177 | 11,203 | 2,71 | R | |
16 | 59,520 | 48,604 | 10,916 | 2,64 | R | |
33 | 50,000 | 60,657 | -10,657 | -2,57 | R | |
48 | 64,290 | 55,416 | 8,874 | 2,14 | R | |
52 | 61,900 | 53,369 | 8,531 | 2,06 | R | |
54 | 50,000 | 41,598 | 8,402 | 2,03 | R | |
56 | 50,000 | 58,328 | -8,328 | -2,02 | R | |
58 | 38,100 | 46,485 | -8,385 | -2,03 | R | |
106 | 59,520 | 49,028 | 10,492 | 2,53 | R | |
114 | 59,520 | 47,160 | 12,360 | 2,99 | R | |
128 | 69,050 | 58,328 | 10,722 | 2,59 | R | |
144 | 50,000 | 40,471 | 9,529 | 2,30 | R | |
173 | 47,620 | 56,757 | -9,137 | -2,21 | R | |
174 | 42,860 | 34,000 | 8,860 | 2,14 | R | |
191 | 42,860 | 52,051 | -9,191 | -2,23 | R | |
198 | 59,520 | 48,411 | 11,109 | 2,68 | R | |
202 | 73,810 | 64,046 | 9,764 | 2,36 | R | |
205 | 47,620 | 37,559 | 10,061 | 2,43 | R | |
213 | 35,710 | 34,970 | 0,740 | 0,18 | X | |
217 | 16,670 | 19,053 | -2,383 | -0,58 | X | |
239 | 47,620 | 58,328 | -10,708 | -2,59 | R | |
241 | 71,430 | 66,311 | 5,119 | 1,25 | X | |
243 | 14,290 | 24,088 | -9,798 | -2,36 | R | |
304 | 50,000 | 41,130 | 8,870 | 2,14 | R | |
307 | 14,290 | 10,920 | 3,370 | 0,83 | X | |
352 | 64,290 | 51,254 | 13,036 | 3,15 | R | |
369 | 38,100 | 49,275 | -11,175 | -2,70 | R | |
391 | 16,670 | 32,073 | -15,403 | -3,72 | R | |
392 | 0,000 | 11,395 | -11,395 | -2,75 | R | |
395 | 0,000 | 13,934 | -13,934 | -3,36 | R | |
424 | 40,480 | 52,504 | -12,024 | -2,90 | R | |
425 | 47,620 | 34,597 | 13,023 | 3,16 | R | |
474 | 47,620 | 38,538 | 9,082 | 2,21 | R | |
479 | 40,480 | 30,896 | 9,584 | 2,31 | R | |
489 | 16,670 | 25,023 | -8,353 | -2,02 | R | |
491 | 30,950 | 24,348 | 6,602 | 1,61 | X | |
493 | 57,140 | 44,339 | 12,801 | 3,09 | R | |
495 | 35,710 | 25,480 | 10,230 | 2,47 | R | |
509 | 38,100 | 26,696 | 11,404 | 2,77 | R | |
520 | 73,810 | 58,328 | 15,482 | 3,75 | R | |
537 | 38,100 | 28,358 | 9,742 | 2,35 | R | |
550 | 14,290 | 24,458 | -10,168 | -2,45 | R | |
583 | 42,860 | 53,369 | -10,509 | -2,54 | R | |
694 | 19,050 | 21,817 | -2,767 | -0,68 | X | |
720 | 59,520 | 65,602 | -6,082 | -1,49 | X | |
722 | 40,480 | 32,066 | 8,414 | 2,03 | R | |
802 | 30,950 | 42,586 | -11,636 | -2,81 | R | |
805 | 30,950 | 39,868 | -8,918 | -2,16 | R | |
814 | 40,480 | 32,073 | 8,407 | 2,03 | R | |
823 | 61,900 | 48,148 | 13,752 | 3,33 | R | |
833 | 33,330 | 44,054 | -10,724 | -2,60 | R | |
859 | 38,100 | 49,275 | -11,175 | -2,70 | R | |
868 | 47,620 | 37,789 | 9,831 | 2,38 | R | |
891 | 30,950 | 19,945 | 11,005 | 2,66 | R | |
893 | 28,570 | 48,860 | -20,290 | -4,92 | R | |
905 | 45,240 | 55,416 | -10,176 | -2,46 | R | |
924 | 54,760 | 56,019 | -1,259 | -0,31 | X | |
977 | 64,290 | 53,107 | 11,183 | 2,72 | R | |
983 | 57,140 | 47,683 | 9,457 | 2,29 | R | |
988 | 50,000 | 44,501 | 5,499 | 1,34 | X | |
993 | 73,810 | 64,046 | 9,764 | 2,36 | R | |
997 | 33,330 | 24,458 | 8,872 | 2,14 | R | |
1003 | 54,760 | 45,128 | 9,632 | 2,33 | R | |
1025 | 33,330 | 47,705 | -14,375 | -3,49 | R | |
1059 | 57,140 | 48,663 | 8,477 | 2,05 | R | |
1105 | 47,620 | 37,319 | 10,301 | 2,49 | R | |
1150 | 59,520 | 44,339 | 15,181 | 3,67 | R | |
1160 | 52,380 | 40,051 | 12,329 | 2,97 | R | |
1163 | 30,950 | 41,598 | -10,648 | -2,57 | R | |
1165 | 69,050 | 56,757 | 12,293 | 2,97 | R | |
1169 | 59,520 | 49,275 | 10,245 | 2,48 | R | |
1198 | 42,860 | 51,516 | -8,656 | -2,09 | R | |
1207 | 76,190 | 63,534 | 12,656 | 3,07 | R | |
1213 | 26,190 | 40,278 | -14,088 | -3,41 | R | |
1228 | 40,480 | 50,571 | -10,091 | -2,45 | R | |
1235 | 59,520 | 50,175 | 9,345 | 2,26 | R | |
1237 | 57,140 | 48,239 | 8,901 | 2,15 | R | |
1246 | 64,290 | 55,416 | 8,874 | 2,14 | R | |
1262 | 45,240 | 35,957 | 9,283 | 2,24 | R | |
1263 | 57,140 | 43,951 | 13,189 | 3,18 | R | |
1282 | 33,330 | 36,011 | -2,681 | -0,65 | X | |
1284 | 45,240 | 56,564 | -11,324 | -2,74 | R | |
1285 | 47,620 | 60,657 | -13,037 | -3,15 | R | |
1303 | 26,190 | 36,567 | -10,377 | -2,51 | R | |
1305 | 35,710 | 45,499 | -9,789 | -2,36 | R | |
1311 | 30,950 | 40,089 | -9,139 | -2,21 | R | |
1345 | 26,190 | 25,105 | 1,085 | 0,26 | X | |
1353 | 42,860 | 53,175 | -10,315 | -2,49 | R | |
1365 | 26,190 | 17,834 | 8,356 | 2,01 | R | |
1377 | 47,620 | 35,222 | 12,398 | 3,00 | R | |
1380 | 69,050 | 55,416 | 13,634 | 3,29 | R | |
1384 | 50,000 | 38,496 | 11,504 | 2,78 | R | |
1414 | 26,190 | 35,345 | -9,155 | -2,21 | R | |
1502 | 61,900 | 50,195 | 11,705 | 2,84 | R | |
1526 | 38,100 | 25,450 | 12,650 | 3,05 | R | |
1535 | 14,290 | 24,088 | -9,798 | -2,36 | R | |
1544 | 38,100 | 29,165 | 8,935 | 2,16 | R | |
1548 | 50,000 | 40,455 | 9,545 | 2,31 | R | |
1565 | 38,100 | 42,846 | -4,746 | -1,16 | X | |
1582 | 66,670 | 55,437 | 11,233 | 2,72 | R |
Les chercheurs décident d’examiner les résultats pour trouver le meilleur modèle TreeNet®.
Cette analyse fait pousser 300 arbres et le nombre optimal d’arbres est de 63. Le modèle utilise un taux d’apprentissage de 0,1 et une fraction de sous-échantillon de 0,7. Le nombre maximal de nœuds terminaux est de 6.
Fonction de perte | Erreur quadratique |
---|---|
Critères de sélection du nombre d'arbres optimal | R carré maximum |
Validation de modèle | Validation croisée pour 5 ensemble(s) |
Taux d'apprentissage | 0,1 |
Fraction de sous-échantillon | 0,7 |
Nombre maximal de nœuds terminaux par arbre | 6 |
Taille minimale du nœud terminal | 3 |
Nombre de prédicteurs sélectionnés pour la partition des nœuds | Nombre total de prédicteurs = 8 |
Lignes utilisées | 1546 |
Lignes non utilisées | 70 |
Moyenne | EcTyp | Minimum | Q1 | Médiane | Q3 | Maximum |
---|---|---|---|---|---|---|
31,0110 | 14,0820 | 0 | 19,05 | 30,95 | 40,48 | 76,19 |
Nombre total de prédicteurs | 8 |
---|---|
Prédicteurs importants | 8 |
Nombre d'arbres développés | 300 |
Nombre optimal d'arbres | 63 |
Statistiques | Apprentissage | Test |
---|---|---|
R carré | 91,93% | 90,90% |
Racine de l'erreur quadratique moyenne (RMSE) | 3,9992 | 4,2471 |
Erreur quadratique moyenne (MSE) | 15,9932 | 18,0375 |
Ecart absolu moyen (MAD) | 2,9943 | 3,1613 |
Pourcentage d'erreur absolue moyen (MAPE) | 0,1088 | 0,1130 |
Le tableau récapitulatif du modèle montre que la valeur R2 lorsque le nombre d’arbres est de 63 est d’environ 92 % pour les données d’entraînement et d’environ 91 % pour les données de test.