Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.
Les chercheurs d’un système de santé recueillent des données auprès de leurs cliniques médicales régionales. En particulier, l’équipe de recherche s’intéresse aux données provenant des examens initiaux des patients malades effectués par les médecins. À la fin des examens initiaux, les médecins attribuent à chaque patient un score pour la gravité de leur maladie. Les chercheurs veulent développer un court questionnaire pour aider à prioriser les patients les plus malades avant l’examen par un médecin. Après avoir consulté des experts en la matière et exploré les données initialement, l’équipe sélectionne 8 variables pour prédire le score de gravité. Les chercheurs veulent déterminer le meilleur type de modèle pour prédire le score de gravité avant d’affiner davantage le modèle.
Les chercheurs utilisent Découvrir le meilleur modèle (réponse continue) pour comparer les performances prédictives de 5 types de modèles : la régression multiple, TreeNet®, Random Forests® CART® et MARS®. L’équipe prévoit d’explorer davantage le type de modèle offrant les meilleures performances prédictives.
Le tableau Sélection du modèle compare les performances des types de modèles. Le modèle de régression multiple a la valeur maximale de R2. Les résultats qui suivent concernent le meilleur modèle de régression multiple.
Pour déterminer si l'association entre la réponse et chacun des termes du modèle est statistiquement significative, comparez la valeur de p du terme à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle est qu'il n'existe aucune association entre le terme et la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5% de conclure à tort qu'il existe une association. Dans ces résultats, deux des termes d’interaction ont des valeurs p supérieures à 0,05 : Essoufflement sévère*Maux de tête sévères et Maux de tête sévères*Troubles graves du sommeil . Lorsque les chercheurs exploreront d’autres modèles de régression multiple, ils utiliseront des mesures de performance du modèle et des graphiques résiduels pour explorer les effets de l’inclusion de ces termes dans le modèle.
Le tableau récapitulatif du modèle montre que la formation R2 et l’essai R2 sont tous deux d’environ 91%. L’erreur quadratique moyenne de la racine de test (RMSE), qui représente la distance entre les valeurs de données et les valeurs ajustées, est d’environ 4. Parce que le RMSE est petit sur l’échelle du score de la maladie, les chercheurs sont optimistes qu’un petit nombre de questions est une information suffisante pour aider à prioriser les patients.
Le tableau des ajustements et diagnostics pour les informations inhabituelles montre les points de données qui ne suivent pas bien l’équation de régression proposée. Ce sont les ajustements et les diagnostics de l’ensemble complet de données.
La lettre R indique un point avec un grand résidu. Examinez les points de données aberrants pour voir les valeurs de prédiction pour lesquelles le modèle est susceptible de ne pas être adapté. La lettre X indique un point avec un effet de levier élevé. Les points à fort effet de levier ont des combinaisons de prédicteurs inhabituelles par rapport au reste de l’ensemble de données.
Les résidus importants et les points de levier élevés sont des points potentiellement influents. Par exemple, un coefficient pourra être statistiquement significatif ou non selon qu'un point influent est inclus ou exclus. En cas d'observation influente, déterminez si elle est due à une erreur d'entrée de données ou de mesure. Si l’observation n’est pas une erreur, déterminez dans quelle mesure l’observation influence les résultats. Lorsque les chercheurs exploreront davantage le modèle, ils adapteront le modèle avec et sans les observations. Ensuite, ils compareront les coefficients, les valeurs p, R2et d’autres informations du modèle. Si le modèle change de manière significative lorsque vous supprimez l'observation influente, examinez le modèle plus en détail pour déterminer si vous avez spécifié le modèle de façon incorrecte. Vous pouvez être amené à rassembler davantage de données pour résoudre le problème.
Le nuage de points entre les scores de maladie ajustés et les scores de maladie réels montre la relation entre les valeurs ajustées et réelles pour les données d’entraînement et de test. Les points se situent approximativement près de la ligne de référence y=x, ce qui indique que le modèle correspond bien aux données.
Ajustez un modèle de régression avec des termes linéaires et des termes d'ordre 2. |
---|
Ajustez 6 modèle(s) de régression TreeNet® en utilisant la fonction de perte quadratique. |
Ajustez 3 modèle(s) de régression Random Forests® avec un effectif d'échantillon bootstrap identique à la taille des données d'apprentissage de 1546. |
Ajuster un modèle de régression CART® optimal. |
Ajuster un modèle de régression MARS® optimal. |
Sélectionnez le modèle avec un R carré maximal d'après la validation croisée sur 5 partitions. |
Nombre total de lignes : 1546 |
Lignes utilisées pour le modèle de régression : 1546 |
Lignes utilisées pour les modèles basés sur des arbres : 1546 |
Moyenne | EcTyp | Minimum | Q1 | Médiane | Q3 | Maximum |
---|---|---|---|---|---|---|
31,0110 | 14,0820 | 0 | 19,05 | 30,95 | 40,48 | 76,19 |
Meilleur modèle pour le type | R carré (%) | Écart absolu moyen |
---|---|---|
Régression multiple* | 91,23 | 3,1011 |
MARS® | 91,05 | 3,1604 |
TreeNet® | 90,90 | 3,1613 |
Random Forests® | 89,93 | 3,3248 |
CART® | 86,11 | 3,9369 |
Score de gravité de la maladie | = | 1,241 + 2,5386 Nombre de symptômes maintenant + 0,0 Haute production de mucosités_0 + 3,900 Haute production de mucosités_1 + 0,0 Essoufflement sévère_0 + 0,94 Essoufflement sévère_1 + 0,0 Maux de tête sévères_0 + 4,094 Maux de tête sévères_1 + 0,0 Troubles graves du sommeil_0 + 3,884 Troubles graves du sommeil_1 + 0,0 Se sentir généralement très mal_0 + 3,473 Se sentir généralement très mal_1 + 0,0 Limites aux activités normales_0 + 3,140 Limites aux activités normales_1 + 0,0 Nombre de symptômes maintenant*Essoufflement sévère_0 + 0,373 Nombre de symptômes maintenant*Essoufflement sévère_ 1 + 0,0 Nombre de symptômes maintenant*Douleur thoracique sévè re_0 + 0,4765 Nombre de symptômes maintenant*Douleur thoracique s évère_1 + 0,0 Essoufflement sévère*Troubles graves du sommeil_0 0 + 0,0 Essoufflement sévère*Troubles graves du sommeil_0 1 + 0,0 Essoufflement sévère*Troubles graves du sommeil_1 0 + 1,337 Essoufflement sévère*Troubles graves du sommeil_1 1 + 0,0 Se sentir généralement très mal*Limites aux activités normales_0 0 + 0,0 Se sentir généralement très mal*Limites aux activités normales_0 1 + 0,0 Se sentir généralement très mal*Limites aux activités normales_1 0 + 1,372 Se sentir généralement très mal*Limites aux activité s normales_1 1 |
---|
Terme | Coeff | Coef ErT | Valeur de T |
---|---|---|---|
Constante | 1,241 | 0,385 | 3,22 |
Nombre de symptômes maintenant | 2,5386 | 0,0593 | 42,81 |
Haute production de mucosités | |||
1 | 3,900 | 0,225 | 17,35 |
Essoufflement sévère | |||
1 | 0,94 | 1,18 | 0,80 |
Maux de tête sévères | |||
1 | 4,094 | 0,253 | 16,18 |
Troubles graves du sommeil | |||
1 | 3,884 | 0,284 | 13,69 |
Se sentir généralement très mal | |||
1 | 3,473 | 0,343 | 10,14 |
Limites aux activités normales | |||
1 | 3,140 | 0,424 | 7,40 |
Nombre de symptômes maintenant*Essoufflement sévère | |||
1 | 0,373 | 0,133 | 2,81 |
Nombre de symptômes maintenant*Douleur thoracique sévère | |||
1 | 0,4765 | 0,0312 | 15,26 |
Essoufflement sévère*Troubles graves du sommeil | |||
1 1 | 1,337 | 0,528 | 2,53 |
Se sentir généralement très mal*Limites aux activités normales | |||
1 1 | 1,372 | 0,527 | 2,61 |
Terme | Valeur de p | FIV |
---|---|---|
Constante | 0,001 | |
Nombre de symptômes maintenant | 0,000 | 1,95 |
Haute production de mucosités | ||
1 | 0,000 | 1,10 |
Essoufflement sévère | ||
1 | 0,424 | 23,23 |
Maux de tête sévères | ||
1 | 0,000 | 1,25 |
Troubles graves du sommeil | ||
1 | 0,000 | 1,73 |
Se sentir généralement très mal | ||
1 | 0,000 | 2,62 |
Limites aux activités normales | ||
1 | 0,000 | 3,98 |
Nombre de symptômes maintenant*Essoufflement sévère | ||
1 | 0,005 | 26,80 |
Nombre de symptômes maintenant*Douleur thoracique sévère | ||
1 | 0,000 | 1,25 |
Essoufflement sévère*Troubles graves du sommeil | ||
1 1 | 0,011 | 3,26 |
Se sentir généralement très mal*Limites aux activités normales | ||
1 1 | 0,009 | 5,73 |
Statistiques | Apprentissage | Test |
---|---|---|
R carré | 91,35% | 91,23% |
Racine de l'erreur quadratique moyenne (RMSE) | 4,1562 | 4,1679 |
Erreur quadratique moyenne (MSE) | 17,2741 | 17,3714 |
Ecart absolu moyen (MAD) | 3,0798 | 3,1011 |
R carré (ajus) | 91,29% | |
R carré (prév) | 91,19% |
Source | DL | SomCar ajust |
---|---|---|
Régression | 11 | 279881 |
Nombre de symptômes maintenant | 1 | 31655 |
Haute production de mucosités | 1 | 5202 |
Essoufflement sévère | 1 | 11 |
Maux de tête sévères | 1 | 4520 |
Troubles graves du sommeil | 1 | 3239 |
Se sentir généralement très mal | 1 | 1776 |
Limites aux activités normales | 1 | 945 |
Nombre de symptômes maintenant*Essoufflement sévère | 1 | 136 |
Nombre de symptômes maintenant*Douleur thoracique sévère | 1 | 4023 |
Essoufflement sévère*Troubles graves du sommeil | 1 | 111 |
Se sentir généralement très mal*Limites aux activités normales | 1 | 117 |
Erreur | 1534 | 26498 |
Inadéquation de l'ajustement | 484 | 9247 |
Erreur pure | 1050 | 17251 |
Total | 1545 | 306379 |
Source | CM ajust | Valeur F |
---|---|---|
Régression | 25443,7 | 1472,94 |
Nombre de symptômes maintenant | 31654,8 | 1832,51 |
Haute production de mucosités | 5201,8 | 301,14 |
Essoufflement sévère | 11,1 | 0,64 |
Maux de tête sévères | 4520,0 | 261,66 |
Troubles graves du sommeil | 3238,8 | 187,50 |
Se sentir généralement très mal | 1775,6 | 102,79 |
Limites aux activités normales | 945,4 | 54,73 |
Nombre de symptômes maintenant*Essoufflement sévère | 136,4 | 7,90 |
Nombre de symptômes maintenant*Douleur thoracique sévère | 4023,4 | 232,92 |
Essoufflement sévère*Troubles graves du sommeil | 110,7 | 6,41 |
Se sentir généralement très mal*Limites aux activités normales | 117,3 | 6,79 |
Erreur | 17,3 | |
Inadéquation de l'ajustement | 19,1 | 1,16 |
Erreur pure | 16,4 | |
Total |
Source | Valeur de p |
---|---|
Régression | 0,000 |
Nombre de symptômes maintenant | 0,000 |
Haute production de mucosités | 0,000 |
Essoufflement sévère | 0,424 |
Maux de tête sévères | 0,000 |
Troubles graves du sommeil | 0,000 |
Se sentir généralement très mal | 0,000 |
Limites aux activités normales | 0,000 |
Nombre de symptômes maintenant*Essoufflement sévère | 0,005 |
Nombre de symptômes maintenant*Douleur thoracique sévère | 0,000 |
Essoufflement sévère*Troubles graves du sommeil | 0,011 |
Se sentir généralement très mal*Limites aux activités normales | 0,009 |
Erreur | |
Inadéquation de l'ajustement | 0,025 |
Erreur pure | |
Total |
Observation | Score de gravité de la maladie | Valeur ajustée | Résiduelle | Val. résid. norm. | ||
---|---|---|---|---|---|---|
11 | 66,670 | 56,757 | 9,913 | 2,40 | R | |
13 | 52,380 | 41,177 | 11,203 | 2,71 | R | |
16 | 59,520 | 48,604 | 10,916 | 2,64 | R | |
33 | 50,000 | 60,657 | -10,657 | -2,57 | R | |
48 | 64,290 | 55,416 | 8,874 | 2,14 | R | |
52 | 61,900 | 53,369 | 8,531 | 2,06 | R | |
54 | 50,000 | 41,598 | 8,402 | 2,03 | R | |
56 | 50,000 | 58,328 | -8,328 | -2,02 | R | |
58 | 38,100 | 46,485 | -8,385 | -2,03 | R | |
106 | 59,520 | 49,028 | 10,492 | 2,53 | R | |
114 | 59,520 | 47,160 | 12,360 | 2,99 | R | |
128 | 69,050 | 58,328 | 10,722 | 2,59 | R | |
144 | 50,000 | 40,471 | 9,529 | 2,30 | R | |
173 | 47,620 | 56,757 | -9,137 | -2,21 | R | |
174 | 42,860 | 34,000 | 8,860 | 2,14 | R | |
191 | 42,860 | 52,051 | -9,191 | -2,23 | R | |
198 | 59,520 | 48,411 | 11,109 | 2,68 | R | |
202 | 73,810 | 64,046 | 9,764 | 2,36 | R | |
205 | 47,620 | 37,559 | 10,061 | 2,43 | R | |
213 | 35,710 | 34,970 | 0,740 | 0,18 | X | |
217 | 16,670 | 19,053 | -2,383 | -0,58 | X | |
239 | 47,620 | 58,328 | -10,708 | -2,59 | R | |
241 | 71,430 | 66,311 | 5,119 | 1,25 | X | |
243 | 14,290 | 24,088 | -9,798 | -2,36 | R | |
304 | 50,000 | 41,130 | 8,870 | 2,14 | R | |
307 | 14,290 | 10,920 | 3,370 | 0,83 | X | |
352 | 64,290 | 51,254 | 13,036 | 3,15 | R | |
369 | 38,100 | 49,275 | -11,175 | -2,70 | R | |
391 | 16,670 | 32,073 | -15,403 | -3,72 | R | |
392 | 0,000 | 11,395 | -11,395 | -2,75 | R | |
395 | 0,000 | 13,934 | -13,934 | -3,36 | R | |
424 | 40,480 | 52,504 | -12,024 | -2,90 | R | |
425 | 47,620 | 34,597 | 13,023 | 3,16 | R | |
474 | 47,620 | 38,538 | 9,082 | 2,21 | R | |
479 | 40,480 | 30,896 | 9,584 | 2,31 | R | |
489 | 16,670 | 25,023 | -8,353 | -2,02 | R | |
491 | 30,950 | 24,348 | 6,602 | 1,61 | X | |
493 | 57,140 | 44,339 | 12,801 | 3,09 | R | |
495 | 35,710 | 25,480 | 10,230 | 2,47 | R | |
509 | 38,100 | 26,696 | 11,404 | 2,77 | R | |
520 | 73,810 | 58,328 | 15,482 | 3,75 | R | |
537 | 38,100 | 28,358 | 9,742 | 2,35 | R | |
550 | 14,290 | 24,458 | -10,168 | -2,45 | R | |
583 | 42,860 | 53,369 | -10,509 | -2,54 | R | |
694 | 19,050 | 21,817 | -2,767 | -0,68 | X | |
720 | 59,520 | 65,602 | -6,082 | -1,49 | X | |
722 | 40,480 | 32,066 | 8,414 | 2,03 | R | |
802 | 30,950 | 42,586 | -11,636 | -2,81 | R | |
805 | 30,950 | 39,868 | -8,918 | -2,16 | R | |
814 | 40,480 | 32,073 | 8,407 | 2,03 | R | |
823 | 61,900 | 48,148 | 13,752 | 3,33 | R | |
833 | 33,330 | 44,054 | -10,724 | -2,60 | R | |
859 | 38,100 | 49,275 | -11,175 | -2,70 | R | |
868 | 47,620 | 37,789 | 9,831 | 2,38 | R | |
891 | 30,950 | 19,945 | 11,005 | 2,66 | R | |
893 | 28,570 | 48,860 | -20,290 | -4,92 | R | |
905 | 45,240 | 55,416 | -10,176 | -2,46 | R | |
924 | 54,760 | 56,019 | -1,259 | -0,31 | X | |
977 | 64,290 | 53,107 | 11,183 | 2,72 | R | |
983 | 57,140 | 47,683 | 9,457 | 2,29 | R | |
988 | 50,000 | 44,501 | 5,499 | 1,34 | X | |
993 | 73,810 | 64,046 | 9,764 | 2,36 | R | |
997 | 33,330 | 24,458 | 8,872 | 2,14 | R | |
1003 | 54,760 | 45,128 | 9,632 | 2,33 | R | |
1025 | 33,330 | 47,705 | -14,375 | -3,49 | R | |
1059 | 57,140 | 48,663 | 8,477 | 2,05 | R | |
1105 | 47,620 | 37,319 | 10,301 | 2,49 | R | |
1150 | 59,520 | 44,339 | 15,181 | 3,67 | R | |
1160 | 52,380 | 40,051 | 12,329 | 2,97 | R | |
1163 | 30,950 | 41,598 | -10,648 | -2,57 | R | |
1165 | 69,050 | 56,757 | 12,293 | 2,97 | R | |
1169 | 59,520 | 49,275 | 10,245 | 2,48 | R | |
1198 | 42,860 | 51,516 | -8,656 | -2,09 | R | |
1207 | 76,190 | 63,534 | 12,656 | 3,07 | R | |
1213 | 26,190 | 40,278 | -14,088 | -3,41 | R | |
1228 | 40,480 | 50,571 | -10,091 | -2,45 | R | |
1235 | 59,520 | 50,175 | 9,345 | 2,26 | R | |
1237 | 57,140 | 48,239 | 8,901 | 2,15 | R | |
1246 | 64,290 | 55,416 | 8,874 | 2,14 | R | |
1262 | 45,240 | 35,957 | 9,283 | 2,24 | R | |
1263 | 57,140 | 43,951 | 13,189 | 3,18 | R | |
1282 | 33,330 | 36,011 | -2,681 | -0,65 | X | |
1284 | 45,240 | 56,564 | -11,324 | -2,74 | R | |
1285 | 47,620 | 60,657 | -13,037 | -3,15 | R | |
1303 | 26,190 | 36,567 | -10,377 | -2,51 | R | |
1305 | 35,710 | 45,499 | -9,789 | -2,36 | R | |
1311 | 30,950 | 40,089 | -9,139 | -2,21 | R | |
1345 | 26,190 | 25,105 | 1,085 | 0,26 | X | |
1353 | 42,860 | 53,175 | -10,315 | -2,49 | R | |
1365 | 26,190 | 17,834 | 8,356 | 2,01 | R | |
1377 | 47,620 | 35,222 | 12,398 | 3,00 | R | |
1380 | 69,050 | 55,416 | 13,634 | 3,29 | R | |
1384 | 50,000 | 38,496 | 11,504 | 2,78 | R | |
1414 | 26,190 | 35,345 | -9,155 | -2,21 | R | |
1502 | 61,900 | 50,195 | 11,705 | 2,84 | R | |
1526 | 38,100 | 25,450 | 12,650 | 3,05 | R | |
1535 | 14,290 | 24,088 | -9,798 | -2,36 | R | |
1544 | 38,100 | 29,165 | 8,935 | 2,16 | R | |
1548 | 50,000 | 40,455 | 9,545 | 2,31 | R | |
1565 | 38,100 | 42,846 | -4,746 | -1,16 | X | |
1582 | 66,670 | 55,437 | 11,233 | 2,72 | R |
Les chercheurs décident d’examiner les résultats pour le meilleur modèle TreeNet® .
Cette analyse fait pousser 300 arbres et le nombre optimal d’arbres est de 63. Le modèle utilise un taux d’apprentissage de 0,1 et une fraction de sous-échantillon de 0,7. Le nombre maximal de nœuds terminaux est de 6.
Fonction de perte | Erreur quadratique |
---|---|
Critères de sélection du nombre d'arbres optimal | R carré maximum |
Validation de modèle | Validation croisée pour 5 ensemble(s) |
Taux d'apprentissage | 0,1 |
Fraction de sous-échantillon | 0,7 |
Nombre maximal de nœuds terminaux par arbre | 6 |
Taille minimale du nœud terminal | 3 |
Nombre de prédicteurs sélectionnés pour la partition des nœuds | Nombre total de prédicteurs = 8 |
Lignes utilisées | 1546 |
Lignes non utilisées | 70 |
Moyenne | EcTyp | Minimum | Q1 | Médiane | Q3 | Maximum |
---|---|---|---|---|---|---|
31,0110 | 14,0820 | 0 | 19,05 | 30,95 | 40,48 | 76,19 |
Nombre total de prédicteurs | 8 |
---|---|
Prédicteurs importants | 8 |
Nombre d'arbres développés | 300 |
Nombre optimal d'arbres | 63 |
Statistiques | Apprentissage | Test |
---|---|---|
R carré | 91,93% | 90,90% |
Racine de l'erreur quadratique moyenne (RMSE) | 3,9992 | 4,2471 |
Erreur quadratique moyenne (MSE) | 15,9932 | 18,0375 |
Ecart absolu moyen (MAD) | 2,9943 | 3,1613 |
Pourcentage d'erreur absolue moyen (MAPE) | 0,1088 | 0,1130 |
Le tableau récapitulatif du modèle montre que la valeur R2 lorsque le nombre d’arbres est de 63 est d’environ 92 % pour les données d’apprentissage et d’environ 91 % pour les données de test.