Exemple de Découvrir le meilleur modèle (réponse continue)

Remarque

Cette commande est disponible avec la commande Module d'analyse prédictive. Cliquez ici pour plus d’informations sur la façon d’activer le module.

Recherche du meilleur type de modèle

Les chercheurs d’un système de santé collectent des données auprès de leurs cliniques médicales régionales. L’équipe de recherche s’intéresse en particulier aux données issues des premiers examens médicaux de patients malades. À l’issue des premiers examens, les médecins attribuent à chaque patient une note en fonction de la gravité de sa maladie. Les chercheurs veulent développer un court questionnaire pour aider à prioriser les patients les plus malades avant l’examen par un médecin. En consultant des experts en la matière et en explorant initialement les données, l’équipe sélectionne 8 variables pour prédire le score de gravité. Les chercheurs veulent déterminer le meilleur type de modèle pour prédire le score de gravité avant d’affiner davantage le modèle.

Les chercheurs comparent Découvrir le meilleur modèle (réponse continue) les performances prédictives de 5 types de modèles : la régression multiple, TreeNet®, Random Forests®, CART® et MARS®. L’équipe prévoit d’explorer davantage le type de modèle offrant les meilleures performances prédictives.

  1. Ouvrez les données d’échantillonnage, Maladie.mtw.
  2. Choisissez Module d'analyse prédictive > Auto-apprentissage par la machine automatisé > Découvrir le meilleur modèle (réponse continue).
  3. Dans Réponse, entrez 'Score de gravité de la maladie'.
  4. Dans Prédicteurs continus, entrez 'Nombre de symptômes maintenant'.
  5. Dans Prédicteurs de catégorie, entrez 'Haute production de mucosités'-'Limites aux activités normales'.
  6. Cliquez sur OK.

Interpréter les résultats

Le tableau Sélection de modèle compare les performances des types de modèles. Le modèle de régression multiple a la valeur maximale de R2. Les résultats qui suivent concernent le meilleur modèle de régression multiple.

Pour déterminer si l’association entre la réponse et chaque terme du modèle est statistiquement significative, comparez la valeur p du terme à votre niveau de signification pour évaluer l’hypothèse nulle. L’hypothèse nulle est qu’il n’y a pas d’association entre le terme et la réponse. Habituellement, un niveau de signification (noté α ou alpha) de 0,05 fonctionne bien. Un niveau de signification de 0,05 indique un risque de 5 % de conclure à l’existence d’une association lorsqu’il n’y a pas d’association réelle. Dans ces résultats, deux des termes d’interaction ont des valeurs p supérieures à 0,05 : Essoufflement sévère*Maux de tête sévères et Maux de tête sévères*Troubles graves du sommeil. Lorsque les chercheurs exploreront d’autres modèles de régression multiple, ils utiliseront des mesures de performance du modèle et des graphiques résiduels pour explorer les effets de l’inclusion de ces termes dans le modèle.

Le tableau récapitulatif du modèle montre que l’entraînement R2 et le test R2 sont tous deux d’environ 91 %. La racine de test de l’erreur quadratique moyenne (EQM), qui représente l’écart entre les valeurs de données et les valeurs ajustées, est d’environ 4. Étant donné que le RMSE est petit sur l’échelle du score de maladie, les chercheurs sont optimistes qu’un petit nombre de questions constitue une information suffisante pour aider à prioriser les patients.

Le tableau des ajustements et des diagnostics pour les informations inhabituelles montre les points de données qui ne suivent pas bien l’équation de régression proposée. Il s’agit des ajustements et des diagnostics à partir de l’ensemble complet des données.

La lettre R indique un point avec un grand résidu. Examinez les points de données inhabituels pour voir les valeurs de prédiction où le modèle pourrait ne pas bien s’adapter. La lettre X indique un point avec un effet de levier élevé. Les points avec un effet de levier élevé ont des combinaisons de prédicteurs inhabituelles par rapport au reste de l’ensemble de données.

Des résidus importants et des points d’endettement élevés sont des points potentiellement influents. Par exemple, l’inclusion ou l’exclusion d’un point influent peut modifier le caractère statistiquement significatif ou non d’un coefficient. Si vous voyez une observation influente, déterminez s’il s’agit d’une erreur de saisie de données ou d’une erreur de mesure. Si l’observation n’est pas une erreur, déterminez dans quelle mesure l’observation influence les résultats. Lorsque les chercheurs exploreront davantage le modèle, ils l’ajusteront avec et sans les observations. Ensuite, ils compareront les coefficients, les valeurs p, R2 et d’autres informations du modèle. Si le modèle change considérablement lorsque vous supprimez l’observation influente, examinez-le plus en détail pour déterminer si vous l’avez spécifié de manière incorrecte. Vous devrez peut-être collecter plus de données pour résoudre le problème.

Le nuage de points des scores de maladie ajustés par rapport aux scores de maladie réels montre la relation entre les valeurs ajustées et réelles pour les données d’entraînement et de test. Les points se trouvent approximativement près de la ligne de référence y=x, ce qui indique que le modèle s’ajuste bien aux données.

Méthode

Ajustez un modèle de régression avec des termes linéaires et des termes d'ordre 2.
Ajustez 6 modèle(s) de régression TreeNet® en utilisant la fonction de perte quadratique.
Ajustez 3 modèle(s) de régression Random Forests® avec un effectif d'échantillon bootstrap identique à la taille des données d'apprentissage de 1546.
Ajuster un modèle de régression CART® optimal.
Ajuster un modèle de régression MARS® optimal.
Sélectionnez le modèle avec un R carré maximal d'après la validation croisée sur 5 partitions.
Nombre total de lignes : 1546
Lignes utilisées pour le modèle de régression : 1546
Lignes utilisées pour les modèles basés sur des arbres : 1546

Informations de réponse

MoyenneEcTypMinimumQ1MédianeQ3Maximum
31,011014,0820019,0530,9540,4876,19
Meilleur modèle pour
le type
R carré (%)Écart
absolu
moyen
Régression multiple*91,233,1011
MARS®91,053,1604
TreeNet®90,903,1613
Random Forests®89,933,3248
CART®86,113,9369
*Meilleur modèle avec un R carré maximal, pour tous les types de modèles. Suivi des résultats
     pour le meilleur modèle.

Sélection ascendante des termes avec validation pour le meilleur modèle de régression multiple

Termes sélectionnés : Nombre de symptômes maintenant; Haute production de mucosités;
     Essoufflement sévère; Maux de tête sévères; Troubles graves du sommeil; Se sentir
     généralement très mal; Limites aux activités normales; Nombre de symptômes
     maintenant*Essoufflement sévère; Nombre de symptômes maintenant*Douleur thoracique sévère;
     Essoufflement sévère*Troubles graves du sommeil; Se sentir généralement très mal*Limites aux
     activités normales
 

Equation de régression

Score de gravité de la maladie=1,241 + 2,5386 Nombre de symptômes maintenant
+ 0,0 Haute production de mucosités_0
+ 3,900 Haute production de mucosités_1
+ 0,0 Essoufflement sévère_0 + 0,94 Essoufflement sévère_1
+ 0,0 Maux de tête sévères_0 + 4,094 Maux de tête sévères_1
+ 0,0 Troubles graves du sommeil_0
+ 3,884 Troubles graves du sommeil_1
+ 0,0 Se sentir généralement très mal_0
+ 3,473 Se sentir généralement très mal_1
+ 0,0 Limites aux activités normales_0
+ 3,140 Limites aux activités normales_1
+ 0,0 Nombre de symptômes maintenant*Essoufflement sévère_0
+ 0,373 Nombre de symptômes maintenant*Essoufflement sévère_
1
+ 0,0 Nombre de symptômes maintenant*Douleur thoracique sévè
re_0
+ 0,4765 Nombre de symptômes maintenant*Douleur thoracique s
évère_1
+ 0,0 Essoufflement sévère*Troubles graves du sommeil_0 0
+ 0,0 Essoufflement sévère*Troubles graves du sommeil_0 1
+ 0,0 Essoufflement sévère*Troubles graves du sommeil_1 0
+ 1,337 Essoufflement sévère*Troubles graves du sommeil_1 1
+ 0,0 Se sentir généralement très mal*Limites aux activités
normales_0 0
+ 0,0 Se sentir généralement très mal*Limites aux activités
normales_0 1
+ 0,0 Se sentir généralement très mal*Limites aux activités
normales_1 0
+ 1,372 Se sentir généralement très mal*Limites aux activité
s normales_1 1

Coefficients

TermeCoeffCoef ErTValeur de T
Constante1,2410,3853,22
Nombre de symptômes maintenant2,53860,059342,81
Haute production de mucosités     
  13,9000,22517,35
Essoufflement sévère     
  10,941,180,80
Maux de tête sévères     
  14,0940,25316,18
Troubles graves du sommeil     
  13,8840,28413,69
Se sentir généralement très mal     
  13,4730,34310,14
Limites aux activités normales     
  13,1400,4247,40
Nombre de symptômes maintenant*Essoufflement sévère     
  10,3730,1332,81
Nombre de symptômes maintenant*Douleur thoracique sévère     
  10,47650,031215,26
Essoufflement sévère*Troubles graves du sommeil     
  1 11,3370,5282,53
Se sentir généralement très mal*Limites aux activités normales     
  1 11,3720,5272,61
TermeValeur de pFIV
Constante0,001 
Nombre de symptômes maintenant0,0001,95
Haute production de mucosités   
  10,0001,10
Essoufflement sévère   
  10,42423,23
Maux de tête sévères   
  10,0001,25
Troubles graves du sommeil   
  10,0001,73
Se sentir généralement très mal   
  10,0002,62
Limites aux activités normales   
  10,0003,98
Nombre de symptômes maintenant*Essoufflement sévère   
  10,00526,80
Nombre de symptômes maintenant*Douleur thoracique sévère   
  10,0001,25
Essoufflement sévère*Troubles graves du sommeil   
  1 10,0113,26
Se sentir généralement très mal*Limites aux activités normales   
  1 10,0095,73

Récapitulatif du modèle

StatistiquesApprentissageTest
R carré91,35%91,23%
Racine de l'erreur quadratique moyenne (RMSE)4,15624,1679
Erreur quadratique moyenne (MSE)17,274117,3714
Ecart absolu moyen (MAD)3,07983,1011
     
R carré (ajus)91,29% 
R carré (prév)  91,19%

Analyse de la variance

SourceDLSomCar ajust
Régression11279881
  Nombre de symptômes maintenant131655
  Haute production de mucosités15202
  Essoufflement sévère111
  Maux de tête sévères14520
  Troubles graves du sommeil13239
  Se sentir généralement très mal11776
  Limites aux activités normales1945
  Nombre de symptômes maintenant*Essoufflement sévère1136
  Nombre de symptômes maintenant*Douleur thoracique sévère14023
  Essoufflement sévère*Troubles graves du sommeil1111
  Se sentir généralement très mal*Limites aux activités normales1117
Erreur153426498
  Inadéquation de l'ajustement4849247
  Erreur pure105017251
Total1545306379
SourceCM ajustValeur F
Régression25443,71472,94
  Nombre de symptômes maintenant31654,81832,51
  Haute production de mucosités5201,8301,14
  Essoufflement sévère11,10,64
  Maux de tête sévères4520,0261,66
  Troubles graves du sommeil3238,8187,50
  Se sentir généralement très mal1775,6102,79
  Limites aux activités normales945,454,73
  Nombre de symptômes maintenant*Essoufflement sévère136,47,90
  Nombre de symptômes maintenant*Douleur thoracique sévère4023,4232,92
  Essoufflement sévère*Troubles graves du sommeil110,76,41
  Se sentir généralement très mal*Limites aux activités normales117,36,79
Erreur17,3 
  Inadéquation de l'ajustement19,11,16
  Erreur pure16,4 
Total   
SourceValeur de p
Régression0,000
  Nombre de symptômes maintenant0,000
  Haute production de mucosités0,000
  Essoufflement sévère0,424
  Maux de tête sévères0,000
  Troubles graves du sommeil0,000
  Se sentir généralement très mal0,000
  Limites aux activités normales0,000
  Nombre de symptômes maintenant*Essoufflement sévère0,005
  Nombre de symptômes maintenant*Douleur thoracique sévère0,000
  Essoufflement sévère*Troubles graves du sommeil0,011
  Se sentir généralement très mal*Limites aux activités normales0,009
Erreur 
  Inadéquation de l'ajustement0,025
  Erreur pure 
Total 

Ajustements et diagnostics pour les observations aberrantes

ObservationScore de
gravité de
la maladie
Valeur
ajustée
RésiduelleVal.
résid.
norm.
1166,67056,7579,9132,40R 
1352,38041,17711,2032,71R 
1659,52048,60410,9162,64R 
3350,00060,657-10,657-2,57R 
4864,29055,4168,8742,14R 
5261,90053,3698,5312,06R 
5450,00041,5988,4022,03R 
5650,00058,328-8,328-2,02R 
5838,10046,485-8,385-2,03R 
10659,52049,02810,4922,53R 
11459,52047,16012,3602,99R 
12869,05058,32810,7222,59R 
14450,00040,4719,5292,30R 
17347,62056,757-9,137-2,21R 
17442,86034,0008,8602,14R 
19142,86052,051-9,191-2,23R 
19859,52048,41111,1092,68R 
20273,81064,0469,7642,36R 
20547,62037,55910,0612,43R 
21335,71034,9700,7400,18  X
21716,67019,053-2,383-0,58  X
23947,62058,328-10,708-2,59R 
24171,43066,3115,1191,25  X
24314,29024,088-9,798-2,36R 
30450,00041,1308,8702,14R 
30714,29010,9203,3700,83  X
35264,29051,25413,0363,15R 
36938,10049,275-11,175-2,70R 
39116,67032,073-15,403-3,72R 
3920,00011,395-11,395-2,75R 
3950,00013,934-13,934-3,36R 
42440,48052,504-12,024-2,90R 
42547,62034,59713,0233,16R 
47447,62038,5389,0822,21R 
47940,48030,8969,5842,31R 
48916,67025,023-8,353-2,02R 
49130,95024,3486,6021,61  X
49357,14044,33912,8013,09R 
49535,71025,48010,2302,47R 
50938,10026,69611,4042,77R 
52073,81058,32815,4823,75R 
53738,10028,3589,7422,35R 
55014,29024,458-10,168-2,45R 
58342,86053,369-10,509-2,54R 
69419,05021,817-2,767-0,68  X
72059,52065,602-6,082-1,49  X
72240,48032,0668,4142,03R 
80230,95042,586-11,636-2,81R 
80530,95039,868-8,918-2,16R 
81440,48032,0738,4072,03R 
82361,90048,14813,7523,33R 
83333,33044,054-10,724-2,60R 
85938,10049,275-11,175-2,70R 
86847,62037,7899,8312,38R 
89130,95019,94511,0052,66R 
89328,57048,860-20,290-4,92R 
90545,24055,416-10,176-2,46R 
92454,76056,019-1,259-0,31  X
97764,29053,10711,1832,72R 
98357,14047,6839,4572,29R 
98850,00044,5015,4991,34  X
99373,81064,0469,7642,36R 
99733,33024,4588,8722,14R 
100354,76045,1289,6322,33R 
102533,33047,705-14,375-3,49R 
105957,14048,6638,4772,05R 
110547,62037,31910,3012,49R 
115059,52044,33915,1813,67R 
116052,38040,05112,3292,97R 
116330,95041,598-10,648-2,57R 
116569,05056,75712,2932,97R 
116959,52049,27510,2452,48R 
119842,86051,516-8,656-2,09R 
120776,19063,53412,6563,07R 
121326,19040,278-14,088-3,41R 
122840,48050,571-10,091-2,45R 
123559,52050,1759,3452,26R 
123757,14048,2398,9012,15R 
124664,29055,4168,8742,14R 
126245,24035,9579,2832,24R 
126357,14043,95113,1893,18R 
128233,33036,011-2,681-0,65  X
128445,24056,564-11,324-2,74R 
128547,62060,657-13,037-3,15R 
130326,19036,567-10,377-2,51R 
130535,71045,499-9,789-2,36R 
131130,95040,089-9,139-2,21R 
134526,19025,1051,0850,26  X
135342,86053,175-10,315-2,49R 
136526,19017,8348,3562,01R 
137747,62035,22212,3983,00R 
138069,05055,41613,6343,29R 
138450,00038,49611,5042,78R 
141426,19035,345-9,155-2,21R 
150261,90050,19511,7052,84R 
152638,10025,45012,6503,05R 
153514,29024,088-9,798-2,36R 
154438,10029,1658,9352,16R 
154850,00040,4559,5452,31R 
156538,10042,846-4,746-1,16  X
158266,67055,43711,2332,72R 
R : Valeur résiduelle élevée
X : Valeur de X aberrante

Sélectionnez un modèle alternatif

Les chercheurs décident d’examiner les résultats pour trouver le meilleur modèle TreeNet®.

  1. Dans les résultats de Découvrir le meilleur modèle (réponse continue), sélectionnez Sélectionner un autre modèle.
  2. Dans Type de modèle, sélectionnez TreeNet®.
  3. Dans Sélectionner un modèle existant, choisissez le sixième modèle, dont la meilleure valeur est R2.
  4. Cliquez sur Afficher les résultats.

Interpréter les résultats

Cette analyse fait pousser 300 arbres et le nombre optimal d’arbres est de 63. Le modèle utilise un taux d’apprentissage de 0,1 et une fraction de sous-échantillon de 0,7. Le nombre maximal de nœuds terminaux est de 6.

Méthode

Fonction de perteErreur quadratique
Critères de sélection du nombre d'arbres optimalR carré maximum
Validation de modèleValidation croisée pour 5 ensemble(s)
Taux d'apprentissage0,1
Fraction de sous-échantillon0,7
Nombre maximal de nœuds terminaux par arbre6
Taille minimale du nœud terminal3
Nombre de prédicteurs sélectionnés pour la partition des nœudsNombre total de prédicteurs = 8
Lignes utilisées1546
Lignes non utilisées70

Informations de réponse

MoyenneEcTypMinimumQ1MédianeQ3Maximum
31,011014,0820019,0530,9540,4876,19

Le graphique R carré en fonction du nombre d’arbres montre la courbe entière sur le nombre d’arbres cultivés. La valeur optimale des données de test est d’environ 91 % lorsque le nombre d’arbres est de 63.

Récapitulatif du modèle

Nombre total de prédicteurs8
Prédicteurs importants8
Nombre d'arbres développés300
Nombre optimal d'arbres63
StatistiquesApprentissageTest
R carré91,93%90,90%
Racine de l'erreur quadratique moyenne (RMSE)3,99924,2471
Erreur quadratique moyenne (MSE)15,993218,0375
Ecart absolu moyen (MAD)2,99433,1613
Pourcentage d'erreur absolue moyen (MAPE)0,10880,1130

Le tableau récapitulatif du modèle montre que la valeur R2 lorsque le nombre d’arbres est de 63 est d’environ 92 % pour les données d’entraînement et d’environ 91 % pour les données de test.

Le graphique Importance relative des variables trace les prédicteurs dans l’ordre de leur effet sur l’amélioration du modèle lorsque des divisions sont effectuées sur un prédicteur au cours de la séquence d’arbres. La variable prédictive la plus importante est Nombre de symptômes maintenant. Si la contribution de la variable prédictive principale, Nombre de symptômes maintenant, est de 100 %, la variable importante suivante, Limites aux activités normales, a une contribution de 44,4 %. Cela signifie Limites aux activités normales qu’il est 44,4 % aussi important que Nombre de symptômes maintenant dans ce modèle de régression.

Le nuage de points des scores de maladie ajustés par rapport aux scores de maladie réels montre la relation entre les valeurs ajustées et réelles pour les données d’entraînement et de test. Les points se trouvent approximativement près de la ligne de référence y=x, ce qui indique que le modèle s’ajuste bien aux données.

Utilisez les tracés de dépendances partielles pour obtenir des informations sur la façon dont les variables importantes ou les paires de variables affectent les valeurs de réponse ajustées. Les graphiques de dépendance partielle montrent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.

Le premier graphique illustre la relation entre les scores de la maladie et le nombre de symptômes que le patient présente actuellement. Vous pouvez survoler des points de données individuels pour voir les valeurs x et y spécifiques. Par exemple, le point le plus élevé sur le côté droit du graphique est lorsque le patient présente 13 symptômes et que le score de maladie ajusté est d’environ 45.

Le deuxième graphique illustre que le score de maladie ajusté augmente d’environ 5 points lorsque les patients signalent des limitations dans leurs activités normales.

Le troisième graphique illustre que le score de maladie ajusté augmente d’environ 5 points lorsque les patients déclarent se sentir généralement très mal.

Le quatrième graphique illustre l’augmentation du score de maladie ajusté d’environ 4 points lorsque les patients signalent un essoufflement sévère.

Le dernier graphique illustre comment le score de maladie ajusté pour un certain nombre de symptômes dépend du fait que le patient a également des limites à ses activités normales. Pour le même nombre de symptômes, les patients qui signalent également des limites à leurs activités normales ont des scores de maladie ajustés plus élevés.