Exemple de Découvrir le meilleur modèle (réponse continue)

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Rechercher le meilleur type de modèle

Les chercheurs d’un système de santé recueillent des données auprès de leurs cliniques médicales régionales. En particulier, l’équipe de recherche s’intéresse aux données provenant des examens initiaux des patients malades effectués par les médecins. À la fin des examens initiaux, les médecins attribuent à chaque patient un score pour la gravité de leur maladie. Les chercheurs veulent développer un court questionnaire pour aider à prioriser les patients les plus malades avant l’examen par un médecin. Après avoir consulté des experts en la matière et exploré les données initialement, l’équipe sélectionne 8 variables pour prédire le score de gravité. Les chercheurs veulent déterminer le meilleur type de modèle pour prédire le score de gravité avant d’affiner davantage le modèle.

Les chercheurs utilisent Découvrir le meilleur modèle (réponse continue) pour comparer les performances prédictives de 5 types de modèles : la régression multiple, TreeNet®, Random Forests® CART® et MARS®. L’équipe prévoit d’explorer davantage le type de modèle offrant les meilleures performances prédictives.

  1. Ouvrez les données échantillons, Maladie.mtw.
  2. Sélectionnez Module d'analyse prédictive > Auto-apprentissage par la machine automatisé > Découvrir le meilleur modèle (réponse continue).
  3. Dans la zone Réponse, saisissez "Score de gravité de la maladie".
  4. Dans la zone Prédicteurs continus, saisissez "Nombre de symptômes maintenant".
  5. Dans Prédicteurs de catégorie, entrez 'Limites aux activités normales'-’Haute production de mucosités’.
  6. Cliquez sur OK.

Interpréter des résultats

Le tableau Sélection du modèle compare les performances des types de modèles. Le modèle de régression multiple a la valeur maximale de R2. Les résultats qui suivent concernent le meilleur modèle de régression multiple.

Pour déterminer si l'association entre la réponse et chacun des termes du modèle est statistiquement significative, comparez la valeur de p du terme à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle est qu'il n'existe aucune association entre le terme et la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5% de conclure à tort qu'il existe une association. Dans ces résultats, deux des termes d’interaction ont des valeurs p supérieures à 0,05 : Essoufflement sévère*Maux de tête sévères et Maux de tête sévères*Troubles graves du sommeil . Lorsque les chercheurs exploreront d’autres modèles de régression multiple, ils utiliseront des mesures de performance du modèle et des graphiques résiduels pour explorer les effets de l’inclusion de ces termes dans le modèle.

Le tableau récapitulatif du modèle montre que la formation R2 et l’essai R2 sont tous deux d’environ 91%. L’erreur quadratique moyenne de la racine de test (RMSE), qui représente la distance entre les valeurs de données et les valeurs ajustées, est d’environ 4. Parce que le RMSE est petit sur l’échelle du score de la maladie, les chercheurs sont optimistes qu’un petit nombre de questions est une information suffisante pour aider à prioriser les patients.

Le tableau des ajustements et diagnostics pour les informations inhabituelles montre les points de données qui ne suivent pas bien l’équation de régression proposée. Ce sont les ajustements et les diagnostics de l’ensemble complet de données.

La lettre R indique un point avec un grand résidu. Examinez les points de données aberrants pour voir les valeurs de prédiction pour lesquelles le modèle est susceptible de ne pas être adapté. La lettre X indique un point avec un effet de levier élevé. Les points à fort effet de levier ont des combinaisons de prédicteurs inhabituelles par rapport au reste de l’ensemble de données.

Les résidus importants et les points de levier élevés sont des points potentiellement influents. Par exemple, un coefficient pourra être statistiquement significatif ou non selon qu'un point influent est inclus ou exclus. En cas d'observation influente, déterminez si elle est due à une erreur d'entrée de données ou de mesure. Si l’observation n’est pas une erreur, déterminez dans quelle mesure l’observation influence les résultats. Lorsque les chercheurs exploreront davantage le modèle, ils adapteront le modèle avec et sans les observations. Ensuite, ils compareront les coefficients, les valeurs p, R2et d’autres informations du modèle. Si le modèle change de manière significative lorsque vous supprimez l'observation influente, examinez le modèle plus en détail pour déterminer si vous avez spécifié le modèle de façon incorrecte. Vous pouvez être amené à rassembler davantage de données pour résoudre le problème.

Le nuage de points entre les scores de maladie ajustés et les scores de maladie réels montre la relation entre les valeurs ajustées et réelles pour les données d’entraînement et de test. Les points se situent approximativement près de la ligne de référence y=x, ce qui indique que le modèle correspond bien aux données.

Méthode

Ajustez un modèle de régression avec des termes linéaires et des termes d'ordre 2.
Ajustez 6 modèle(s) de régression TreeNet® en utilisant la fonction de perte quadratique.
Ajustez 3 modèle(s) de régression Random Forests® avec un effectif d'échantillon bootstrap identique à la taille des données d'apprentissage de 1546.
Ajuster un modèle de régression CART® optimal.
Ajuster un modèle de régression MARS® optimal.
Sélectionnez le modèle avec un R carré maximal d'après la validation croisée sur 5 partitions.
Nombre total de lignes : 1546
Lignes utilisées pour le modèle de régression : 1546
Lignes utilisées pour les modèles basés sur des arbres : 1546

Informations de réponse

MoyenneEcTypMinimumQ1MédianeQ3Maximum
31,011014,0820019,0530,9540,4876,19
Meilleur modèle pour
le type
R carré (%)Écart
absolu
moyen
Régression multiple*91,233,1011
MARS®91,053,1604
TreeNet®90,903,1613
Random Forests®89,933,3248
CART®86,113,9369
*Meilleur modèle avec un R carré maximal, pour tous les types de modèles. Suivi des résultats
     pour le meilleur modèle.

Sélection ascendante des termes avec validation pour le meilleur modèle de régression multiple

Termes sélectionnés : Nombre de symptômes maintenant; Haute production de mucosités;
     Essoufflement sévère; Maux de tête sévères; Troubles graves du sommeil; Se sentir
     généralement très mal; Limites aux activités normales; Nombre de symptômes
     maintenant*Essoufflement sévère; Nombre de symptômes maintenant*Douleur thoracique sévère;
     Essoufflement sévère*Troubles graves du sommeil; Se sentir généralement très mal*Limites aux
     activités normales
 

Equation de régression

Score de gravité de la maladie=1,241 + 2,5386 Nombre de symptômes maintenant
+ 0,0 Haute production de mucosités_0
+ 3,900 Haute production de mucosités_1
+ 0,0 Essoufflement sévère_0 + 0,94 Essoufflement sévère_1
+ 0,0 Maux de tête sévères_0 + 4,094 Maux de tête sévères_1
+ 0,0 Troubles graves du sommeil_0
+ 3,884 Troubles graves du sommeil_1
+ 0,0 Se sentir généralement très mal_0
+ 3,473 Se sentir généralement très mal_1
+ 0,0 Limites aux activités normales_0
+ 3,140 Limites aux activités normales_1
+ 0,0 Nombre de symptômes maintenant*Essoufflement sévère_0
+ 0,373 Nombre de symptômes maintenant*Essoufflement sévère_
1
+ 0,0 Nombre de symptômes maintenant*Douleur thoracique sévè
re_0
+ 0,4765 Nombre de symptômes maintenant*Douleur thoracique s
évère_1
+ 0,0 Essoufflement sévère*Troubles graves du sommeil_0 0
+ 0,0 Essoufflement sévère*Troubles graves du sommeil_0 1
+ 0,0 Essoufflement sévère*Troubles graves du sommeil_1 0
+ 1,337 Essoufflement sévère*Troubles graves du sommeil_1 1
+ 0,0 Se sentir généralement très mal*Limites aux activités
normales_0 0
+ 0,0 Se sentir généralement très mal*Limites aux activités
normales_0 1
+ 0,0 Se sentir généralement très mal*Limites aux activités
normales_1 0
+ 1,372 Se sentir généralement très mal*Limites aux activité
s normales_1 1

Coefficients

TermeCoeffCoef ErTValeur de T
Constante1,2410,3853,22
Nombre de symptômes maintenant2,53860,059342,81
Haute production de mucosités     
  13,9000,22517,35
Essoufflement sévère     
  10,941,180,80
Maux de tête sévères     
  14,0940,25316,18
Troubles graves du sommeil     
  13,8840,28413,69
Se sentir généralement très mal     
  13,4730,34310,14
Limites aux activités normales     
  13,1400,4247,40
Nombre de symptômes maintenant*Essoufflement sévère     
  10,3730,1332,81
Nombre de symptômes maintenant*Douleur thoracique sévère     
  10,47650,031215,26
Essoufflement sévère*Troubles graves du sommeil     
  1 11,3370,5282,53
Se sentir généralement très mal*Limites aux activités normales     
  1 11,3720,5272,61
TermeValeur de pFIV
Constante0,001 
Nombre de symptômes maintenant0,0001,95
Haute production de mucosités   
  10,0001,10
Essoufflement sévère   
  10,42423,23
Maux de tête sévères   
  10,0001,25
Troubles graves du sommeil   
  10,0001,73
Se sentir généralement très mal   
  10,0002,62
Limites aux activités normales   
  10,0003,98
Nombre de symptômes maintenant*Essoufflement sévère   
  10,00526,80
Nombre de symptômes maintenant*Douleur thoracique sévère   
  10,0001,25
Essoufflement sévère*Troubles graves du sommeil   
  1 10,0113,26
Se sentir généralement très mal*Limites aux activités normales   
  1 10,0095,73

Récapitulatif du modèle

StatistiquesApprentissageTest
R carré91,35%91,23%
Racine de l'erreur quadratique moyenne (RMSE)4,15624,1679
Erreur quadratique moyenne (MSE)17,274117,3714
Ecart absolu moyen (MAD)3,07983,1011
     
R carré (ajus)91,29% 
R carré (prév)  91,19%

Analyse de la variance

SourceDLSomCar ajust
Régression11279881
  Nombre de symptômes maintenant131655
  Haute production de mucosités15202
  Essoufflement sévère111
  Maux de tête sévères14520
  Troubles graves du sommeil13239
  Se sentir généralement très mal11776
  Limites aux activités normales1945
  Nombre de symptômes maintenant*Essoufflement sévère1136
  Nombre de symptômes maintenant*Douleur thoracique sévère14023
  Essoufflement sévère*Troubles graves du sommeil1111
  Se sentir généralement très mal*Limites aux activités normales1117
Erreur153426498
  Inadéquation de l'ajustement4849247
  Erreur pure105017251
Total1545306379
SourceCM ajustValeur F
Régression25443,71472,94
  Nombre de symptômes maintenant31654,81832,51
  Haute production de mucosités5201,8301,14
  Essoufflement sévère11,10,64
  Maux de tête sévères4520,0261,66
  Troubles graves du sommeil3238,8187,50
  Se sentir généralement très mal1775,6102,79
  Limites aux activités normales945,454,73
  Nombre de symptômes maintenant*Essoufflement sévère136,47,90
  Nombre de symptômes maintenant*Douleur thoracique sévère4023,4232,92
  Essoufflement sévère*Troubles graves du sommeil110,76,41
  Se sentir généralement très mal*Limites aux activités normales117,36,79
Erreur17,3 
  Inadéquation de l'ajustement19,11,16
  Erreur pure16,4 
Total   
SourceValeur de p
Régression0,000
  Nombre de symptômes maintenant0,000
  Haute production de mucosités0,000
  Essoufflement sévère0,424
  Maux de tête sévères0,000
  Troubles graves du sommeil0,000
  Se sentir généralement très mal0,000
  Limites aux activités normales0,000
  Nombre de symptômes maintenant*Essoufflement sévère0,005
  Nombre de symptômes maintenant*Douleur thoracique sévère0,000
  Essoufflement sévère*Troubles graves du sommeil0,011
  Se sentir généralement très mal*Limites aux activités normales0,009
Erreur 
  Inadéquation de l'ajustement0,025
  Erreur pure 
Total 

Ajustements et diagnostics pour les observations aberrantes

ObservationScore de
gravité de
la maladie
Valeur
ajustée
RésiduelleVal.
résid.
norm.
1166,67056,7579,9132,40R 
1352,38041,17711,2032,71R 
1659,52048,60410,9162,64R 
3350,00060,657-10,657-2,57R 
4864,29055,4168,8742,14R 
5261,90053,3698,5312,06R 
5450,00041,5988,4022,03R 
5650,00058,328-8,328-2,02R 
5838,10046,485-8,385-2,03R 
10659,52049,02810,4922,53R 
11459,52047,16012,3602,99R 
12869,05058,32810,7222,59R 
14450,00040,4719,5292,30R 
17347,62056,757-9,137-2,21R 
17442,86034,0008,8602,14R 
19142,86052,051-9,191-2,23R 
19859,52048,41111,1092,68R 
20273,81064,0469,7642,36R 
20547,62037,55910,0612,43R 
21335,71034,9700,7400,18  X
21716,67019,053-2,383-0,58  X
23947,62058,328-10,708-2,59R 
24171,43066,3115,1191,25  X
24314,29024,088-9,798-2,36R 
30450,00041,1308,8702,14R 
30714,29010,9203,3700,83  X
35264,29051,25413,0363,15R 
36938,10049,275-11,175-2,70R 
39116,67032,073-15,403-3,72R 
3920,00011,395-11,395-2,75R 
3950,00013,934-13,934-3,36R 
42440,48052,504-12,024-2,90R 
42547,62034,59713,0233,16R 
47447,62038,5389,0822,21R 
47940,48030,8969,5842,31R 
48916,67025,023-8,353-2,02R 
49130,95024,3486,6021,61  X
49357,14044,33912,8013,09R 
49535,71025,48010,2302,47R 
50938,10026,69611,4042,77R 
52073,81058,32815,4823,75R 
53738,10028,3589,7422,35R 
55014,29024,458-10,168-2,45R 
58342,86053,369-10,509-2,54R 
69419,05021,817-2,767-0,68  X
72059,52065,602-6,082-1,49  X
72240,48032,0668,4142,03R 
80230,95042,586-11,636-2,81R 
80530,95039,868-8,918-2,16R 
81440,48032,0738,4072,03R 
82361,90048,14813,7523,33R 
83333,33044,054-10,724-2,60R 
85938,10049,275-11,175-2,70R 
86847,62037,7899,8312,38R 
89130,95019,94511,0052,66R 
89328,57048,860-20,290-4,92R 
90545,24055,416-10,176-2,46R 
92454,76056,019-1,259-0,31  X
97764,29053,10711,1832,72R 
98357,14047,6839,4572,29R 
98850,00044,5015,4991,34  X
99373,81064,0469,7642,36R 
99733,33024,4588,8722,14R 
100354,76045,1289,6322,33R 
102533,33047,705-14,375-3,49R 
105957,14048,6638,4772,05R 
110547,62037,31910,3012,49R 
115059,52044,33915,1813,67R 
116052,38040,05112,3292,97R 
116330,95041,598-10,648-2,57R 
116569,05056,75712,2932,97R 
116959,52049,27510,2452,48R 
119842,86051,516-8,656-2,09R 
120776,19063,53412,6563,07R 
121326,19040,278-14,088-3,41R 
122840,48050,571-10,091-2,45R 
123559,52050,1759,3452,26R 
123757,14048,2398,9012,15R 
124664,29055,4168,8742,14R 
126245,24035,9579,2832,24R 
126357,14043,95113,1893,18R 
128233,33036,011-2,681-0,65  X
128445,24056,564-11,324-2,74R 
128547,62060,657-13,037-3,15R 
130326,19036,567-10,377-2,51R 
130535,71045,499-9,789-2,36R 
131130,95040,089-9,139-2,21R 
134526,19025,1051,0850,26  X
135342,86053,175-10,315-2,49R 
136526,19017,8348,3562,01R 
137747,62035,22212,3983,00R 
138069,05055,41613,6343,29R 
138450,00038,49611,5042,78R 
141426,19035,345-9,155-2,21R 
150261,90050,19511,7052,84R 
152638,10025,45012,6503,05R 
153514,29024,088-9,798-2,36R 
154438,10029,1658,9352,16R 
154850,00040,4559,5452,31R 
156538,10042,846-4,746-1,16  X
158266,67055,43711,2332,72R 
R : Valeur résiduelle élevée
X : Valeur de X aberrante

Sélectionner un autre modèle

Les chercheurs décident d’examiner les résultats pour le meilleur modèle TreeNet® .

  1. Dans les résultats de , après la sélection pas à pas des termes pour le meilleur modèle de Découvrir le meilleur modèle (réponse continue)régression multiple, cliquez sur Sélectionner un autre modèle.
  2. Dans Type de modèle, sélectionnez TreeNet®.
  3. Dans Sélectionner un modèle existant, choisissez le sixième modèle, qui a la meilleure valeur de R2.
  4. Cliquez sur Afficher les résultats.

Interpréter des résultats

Cette analyse fait pousser 300 arbres et le nombre optimal d’arbres est de 63. Le modèle utilise un taux d’apprentissage de 0,1 et une fraction de sous-échantillon de 0,7. Le nombre maximal de nœuds terminaux est de 6.

Méthode

Fonction de perteErreur quadratique
Critères de sélection du nombre d'arbres optimalR carré maximum
Validation de modèleValidation croisée pour 5 ensemble(s)
Taux d'apprentissage0,1
Fraction de sous-échantillon0,7
Nombre maximal de nœuds terminaux par arbre6
Taille minimale du nœud terminal3
Nombre de prédicteurs sélectionnés pour la partition des nœudsNombre total de prédicteurs = 8
Lignes utilisées1546
Lignes non utilisées70

Informations de réponse

MoyenneEcTypMinimumQ1MédianeQ3Maximum
31,011014,0820019,0530,9540,4876,19

Le diagramme du R carré par rapport au nombre d'arbres montre toute la courbe sur le nombre d'arbres développés. La valeur optimale pour les données de test est d’environ 91% lorsque le nombre d’arbres est de 63.

Récapitulatif du modèle

Nombre total de prédicteurs8
Prédicteurs importants8
Nombre d'arbres développés300
Nombre optimal d'arbres63
StatistiquesApprentissageTest
R carré91,93%90,90%
Racine de l'erreur quadratique moyenne (RMSE)3,99924,2471
Erreur quadratique moyenne (MSE)15,993218,0375
Ecart absolu moyen (MAD)2,99433,1613
Pourcentage d'erreur absolue moyen (MAPE)0,10880,1130

Le tableau récapitulatif du modèle montre que la valeur R2 lorsque le nombre d’arbres est de 63 est d’environ 92 % pour les données d’apprentissage et d’environ 91 % pour les données de test.

La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est Nombre de symptômes maintenant. Si la contribution de la variable prédictive supérieure, , est de 100 %, alors la variable importante suivante, , a une contribution de 44,4 Nombre de symptômes maintenantLimites aux activités normales%. Cela signifie Limites aux activités normales que 44,4 % est aussi important que Nombre de symptômes maintenant dans ce modèle de régression.

Le nuage de points entre les scores de maladie ajustés et les scores de maladie réels montre la relation entre les valeurs ajustées et réelles pour les données d’entraînement et de test. Les points se situent approximativement près de la ligne de référence y=x, ce qui indique que le modèle correspond bien aux données.

Utilisez les diagrammes de dépendance partielle pour mieux comprendre comment les variables importantes ou les paires de variables affectent les valeurs de réponse ajustées. Les diagrammes de dépendance partielle indiquent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.

Le premier graphique illustre la relation entre les scores de maladie et le nombre de symptômes que le patient a maintenant. Vous pouvez survoler des points de données individuels pour voir les valeurs x et y spécifiques. Par exemple, le point le plus élevé sur le côté droit du graphique est lorsque le patient présente 13 symptômes et que le score de maladie ajusté est d’environ 45.

Le deuxième graphique illustre que le score de maladie ajusté augmente d’environ 5 points lorsque les patients signalent des limitations dans leurs activités normales.

Le troisième graphique montre que le score de maladie ajusté augmente d’environ 5 points lorsque les patients déclarent se sentir généralement très mal.

Le quatrième graphique illustre l’augmentation du score de maladie ajusté d’environ 4 points lorsque les patients signalent un essoufflement sévère.

Le dernier graphique illustre comment le score de maladie ajusté pour un certain nombre de symptômes dépend du fait que le patient a également des limites sur ses activités normales. Pour le même nombre de symptômes, les patients qui signalent également des limites sur leurs activités normales ont des scores de maladie ajustés plus élevés.