Un fournisseur de soins de santé gère un établissement qui offre des services de traitement de la toxicomanie. L'un des services de l'établissement est un programme de désintoxication en ambulatoire dans lequel un traitement régulier peut durer de 1 à 30 jours. Une équipe chargée de prévoir le personnel et les fournitures nécessaires veut savoir si elle peut améliorer la qualité de ses prévisions quant à la durée d'utilisation des services par les patients en se fondant sur les informations qu'elle peut recueillir au sujet du patient lorsque celui-ci intègre le programme. Ces variables comprennent des informations démographiques et les variables sur l'addiction du patient.

Tout d'abord, l'équipe effectue une analyse de régression traditionnelle dans Minitab. L'analyse omet plus de 70 % des données en raison du schéma de valeurs manquantes. L'omission d'un si grand pourcentage de données implique que beaucoup d'informations sont perdues. Les résultats analytiques des cas sans aucune donnée manquante peuvent être très différents des résultats utilisant l'ensemble complet de données. Comme CART® Regression gère automatiquement les valeurs manquantes dans les variables de prévision, l'équipe décide d'utiliser CART® Regression pour évaluer davantage leurs données.

  1. Ouvrez le fichier de données échantillons DureeDuService.MTW.
  2. Sélectionnez Stat > Analyse prédictive > CART® Regression.
  3. Dans Réponse, saisissez Durée du service.
  4. Dans Prédicteurs continus, saisissez Age à l’admission-Années d’éducation.
  5. Dans Prédicteurs de catégorie, saisissez Autre utilisation de stimulants-Diagnostic DSM.
  6. Cliquez sur Validation.
  7. Dans Méthode de validation, sélectionnez Validation croisée sur K partitions.
  8. Sélectionnez Affecter des lignes de chaque partition par colonne d'ID.
  9. Dans Colonne d'ID, saisissez Plier.
  10. Cliquez sur OK dans chaque boîte de dialogue

Interpréter les résultats

Par défaut, Minitab affiche le plus petit arbre avec une valeur de R2 située à moins d'1 erreur type de l'arbre avec la valeur de R2 maximale. Etant donné que l'équipe de soins de santé utilise la validation sur K partitions, le critère est la valeur maximale de R2 sur K partitions. Cet arbre comprend 21 nœuds terminaux.

Avant d'examiner l'arbre, les chercheurs consultent le diagramme détaillant la valeur de R2 déterminée par la validation croisée et le nombre de nœuds terminaux. Ce diagramme montre un schéma dans lequel la statistique R2 augmente rapidement pour les premiers nœuds, puis ralentit. Comme ce graphique montre que les valeurs de R2 sont relativement stables entre les arbres ayant environ 20 nœuds et ceux ayant environ 70 nœuds, les chercheurs veulent examiner les performances de certains arbres encore plus petits qui sont similaires à l'arbre dans les résultats.

Sélectionner un arbre alternatif

  1. Dans la sortie, cliquez sur Sélectionner un arbre alternatif.
  2. Dans le diagramme, sélectionnez l'arbre à 17 nœuds.
  3. Cliquez sur Créer un arbre.

Interpréter les résultats

Les chercheurs consultent le diagramme de la statistique R2 déterminée par la validation croisée et le nombre de nœuds terminaux. Comme l'arbre à 17 nœuds comprend une statistique R2 proche des plus grandes valeurs du diagramme, les résultats pour le reste de la sortie concernent l'arbre à 17 nœuds.

Les chercheurs consultent d'abord le récapitulatif du modèle pour évaluer les performances du plus petit arbre. Les valeurs pour les statistiques d'apprentissage et de test sont proches les unes des autres. Par conséquent, l'arbre ne semble pas surajusté. La statistique R2 est presque aussi élevée que l'arbre à 21 nœuds. Par conséquent, les chercheurs décident d'utiliser l'arbre à 17 nœuds pour explorer les relations entre les variables de prévision et les valeurs de réponse.

CART® régression de 17 nœuds: Durée du service par rapport à Age à l’admission; L’âge de la première consommati; Arrestations au cours des 30 jo; Jours d’attente de service; Épisodes de traitement antérieu; Années d’éducation; Autre utilisation de stimulants; Thérapie planifiée de médicamen; État psychiatrique; Enceinte; Sexe; Vétéran; Consommation d’alcool; Consommation de cocaïne; Utilisation de la marijuana; Consommation d’héroïne; Autre utilisation d’opiod; Utilisation de PCP; Utilisation de mehtadone; Autre utilisation de Hallucinog; Consommation de méthamphétamine; Autre utilisation d’amphétamine; Utilisation de benzodiazépines; Autre utilisation tranquillisan; Utilisation de barbituate; Autre utilisation sédative; Utilisation d’inhalants; Consommation de drogues sans or; Autres usages de drogues; Consommation de drogues par voi; Arrangements de vie; Fréquence de l’abus de substanc; Assurance maladie; Matrimonial; Ethnicité; Source de revenu; Itinéraire d’ingestion primaire; Participation à l’auto-assistan; Source de paiement; Course; Situation de l’emploi; Source d’aiguillage; Substance primaire de l’abus; Diagnostic DSM

Méthode Division des nœuds Erreur des moindres carrés Arbre optimal Dans 2,5 erreur(s) type(s) du R carré maximum Validation de modèle Validation croisée avec lignes définies par Plier Lignes utilisées 4453
Informations de réponse Moyenne EcTyp Minimum Q1 Médiane Q3 Maximum 17,5960 9,29097 1 10 18 26 30
Récapitulatif du modèle Nombre total de prédicteurs 44 Prédicteurs importants 33 Nombre de nœuds terminaux 17 Taille minimale du nœud terminal 49 Statistiques Formation Test R carré 0,7799 0,7661 Racine de l'erreur quadratique moyenne (RMSE) 4,3585 4,4932 Erreur quadratique moyenne (MSE) 18,9967 20,1887 Ecart absolu moyen (MAD) 3,4070 3,5226 Pourcentage d'erreur absolue moyen (MAPE) 0,6535 0,6674
La courbe de l'importance relative des variables montre que la variable de prévision la plus importante est Consommation d’alcool. Si la contribution de la principale variable de prévision, Consommation d’alcool, est de 100 %, alors vous pouvez comparer les autres variables à Consommation d’alcool afin de déterminer leur importance. Ainsi, vous pouvez vous concentrer sur les prédicteurs les plus importants. La liste suivante décrit les variables les plus importantes de cet arbre :
  • Substance primaire de l’abus et Thérapie planifiée de médicaments sont environ 92 % aussi importantes que Consommation d’alcool.
  • Consommation d’héroïne est environ 55 % aussi importante que Consommation d’alcool.
  • Itinéraire d’ingestion primaire de Sous-Marin et Source d’aiguillage sont environ 48 % aussi importantes que Consommation d’alcool.

Bien que ces résultats comprennent 33 variables ayant une importance positive, les classements relatifs fournissent des informations sur le nombre de variables à contrôler ou à surveiller pour une certaine application. Les baisses abruptes des valeurs d'importance relative d'une variable à la variable suivante peuvent guider les décisions sur les variables à contrôler ou à surveiller. Par exemple, dans ces données, les trois variables les plus importantes ont des valeurs d'importance qui sont relativement proches les unes des autres avant une baisse de près de 40 % par rapport à la variable suivante. De même, trois variables ont des valeurs d'importance similaires de près de 50 %. Vous pouvez supprimer les variables de différents groupes et refaire l'analyse pour évaluer l'impact des variables de différents groupes sur les valeurs d'exactitude de prévision dans le tableau récapitulatif du modèle.

Pour une analyse avec une validation croisée sur K partitions, l'arborescence montre les 4 453 cas de l'ensemble complet de données. Vous pouvez basculer entre la vue détaillée et la vue de partition de nœud de l'arbre. Le tableau des valeurs ajustées et des statistiques d'erreur, et les critères de classification des sujets donnent des informations supplémentaires sur les nœuds terminaux.

Le premier nœud est divisé à l'aide de la variable qui indique si le patient a suivi un traitement médicamenteux.
  • Le Nœud 2 comprend les cas où Thérapie planifiée de médicaments = 1. Ce nœud compte 1 881 cas. La moyenne pour le nœud est inférieure à la moyenne globale. L'écart type pour le Nœud 2 est d'environ 5,4, ce qui est inférieur à l'écart type global car une partition donne des nœuds plus purs.
  • Le Nœud 8 comprend les cas où Thérapie planifiée de médicaments = 2. Ce nœud compte 2 572 cas. La moyenne pour le nœud est supérieure à la moyenne globale. L'écart type pour le Nœud 8 est d'environ 6,1, ce qui est également inférieur à l'écart type global.

Ensuite, le Nœud 2 est divisé par Fréquence de l’abus de substances et le Nœud 8 est divisé par Consommation d’alcool. Le Nœud terminal 17 comprend les cas où Thérapie planifiée de médicaments = 2, Consommation d’alcool = 1 et Source d’aiguillage = 3, 5, 6, 100, 300, 400, 600, 700 ou 800. Les chercheurs notent que le Nœud terminal 17 a la moyenne la plus élevée, le plus petit écart type et la plupart des cas.

Les résultats comprennent un nuage de points des valeurs de réponse ajustées et des valeurs de réponse réelles. Les points de l'ensemble de données d'apprentissage et de l'ensemble de données de test présentent des schémas similaires. Cette similitude suggère que les performances de l'arbre avec de nouvelles données sont proches de celles obtenues avec les données d'apprentissage.

Le diagramme de la MSE par nœud terminal montre que le Nœud terminal 8 est le moins exact des nœuds terminaux. Vous pouvez avoir relativement plus confiance dans l'exactitude des valeurs ajustées des nœuds présentant des valeurs de MSE inférieures. Les patients du Nœud terminal 8 ont les caractéristiques suivantes :
  • Thérapie planifiée de médicaments = {2}
  • Consommation d’alcool = {0}
  • Source d’aiguillage = {1, 2, 600, 700, 800}
  • Source de revenu = {1, 2, 3, 4}
  • Fréquence de l’abus de substances = {1, 3}
  • Épisodes de traitement antérieurs <= 1,5
Les cas dans le Nœud terminal 8 peuvent avoir le plus d'occasions d'améliorer l'arbre s'il existe un moyen de réduire ou d'expliquer la variation.

Le diagramme des valeurs résiduelles par nœud terminal montre que la valeur ajustée est trop grande pour un petit groupe de patients dans le Nœud terminal 8. Les analystes envisagent une enquête pour savoir pourquoi certains de ces patients utilisent les services pendant moins longtemps qu'un patient type de leur groupe. Par exemple, si ces patients se trouvent dans un lieu géographique différent des autres patients du nœud terminal, des réglementations différentes au niveau des services publics et des polices d'assurance pourraient avoir un impact sur la durée d'utilisation des services.

Le diagramme des valeurs résiduelles par nœud terminal montre d'autres cas pour lesquels les analystes peuvent choisir d'enquêter sur les groupes ou les valeurs aberrantes. Par exemple, dans ces données, une valeur résiduelle semble beaucoup plus grande que les autres dans le Nœud terminal 1 et dans le Nœud terminal 7. Les analystes décident de rechercher pourquoi ces patients ont utilisé les services plus longtemps que d'autres patients dans leur nœud terminal.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique