Courbe d'importance relative des variables pour Régression CART®

Utilisez la courbe d'importance relative des variables pour déterminer quels prédicteurs sont les variables les plus importantes pour l'arbre.

L'importance relative des variables normalise les valeurs d'importance pour faciliter l'interprétation. L'importance relative se définit comme l'amélioration en pourcentage par rapport au prédicteur le plus important.

Une variable importante est une variable qui est utilisée comme séparateur principal ou de substitution dans l'arbre. La variable avec le score d'amélioration le plus élevé est la variable la plus importante, et les autres variables sont classées en conséquence. L'importance relative des variables normalise les valeurs d'importance pour faciliter l'interprétation. L'importance relative se définit comme l'amélioration en pourcentage par rapport au prédicteur le plus important.

L'importance relative est calculée en divisant chaque score d'importance des variables par le plus grand score d'importance. Le résultat est ensuite multiplié par 100 %.

Interprétation

Les valeurs d'importance relative des variables varient de 0 % à 100 %. La variable la plus importante a toujours une importance relative de 100 %. Si une variable n'est pas du tout utilisée dans l'arbre, cela signifie qu'elle n'est pas importante.

Dans cet exemple, la variable de prévision la plus importante est Consommation d’alcool. Si la contribution de la principale variable de prévision, Consommation d’alcool, est de 100 %, alors vous pouvez comparer les autres variables à Consommation d’alcool afin de déterminer leur importance. Ainsi, vous pouvez vous concentrer sur les prédicteurs les plus importants. La liste suivante décrit les variables les plus importantes de cet arbre.
  • Substance primaire de l’abus et Thérapie planifiée de médicaments sont environ 92 % aussi importantes que Consommation d’alcool.
  • Consommation d’héroïne est environ 55 % aussi importante que Consommation d’alcool.
  • Itinéraire d’ingestion primaire de Sous-Marin et Source d’aiguillage sont environ 48 % aussi importantes que Consommation d’alcool.

Bien que ces résultats comprennent 33 variables ayant une importance positive, les classements relatifs fournissent des informations sur le nombre de variables à contrôler ou à surveiller pour une certaine application. Les baisses abruptes des valeurs d'importance relative d'une variable à la variable suivante peuvent guider les décisions sur les variables à contrôler ou à surveiller. Par exemple, dans ces données, les trois variables les plus importantes ont des valeurs d'importance qui sont relativement proches les unes des autres avant une baisse de près de 40 % par rapport à la variable suivante. De même, trois variables ont des valeurs d'importance similaires de près de 50 %. Vous pouvez supprimer les variables de différents groupes et refaire l'analyse pour évaluer l'impact des variables de différents groupes sur les valeurs d'exactitude de prévision dans le tableau récapitulatif du modèle.