Le diagramme du R carré par rapport au nombre de nœuds terminaux affiche la valeur de R2 pour chaque arbre. Par défaut, l'arbre de régression initial est le plus petit arbre avec une valeur de R2située à moins d'1 erreur type de la valeur correspondant à l'arbre avec la valeur de R2 maximale. Lorsque l'analyse utilise une validation croisée ou un ensemble de données de test, la valeur de R2 provient de l'échantillon de validation. Les valeurs de l'échantillon de validation se stabilisent généralement et finissent par diminuer à mesure que l'arbre grandit.
Cliquez sur Sélectionner un arbre alternatif pour ouvrir un diagramme interactif qui comprend un tableau de statistiques récapitulatives du modèle. Utilisez le diagramme pour étudier les arbres alternatifs ayant des performances similaires.
Après avoir sélectionné un arbre, étudiez les nœuds terminaux distinctifs sur l'arborescence. Par exemple, vous pourriez être intéressé par les nœuds avec de grandes moyennes ou avec de petits écarts types. Depuis la vue détaillée, vous pouvez voir la moyenne, l'écart type et les dénombrements totaux pour chaque nœud.
Cliquez sur l'arborescence avec le bouton droit de la souris pour effectuer les interactions suivantes :
Les nœuds continuent de se diviser jusqu'à ce que les nœuds terminaux ne puissent plus être divisés en groupements supplémentaires. Explorez d'autres nœuds pour voir quelles variables sont les plus intéressantes.
Ensuite, le Nœud 2 est divisé par Fréquence de l’abus de substances et le Nœud 8 est divisé par Consommation d’alcool. Le Nœud terminal 17 comprend les cas où Thérapie planifiée de médicaments = 2, Consommation d’alcool = 1 et Source d’aiguillage = 3, 5, 6, 100, 300, 400, 600, 700 ou 800. Les chercheurs notent que le Nœud terminal 17 a la moyenne la plus élevée, le plus petit écart type et la plupart des cas.
Le Nœud terminal 1 a la plus petite moyenne et un écart type d'environ 4,3. Etant donné que la moyenne du Nœud terminal 1 est d'environ 5,9 et que les valeurs de réponse ne peuvent pas être négatives, les statistiques sur les nœuds suggèrent que les données du Nœud terminal 1 sont probablement asymétriques vers la droite.
Utilisez la courbe d'importance relative des variables pour déterminer quels prédicteurs sont les variables les plus importantes pour l'arbre.
Les variables importantes constituent un séparateur principal ou de substitution dans l'arbre. La variable avec le score d'amélioration le plus élevé est la variable la plus importante, et les autres variables sont classées en conséquence. L'importance relative des variables normalise les valeurs d'importance pour faciliter l'interprétation. L'importance relative se définit comme l'amélioration en pourcentage par rapport au prédicteur le plus important.
Les valeurs d'importance relative des variables varient de 0 % à 100 %. La variable la plus importante a toujours une importance relative de 100 %. Si une variable n'est pas dans l'arbre, cette variable n'est pas importante.