Diagramme des valeurs résiduelles par nœud terminal pour Régression CART®

Les valeurs résiduelles fournissent un récapitulatif graphique de l'erreur dans chaque nœud. Le diagramme simplifie les comparaisons de l'exactitude des nœuds.

Interprétation

Les valeurs résiduelles résument l'erreur dans un nœud et peuvent aider à identifier les cas avec un mauvais ajustement. Vous pouvez avoir le plus de confiance dans les valeurs ajustées des nœuds avec de petites valeurs résiduelles par rapport à l'échelle de la variable de réponse. Les nœuds présentant des valeurs résiduelles plus dispersées peuvent représenter des occasions de réduire la variation ou d'en expliquer une plus grande part. Vous pouvez choisir d'étudier des cas qui présentent des tendances inhabituelles.

Par défaut, les nœuds sont classés de la plus petite quantité d'erreur à la plus grande. Lorsque vous exécutez l'analyse, vous pouvez trouver une option pour trier les nœuds par numéro d'identification en appuyant sur le bouton Graphiques.

Lorsque l'analyse utilise un ensemble de données de test, le graphique inclut des diagrammes distincts pour les données d'apprentissage et de test. Les performances de l'arbre sur les données de test représentent généralement mieux les performances de l'arbre pour de nouvelles données. Vous devez étudier les grandes différences entre les données de test et d'apprentissage.

Dans le diagramme suivant, le nœud terminal 1 contient la plus grande valeur résiduelle. Le nœud terminal 13 comprend une traînée de valeurs résiduelles négatives. Une enquête plus approfondie sur ces points pourrait expliquer pourquoi l'arbre ne les ajuste pas aussi bien que d'autres points du nœud. Le nœud terminal 17 comprend la plus petite MSE des nœuds terminaux. L'étendue des valeurs résiduelles dans le nœud terminal 17 est relativement faible par rapport aux nœuds de l'autre côté du diagramme.