Pourcentage de statistiques d'erreur dû aux valeurs résiduelles les plus grandes pour la fonction Régression CART®

Utilisez le pourcentage de statistiques d'erreur pour examiner la quantité d'erreur dans les valeurs ajustées de l'arbre par rapport aux ajustements. Lorsque l'analyse utilise une technique de validation, vous pouvez également comparer les statistiques de l'arbre pour les données d'apprentissage et de test.

Chaque rangée du tableau affiche les statistiques d'erreur pour le pourcentage donné de valeurs résiduelles. Le pourcentage de l'erreur quadratique moyenne (MSE) qui provient des valeurs résiduelles les plus grandes est généralement plus élevé que le pourcentage pour les deux autres statistiques. La MSE utilise les carrés des erreurs dans les calculs. Par conséquent, les observations les plus extrêmes ont généralement la plus grande influence sur la statistique. De grandes différences entre le pourcentage d'erreur pour la MSE et les deux autres mesures peuvent indiquer que l'arbre est plus sensible à la sélection de la partition des nœuds avec la moindre erreur quadratique ou le moindre écart absolu.

Lorsque vous utilisez une technique de validation, Minitab calcule des statistiques distinctes pour les données d'apprentissage et de test. Vous pouvez comparer les statistiques pour examiner les performances relatives de l'arbre avec les données d'apprentissage et avec de nouvelles données. Les statistiques de test sont généralement une meilleure mesure de la qualité de l'arbre avec de nouvelles données.

Il est possible qu'un petit pourcentage des valeurs résiduelles représente une grande partie de l'erreur dans les données. Par exemple, dans le tableau suivant, la taille totale de l'ensemble de données est d'environ 4 500. Du point de vue de la MSE, cela indique que 1 % des données représentent environ 12 % de l'erreur. Dans un tel cas, les 45 cas qui contribuent le plus à l'erreur de l'arbre peuvent représenter l'occasion la plus naturelle d'améliorer l'arbre. Trouver un moyen d'améliorer les valeurs ajustées pour ces cas conduit à une augmentation relativement importante des performances globales de l'arbre.

Cette condition peut également indiquer que vous pouvez avoir une plus grande confiance dans les nœuds de l'arbre qui n'ont pas de cas avec les plus grandes erreurs. Etant donné que la plupart des erreurs proviennent d'un petit nombre de cas, les valeurs ajustées correspondant aux autres cas sont relativement plus précises.

Syntax Error