Pourcentage de statistiques d'erreur dû aux valeurs résiduelles les plus grandes pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Utilisez le pourcentage de statistiques d'erreur pour examiner la quantité d'erreurs dans les valeurs ajustées du modèle par rapport aux pires valeurs ajustées. Lorsque l'analyse utilise une technique de validation, vous pouvez également comparer les statistiques du modèle pour les données d'apprentissage et de test.

Chaque ligne du tableau affiche les statistiques d'erreur pour le pourcentage donné de valeurs résiduelles. Le pourcentage de l'erreur quadratique moyenne (MSE) qui provient des valeurs résiduelles les plus grandes est généralement plus élevé que le pourcentage pour les deux autres statistiques. La MSE utilise les carrés des erreurs dans les calculs. Par conséquent, les observations les plus extrêmes ont généralement la plus grande influence sur la statistique. De grandes différences entre le pourcentage d'erreur pour la MSE et les deux autres mesures peuvent indiquer que le modèle est plus sensible à la sélection de la partition des nœuds avec la moindre erreur quadratique ou le moindre écart absolu.

Lorsque vous utilisez une technique de validation, Minitab calcule des statistiques distinctes pour les données d'apprentissage et de test. Vous pouvez comparer les statistiques pour examiner les performances relatives du modèle avec les données d'apprentissage et avec de nouvelles données. Les statistiques de test sont généralement une meilleure mesure de la qualité du modèle avec de nouvelles données.

Il est possible qu'un petit pourcentage des valeurs résiduelles représente une grande partie de l'erreur dans les données. Par exemple, dans le tableau suivant, la taille totale de l'ensemble de données est d'environ 4400. Du point de vue du MSE, cela indique que 1 % des données représentent environ 13 % de l’erreur. Dans un tel cas, les 31 cas qui contribuent le plus à l'erreur du modèle peuvent représenter l'occasion la plus naturelle d'améliorer l'arbre. Trouver un moyen d'améliorer les valeurs ajustées pour ces cas conduit à une augmentation relativement importante des performances globales du modèle.

Cette condition peut également indiquer que vous pouvez avoir une plus grande confiance dans les nœuds du modèle qui n'ont pas de cas avec les plus grandes erreurs. Étant donné que la plupart des erreurs proviennent d'un petit nombre de cas, les valeurs ajustées correspondant aux autres cas sont relativement plus précises.

Régression TreeNet®: Montant du p vs Revenu annue; Rapport de r; ...

Pourcentage de statistiques d'erreurs dû aux valeurs résiduelles les plus grandes % des valeurs résiduelles les Apprentissage Test plus grandes Dénombrement % MSE % MAD % MAPE Dénombrement % MSE 1,0 31 13,2824 4,9997 8,0885 14 21,6989 2,0 62 21,3764 8,9374 12,9910 27 31,9396 2,5 77 24,7125 10,6967 14,9989 33 35,7935 3,0 93 27,9315 12,4817 17,0128 40 39,8022 4,0 123 33,2979 15,6372 20,4671 53 45,8259 5,0 154 38,1707 18,6937 23,7785 66 50,8291 7,5 231 47,9001 25,4954 31,0104 98 59,7000 10,0 307 55,3764 31,4216 37,0787 131 66,4339 15,0 461 66,7462 41,8167 47,2740 196 75,4853 20,0 614 74,8066 50,5429 55,5443 261 81,6292 % des valeurs résiduelles les plus grandes % MAD % MAPE 1,0 6,9082 9,0517 2,0 11,6377 14,0987 2,5 13,6106 16,1761 3,0 15,7838 18,4925 4,0 19,4124 22,4744 5,0 22,7194 25,9526 7,5 29,6264 33,2548 10,0 35,7333 39,2610 15,0 45,6703 48,6658 20,0 53,8603 56,3489