Pourcentage de statistiques d'erreur dû aux valeurs résiduelles les plus grandes pour Régression Random Forests®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Utilisez le pourcentage de statistiques d'erreur pour examiner la quantité d'erreurs dans les valeurs ajustées du modèle par rapport aux pires valeurs ajustées.

Chaque ligne du tableau affiche les statistiques d'erreur pour le pourcentage donné de valeurs résiduelles. Le pourcentage de l'erreur quadratique moyenne (MSE) qui provient des valeurs résiduelles les plus grandes est généralement plus élevé que le pourcentage pour les deux autres statistiques. La MSE utilise les carrés des erreurs dans les calculs. Par conséquent, les observations les plus extrêmes ont généralement la plus grande influence sur la statistique.

Si vous sélectionnez une validation avec un ensemble de test en plus de la validation out-of-bag, le tableau affiche à la fois les résultats des données out-of-bag et des données de l'ensemble de test.

Il est possible qu'un petit pourcentage des valeurs résiduelles représente une grande partie de l'erreur dans les données. Par exemple, dans le tableau suivant, la taille totale de l'ensemble de données est d'environ 2 930. Du point de vue de la MSE, cela indique que 1 % des données représentent environ 36% de l'erreur. Dans un tel cas, les 30 cas qui contribuent le plus à l'erreur du modèle peuvent représenter l'occasion la plus naturelle d'améliorer l'arbre. Trouver un moyen d'améliorer les valeurs ajustées pour ces cas conduit à une augmentation relativement importante des performances globales du modèle.

Cette condition peut également indiquer que vous pouvez avoir une plus grande confiance dans les nœuds du modèle qui n'ont pas de cas avec les plus grandes erreurs. Étant donné que la plupart des erreurs proviennent d'un petit nombre de cas, les valeurs ajustées correspondant aux autres cas sont relativement plus précises.

Pourcentage de statistiques d'erreurs dû aux valeurs résiduelles les plus grandes

% des valeurs
résiduelles les
plus grandes




Out-of-Bag
Dénombrement% MSE% MAD% MAPE
1,03036,38559,584013,0409
2,05946,943414,834718,0932
2,57450,362216,995320,2317
3,08853,170118,888022,0186
4,011858,087922,552725,4151
5,014762,042525,784528,3840
7,522069,782432,950434,8161
10,029375,027338,850740,2386
15,044082,281648,688149,2733
20,058686,955756,561056,7304