Pourcentage de statistiques d'erreur dû aux valeurs résiduelles les plus grandes pour Régression Random Forests®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Utilisez le pourcentage de statistiques d'erreur pour examiner la quantité d'erreurs dans les valeurs ajustées du modèle par rapport aux pires valeurs ajustées.

Chaque ligne du tableau affiche les statistiques d'erreur pour le pourcentage donné de valeurs résiduelles. Le pourcentage de l'erreur quadratique moyenne (MSE) qui provient des valeurs résiduelles les plus grandes est généralement plus élevé que le pourcentage pour les deux autres statistiques. La MSE utilise les carrés des erreurs dans les calculs. Par conséquent, les observations les plus extrêmes ont généralement la plus grande influence sur la statistique.

Si vous sélectionnez une validation avec un ensemble de test en plus de la validation out-of-bag, le tableau affiche à la fois les résultats des données out-of-bag et des données de l'ensemble de test.

Il est possible qu'un petit pourcentage des valeurs résiduelles représente une grande partie de l'erreur dans les données. Par exemple, dans le tableau suivant, la taille totale de l'ensemble de données est d'environ 2 930. Du point de vue de la MSE, cela indique que 1 % des données représentent environ 36% de l'erreur. Dans un tel cas, les 30 cas qui contribuent le plus à l'erreur du modèle peuvent représenter l'occasion la plus naturelle d'améliorer l'arbre. Trouver un moyen d'améliorer les valeurs ajustées pour ces cas conduit à une augmentation relativement importante des performances globales du modèle.

Cette condition peut également indiquer que vous pouvez avoir une plus grande confiance dans les nœuds du modèle qui n'ont pas de cas avec les plus grandes erreurs. Étant donné que la plupart des erreurs proviennent d'un petit nombre de cas, les valeurs ajustées correspondant aux autres cas sont relativement plus précises.

Random Forests® Régression: prix de vent vs façade de lo; zone de lot; ...

Pourcentage de statistiques d'erreurs dû aux valeurs résiduelles les plus grandes % des valeurs résiduelles les Out-of-Bag plus grandes Dénombrement % MSE % MAD % MAPE 1,0 30 36,3855 9,5840 13,0409 2,0 59 46,9434 14,8347 18,0932 2,5 74 50,3622 16,9953 20,2317 3,0 88 53,1701 18,8880 22,0186 4,0 118 58,0879 22,5527 25,4151 5,0 147 62,0425 25,7845 28,3840 7,5 220 69,7824 32,9504 34,8161 10,0 293 75,0273 38,8507 40,2386 15,0 440 82,2816 48,6881 49,2733 20,0 586 86,9557 56,5610 56,7304