Méthodes et formules pour le pourcentage de statistiques d'erreur dues aux valeurs résiduelles les plus grandes dans Régression CART®

Sélectionnez la méthode ou la formule de votre choix.

Pour le pourcentage de statistiques d'erreur, la valeur dépend du pourcentage des valeurs résiduelles les plus grandes dans le calcul. Dans les formules suivantes, les calculs supposent que les valeurs résiduelles sont classées par valeur absolue, de sorte que i = 1 représente la valeur résiduelle avec la plus grande valeur absolue et i = N représente la valeur résiduelle avec la plus petite valeur absolue.

Lorsque vous utilisez la validation croisée sur K partitions, les statistiques d'apprentissage incluent les valeurs ajustées de l'arbre final pour l'ensemble complet de données. Les statistiques de test utilisent des valeurs ajustées du processus de validation qui peuvent avoir des arbres différents pour chaque partition.

Lorsque vous utilisez un ensemble de données de test pour validation, les statistiques de test utilisent des valeurs ajustées pour l'ensemble de données de test uniquement.

% MSE

% MAD

% MAPE

Notation

TermeDescription
cnombre des résidus les plus importants pour le pourcentage
yi valeur de réponse observée i e
réponse moyenne
réponse équipée i e
N nombre d’enregistrements