Pourcentage des statistiques d’erreur dues aux plus grands résidus pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet^®

Remarque

Cette commande est disponible avec la commande Module d'analyse prédictive. Cliquez ici pour plus d’informations sur la façon d’activer le module.

Utilisez le pourcentage de statistiques d'erreur pour examiner la quantité d'erreurs dans les valeurs ajustées du modèle par rapport aux pires valeurs ajustées. Lorsque l’analyse utilise une technique de validation, vous pouvez également comparer les statistiques du modèle pour les données d’entraînement et les résultats de validation.

Chaque ligne du tableau affiche les statistiques d'erreur pour le pourcentage donné de valeurs résiduelles. Le pourcentage de l'erreur quadratique moyenne (MSE) qui provient des valeurs résiduelles les plus grandes est généralement plus élevé que le pourcentage pour les deux autres statistiques. La MSE utilise les carrés des erreurs dans les calculs. Par conséquent, les observations les plus extrêmes ont généralement la plus grande influence sur la statistique. De grandes différences entre le pourcentage d'erreur pour la MSE et les deux autres mesures peuvent indiquer que le modèle est plus sensible à la sélection de la partition des nœuds avec la moindre erreur quadratique ou le moindre écart absolu.

Lorsque vous utilisez une technique de validation, Minitab calcule des statistiques distinctes pour les données d’entraînement et pour les résultats de validation. Vous pouvez comparer les statistiques pour examiner les performances relatives du modèle avec les données d'apprentissage et avec de nouvelles données. Les statistiques de validation sont généralement une meilleure mesure de la performance du modèle pour les nouvelles données.

Il est possible qu'un petit pourcentage des valeurs résiduelles représente une grande partie de l'erreur dans les données. Par exemple, dans le tableau suivant, la taille totale de l'ensemble de données est d'environ 4400. Du point de vue du MSE, cela indique que 1 % des données représentent environ 13 % de l’erreur. Dans un tel cas, les 31 cas qui contribuent le plus à l'erreur du modèle peuvent représenter l'occasion la plus naturelle d'améliorer l'arbre. Trouver un moyen d'améliorer les valeurs ajustées pour ces cas conduit à une augmentation relativement importante des performances globales du modèle.

Cette condition peut également indiquer que vous pouvez avoir une plus grande confiance dans les nœuds du modèle qui n'ont pas de cas avec les plus grandes erreurs. Étant donné que la plupart des erreurs proviennent d'un petit nombre de cas, les valeurs ajustées correspondant aux autres cas sont relativement plus précises.

Pourcentage de statistiques d'erreurs dû aux valeurs résiduelles les plus grandes

% des valeurs résiduelles les plus grandes
	Apprentissage				Test
	Dénombrement	% MSE	% MAD	% MAPE	Dénombrement	% MSE	% MAD
1,0	31	13,2824	4,9997	8,0885	14	21,6989	6,9082
2,0	62	21,3764	8,9374	12,9910	27	31,9396	11,6377
2,5	77	24,7125	10,6967	14,9989	33	35,7935	13,6106
3,0	93	27,9315	12,4817	17,0128	40	39,8022	15,7838
4,0	123	33,2979	15,6372	20,4671	53	45,8259	19,4124
5,0	154	38,1707	18,6937	23,7785	66	50,8291	22,7194
7,5	231	47,9001	25,4954	31,0104	98	59,7000	29,6264
10,0	307	55,3764	31,4216	37,0787	131	66,4339	35,7333
15,0	461	66,7462	41,8167	47,2740	196	75,4853	45,6703
20,0	614	74,8066	50,5429	55,5443	261	81,6292	53,8603

% des valeurs résiduelles les plus grandes	Test

	% MAPE
1,0	9,0517
2,0	14,0987
2,5	16,1761
3,0	18,4925
4,0	22,4744
5,0	25,9526
7,5	33,2548
10,0	39,2610
15,0	48,6658
20,0	56,3489

Pourcentage des statistiques d’erreur dues aux plus grands résidus pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet®

Remarque

Pourcentage de statistiques d'erreurs dû aux valeurs résiduelles les plus grandes

Pourcentage des statistiques d’erreur dues aux plus grands résidus pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet^®