Résumé du modèle pour Régression CART^®

Trouvez des définitions et des interprétations pour chaque statistique dans le tableau récapitulatif du modèle.

Sur ce thème

Nombre total de prédicteurs
Prédicteurs importants
Nombre de nœuds terminaux
Taille minimale des nœuds terminaux
R carré

Racine de l'erreur quadratique moyenne (RMSE)
Erreur quadratique moyenne (MSE)
Ecart absolu moyen (MAD)
Pourcentage d'erreur absolue moyen (MAPE)

Nombre total de prédicteurs

Nombre total de prédicteurs disponibles pour l'arbre. Il s'agit de la somme des prédicteurs continus et de catégorie que vous spécifiez.

Prédicteurs importants

Nombre de prédicteurs importants dans l'arbre. Les prédicteurs importants sont les variables utilisées comme séparateurs principaux ou de substitution.

Interprétation

Vous pouvez utiliser le diagramme d'importance relative des variables pour afficher l'ordre d'importance relative des variables. Par exemple, supposons que 10 des 20 prédicteurs soient importants dans l'arbre, le diagramme d'importance relative des variables affiche les variables dans l'ordre d'importance.

Nombre de nœuds terminaux

Un nœud terminal est un nœud final qui ne peut pas être divisé davantage.

Interprétation

Vous pouvez utiliser les informations des nœuds terminaux pour faire des prévisions.

Taille minimale des nœuds terminaux

La taille minimale des nœuds terminaux correspond au nœud terminal avec le plus petit nombre de cas.

Interprétation

Par défaut, Minitab définit le nombre minimal de cas autorisés pour un nœud terminal à 3 ; cependant, la taille minimale des nœuds terminaux d'un arbre peut être plus grande que le nombre minimal autorisé par l'analyse. Vous pouvez modifier cette valeur de seuil dans la sous-boîte de dialogue Options.

R carré

Le R² est le pourcentage de variation dans la réponse que le modèle explique. Les valeurs aberrantes ont un plus grand effet sur le R² que sur le MAD et le MAPE.

Lorsque vous utilisez une méthode de validation, le tableau inclut une statistique R² pour l’ensemble de données d’entraînement et une statistique R² pour la méthode de validation. Lorsque la méthode de validation est une validation croisée k-fold, la validation utilise chaque pli lorsque la construction de l’arbre exclut ce plongement. La statistique R² issue des résultats de validation est généralement une meilleure mesure du fonctionnement du modèle pour les nouvelles données.

Interprétation

Utilisez le R² pour déterminer la qualité d'ajustement offert par le modèle. Plus la valeur de R² est élevée, plus l'ajustement offert par le modèle est bon. R² est toujours compris entre 0% et 100%.

Vous pouvez illustrer graphiquement la signification des différentes valeurs de R². Le premier graphique illustre un modèle de régression simple qui explique 85,5% de la variation de la réponse. Le deuxième graphique illustre un modèle qui explique 22,6 % de la variation de la réponse. Plus la variation expliquée par le modèle est grande, plus les points de données se rapprochent des valeurs ajustées. Théoriquement, si un modèle peut expliquer 100 % de la variation, les valeurs ajustées sont toujours égales aux valeurs observées et tous les points de données se situent sur la ligne y =x.

Un R² de validation nettement inférieur au R² d'apprentissage indique que l'arbre peut ne pas prédire les valeurs de réponse pour les nouveaux cas aussi bien qu'il ajuste l'ensemble de données actuel.

Racine de l'erreur quadratique moyenne (RMSE)

La racine de l'erreur quadratique moyenne (RMSE) mesure l'exactitude de l'arbre. Les valeurs aberrantes ont un plus grand effet sur la RMSE que sur le MAD et le MAPE.

Lorsque vous utilisez une méthode de validation, la table inclut une statistique RMSE pour l’ensemble de données d’entraînement et une statistique RMSE pour les résultats de validation. Lorsque la méthode de validation est une validation croisée k-fold, la validation utilise chaque pli lorsque la construction de l’arbre exclut ce plongement. La statistique RMSE de validation est généralement une meilleure mesure du fonctionnement du modèle pour les nouvelles données.

Interprétation

Utilisez cette statistique pour comparer les valeurs ajustées de différents arbres. Des valeurs plus petites indiquent un meilleur ajustement. Un RMSE de test qui est bien supérieur au RMSE d’entraînement indique que l’arbre pourrait ne pas prédire les valeurs de réponse pour les nouveaux cas et que l’arbre correspond à l’ensemble de données actuel.

Erreur quadratique moyenne (MSE)

L'erreur quadratique moyenne (MSE) mesure l'exactitude de l'arbre. Les valeurs aberrantes ont un plus grand effet sur la MSE que sur le MAD et le MAPE.

Lorsque vous utilisez une méthode de validation, la table inclut une statistique MSE pour l’ensemble de données d’entraînement et une statistique MSE pour les résultats de validation. Lorsque la méthode de validation est une validation croisée k-fold, la validation utilise chaque fold lorsque la construction du modèle exclut ce fold. La statistique MSE de validation est généralement une meilleure mesure du fonctionnement du modèle pour les nouvelles données.

Interprétation

Utilisez cette statistique pour comparer les valeurs ajustées de différents arbres. Des valeurs plus petites indiquent un meilleur ajustement. Un MSE de validation qui est bien supérieur au MSE d’entraînement indique que l’arbre pourrait ne pas prédire les valeurs de réponse pour les nouveaux cas et que l’arbre correspond à l’ensemble de données actuel.

Ecart absolu moyen (MAD)

L'écart absolu moyen (MAD) exprime l'exactitude dans les mêmes unités que les données, ce qui permet de conceptualiser la quantité d'erreurs. Les valeurs aberrantes ont moins d'effet sur le MAD que sur le R², la RMSE et la MSE.

Lorsque vous utilisez une méthode de validation, la table inclut une statistique MAD pour l’ensemble de données d’entraînement et une statistique MAD pour les résultats de validation. Lorsque la méthode de validation est une validation croisée k-fold, la validation utilise chaque fold lorsque la construction du modèle exclut ce fold. La statistique MAD de validation est généralement une meilleure mesure du fonctionnement du modèle pour les nouvelles données.

Interprétation

Utilisez cette statistique pour comparer les valeurs ajustées de différents arbres. Des valeurs plus petites indiquent un meilleur ajustement. Un MAD de validation qui est bien supérieur au MAD d’entraînement indique que l’arbre pourrait ne pas prédire les valeurs de réponse pour les nouveaux cas et que l’arbre correspond à l’ensemble de données actuel.

Pourcentage d'erreur absolue moyen (MAPE)

Le pourcentage d'erreur absolue moyen (MAPE) exprime l'exactitude en pourcentage d'erreur. Étant donné que le MAPE est un pourcentage, il peut être plus facile à comprendre que les autres statistiques de mesure de l'exactitude. Par exemple, si le MAPE est de 0,05 en moyenne, le rapport moyen entre l'erreur ajustée et la valeur réelle est de 5 % dans tous les cas. Les valeurs aberrantes ont moins d'effet sur le MAPE que sur le R², la RMSE et la MSE.

Cependant, parfois, vous pouvez voir une valeur de MAPE très grande, même si l'arbre semble bien ajuster les données. Examinez le diagramme de la valeur de réponse ajustée par rapport à la valeur de réponse réelle pour voir si les valeurs de données sont proches de 0. Étant donné que le MAPE divise l'erreur absolue par les données réelles, les valeurs proches de 0 peuvent grandement augmenter le MAPE.

Lorsque vous utilisez une méthode de validation, la table inclut une statistique MAPE pour l’ensemble de données d’entraînement et une statistique MAPE pour les résultats de validation. Lorsque la méthode de validation est une validation croisée k-fold, la validation utilise chaque fold lorsque la construction du modèle exclut ce fold. La statistique MAPE de validation est généralement une meilleure mesure du fonctionnement du modèle pour les nouvelles données.

Interprétation

Utilisez cette statistique pour comparer les valeurs ajustées de différents arbres. Des valeurs plus petites indiquent un meilleur ajustement. Un MAPE de validation qui est bien supérieur au MAPE d’entraînement indique que l’arbre pourrait ne pas prédire les valeurs de réponse pour les nouveaux cas et que l’arbre correspond à l’ensemble de données actuel.

Résumé du modèle pour Régression CART®

Sur ce thème

Nombre total de prédicteurs

Prédicteurs importants

Interprétation

Nombre de nœuds terminaux

Interprétation

Taille minimale des nœuds terminaux

Interprétation

R carré

Interprétation

Racine de l'erreur quadratique moyenne (RMSE)

Interprétation

Erreur quadratique moyenne (MSE)

Interprétation

Ecart absolu moyen (MAD)

Interprétation

Pourcentage d'erreur absolue moyen (MAPE)

Interprétation

Résumé du modèle pour Régression CART^®