Tableau de méthode pour Régression CART®

Trouvez des définitions et des interprétations pour chaque statistique dans le tableau de méthode.

Partition des nœuds

Minitab peut utiliser la moindre erreur quadratique ou le moindre écart absolu comme critère de partition des nœuds. La méthode de la moindre erreur quadratique minimise la somme des erreurs quadratiques. La méthode du moindre écart absolu minimise la somme des valeurs absolues des erreurs.

Arbre optimal

Minitab présente d'abord des résultats soit pour l'arbre optimal, soit pour le plus petit arbre dont la valeur pour le critère est située à moins d'un certain nombre d'erreurs types de la valeur de l'arbre optimal pour ce même critère. Par défaut, les résultats concernent soit le plus petit arbre avec une valeur de R2 située à moins d'1 erreur type de la valeur de R2 maximale, soit le plus petit arbre avec une valeur d'écart absolu située à moins d'1 erreur type de la valeur minimale, selon le choix pour Méthode de partition des nœuds.

Interprétation

Pour de nombreux ensembles de données, le critère s'améliore d'abord à mesure que le nombre de nœuds terminaux augmente. Le critère atteint alors une valeur optimale et se dégrade par la suite. Si la valeur optimale concerne un arbre pour lequel l'ajout d'un nœud modifie peu la valeur du critère, vous pouvez envisager d'utiliser un arbre plus petit mais presque aussi efficace que l'arbre optimal. Les petits arbres sont plus faciles à interpréter.

Validation de modèle

Minitab peut valider les performances de l'arbre avec un ensemble de données de test ou avec une validation croisée sur K partitions. Vous pouvez également choisir de ne pas valider les performances de l'arbre. Lorsque l'analyse utilise un ensemble de données de test, cet élément affiche les proportions cibles pour les ensembles de données d'apprentissage et de test.

Interprétation

Par défaut, Minitab utilise la validation croisée sur K partitions pour valider les performances de l'arbre pour les ensembles de données avec un maximum de 5 000 cas. Pour les ensembles de données avec plus de 5 000 cas, Minitab utilise un ensemble de données de test. Lorsque l'analyse utilise une méthode de validation, le critère de sélection de l'arbre optimal dépend de la méthode de validation. L'utilisation de la méthode de validation pour sélectionner l'arbre optimal empêche l'arbre d'être surajusté par rapport aux données disponibles et présente une description plus réaliste des performances de l'arbre avec de nouvelles données.

Pénalité de valeur manquante

Par défaut, l’analyse n’a pas de pénalité de valeur manquante et cette ligne n’est pas présente. La pénalité de valeur manquante pénalise une division compétitive en fonction de la proportion de valeurs manquantes pour chaque nœud. Ainsi, une division compétitive avec de nombreuses valeurs manquantes dans un nœud est moins susceptible d'avoir un rôle de séparateur principal.

Pénalité de catégorie de niveau élevé

Par défaut, l’analyse n’a pas de pénalité de catégorie de niveau élevé et cette ligne n’est pas présente. La pénalité de catégorie de niveau élevé pénalise une division compétitive en fonction du nombre de niveaux de catégorie par rapport à la taille du nœud pour chaque nœud. Ainsi, une division compétitive avec de nombreux niveaux dans un nœud est moins susceptible d'avoir un rôle de séparateur principal.

Pondérations

Indique la colonne utilisée pour pondérer la réponse.

Lignes utilisées

En raison de la façon dont les analyses prédictives traitent les données manquantes pour les prédicteurs, le nombre de lignes utilisées est souvent de la même taille que l'ensemble complet des données. Certaines données peuvent ne pas être valides et être exclues de l'analyse. Par exemple, l'analyse exclut les lignes avec des valeurs de réponse manquantes, des pondérations manquantes, des pondérations de 0 ou des pondérations négatives.

Lignes non utilisées

Nombre d'observations de réponse manquantes. Cela inclut également les valeurs manquantes ou les zéros dans la colonne de pondération.