Méthodes de partition des nœuds dans Régression CART®

Un arbre de régression résulte d'un partitionnement récursif binaire de l'ensemble de données d'apprentissage. Tout nœud parent de l'ensemble de données d'apprentissage peut être divisé en deux nœuds enfants qui s'excluent mutuellement d'un nombre limité de façons, en fonction des valeurs réelles des données dans le nœud. Pour une variable continue X et une valeur c, la partition envoie toutes les données avec des valeurs de X ≤ c au nœud gauche et toutes les données restantes au nœud droit.

CART utilise toujours la moyenne de deux valeurs adjacentes afin de calculer c. Une variable continue avec N valeurs distinctes génère jusqu'à N-1 divisions potentielles du nœud parent. Dans une analyse, le nombre réel de divisions potentielles est plus faible lorsque la taille minimale du nœud est supérieure à 1.

Pour une variable de catégorie X avec des valeurs distinctes {c1, c2, c3, ..., ck}, une division est un sous-ensemble de niveaux envoyés au nœud gauche. Une variable de catégorie avec k niveaux génère jusqu'à 2k – 1-1 divisions.

Pour une division potentielle pendant la phase de croissance de l'arbre, les critères d'amélioration sont soit les moindres carrés (LS) soit le moindre écart absolu (LAD). Minitab ajoute la division avec l'amélioration la plus élevée à l'arbre. Si l’amélioration pour deux prédicteurs est la même, l’algorithme nécessite une sélection pour continuer. La sélection utilise un schéma de départage déterministe qui implique la position des prédicteurs dans la feuille de calcul, le type de prédicteur et le nombre de classes dans un prédicteur de catégorie.

Minitab ne calcule les améliorations qu'à partir des données d'apprentissage lorsque l'analyse inclut une méthode de validation de modèle. Utilisez les formules suivantes pour calculer l'amélioration pour chaque critère.

Moindres carrés (LS)

Moindre écart absolu (LAD)

Notation

TermeDescription
SSEssomme d’erreurs au carré
enregistrement ie dans le nœud
SAEsomme des erreurs absolues
médiane de la réponse pour le nœud

Divisions de substitution

Après l'identification d'une division optimale, Minitab recherche des divisions de substitution entre les autres divisions potentielles. Une division de substitution ressemble à la division optimale dans laquelle les enregistrements vont aux nœuds gauche et droit. La mesure de la ressemblance est l'association.

Une association de 1 indique que la division de substitution reproduit la division d'origine. Une association de 0 indique que la division envoie tous les enregistrements au nœud avec plus d'enregistrements dans la division optimale. Les divisions avec une association positive sont des substituts potentiels. Les améliorations apportées aux divisions de substitution se trouvent dans les calculs d'importance des variables.

Lorsque de nouvelles données incluent des valeurs manquantes pour l'un des prédicteurs qui forment des divisions, Minitab utilise le meilleur prédicteur de substitution non manquant au lieu du prédicteur qui apparaît dans l'arbre.