CART utilise toujours la moyenne de deux valeurs adjacentes afin de calculer c. Une variable continue avec N valeurs distinctes génère jusqu'à N-1 divisions potentielles du nœud parent. Dans une analyse, le nombre réel de divisions potentielles est plus faible lorsque la taille minimale du nœud est supérieure à 1.
Pour une variable de catégorie X avec des valeurs distinctes {c1, c2, c3, ..., ck}, une division est un sous-ensemble de niveaux envoyés au nœud gauche. Une variable de catégorie avec k niveaux génère jusqu'à 2k – 1-1 divisions.
Pour une division potentielle pendant la phase de croissance de l'arbre, les critères d'amélioration sont soit les moindres carrés (LS) soit le moindre écart absolu (LAD). Minitab ajoute la division avec l'amélioration la plus élevée à l'arbre. Si l’amélioration pour deux prédicteurs est la même, l’algorithme nécessite une sélection pour continuer. La sélection utilise un schéma de départage déterministe qui implique la position des prédicteurs dans la feuille de calcul, le type de prédicteur et le nombre de classes dans un prédicteur de catégorie.
Minitab ne calcule les améliorations qu'à partir des données d'apprentissage lorsque l'analyse inclut une méthode de validation de modèle. Utilisez les formules suivantes pour calculer l'amélioration pour chaque critère.
où
où
Terme | Description |
---|---|
SSE | ssomme d’erreurs au carré |
enregistrement ie dans le nœud | |
SAE | somme des erreurs absolues |
médiane de la réponse pour le nœud |
Après l'identification d'une division optimale, Minitab recherche des divisions de substitution entre les autres divisions potentielles. Une division de substitution ressemble à la division optimale dans laquelle les enregistrements vont aux nœuds gauche et droit. La mesure de la ressemblance est l'association.
Une association de 1 indique que la division de substitution reproduit la division d'origine. Une association de 0 indique que la division envoie tous les enregistrements au nœud avec plus d'enregistrements dans la division optimale. Les divisions avec une association positive sont des substituts potentiels. Les améliorations apportées aux divisions de substitution se trouvent dans les calculs d'importance des variables.
Lorsque de nouvelles données incluent des valeurs manquantes pour l'un des prédicteurs qui forment des divisions, Minitab utilise le meilleur prédicteur de substitution non manquant au lieu du prédicteur qui apparaît dans l'arbre.