Tableau de méthode pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet^®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Sur ce thème

Fonction de perte
Validation de modèle
Taux d'apprentissage
Fraction de sous-échantillon
Nombre maximal de nœuds terminaux par arbre ou profondeur maximale de l'arbre
Taille minimale des nœuds terminaux

Nombre de prédicteurs sélectionnés pour la partition des nœuds
Pénalité de valeur manquante
Pénalité de catégorie de niveau élevé
Pondérations
Lignes utilisées
Lignes non utilisées

Fonction de perte

Fonction de perte utilisée par Minitab pour créer le modèle. Minitab utilise la fonction de perte d'erreur quadratique (par défaut), d'écart absolu ou de Huber.

La fonction de perte d'écart absolu tente de diminuer l'influence des points les moins adaptés par rapport à la fonction de perte de moindre erreur quadratique. La fonction de perte de Huber est un compromis entre les deux autres fonctions de perte. Elle utilise la fonction de perte de moindre erreur quadratique pour les valeurs résiduelles absolues plus petites et la fonction de perte de moindre écart absolu pour les valeurs résiduelles absolues les plus élevées.

Validation de modèle

Minitab utilise la méthode de validation croisée ou un ensemble de test distinct pour valider le modèle. Avec la validation croisée, vous pouvez spécifier les lignes pour chaque ensemble, ou autoriser une sélection aléatoire. Avec un ensemble de test distinct, vous pouvez spécifier les lignes pour les ensembles d’apprentissage et de test ou autoriser une sélection aléatoire.

Taux d'apprentissage

Les taux d'apprentissage faibles pondèrent moins chaque nouvel arbre dans le modèle que des taux d'apprentissage plus élevés et génèrent parfois plus d'arbres pour le modèle. Le modèle présentant un taux d'apprentissage faible est moins susceptible d'être surajusté pour l'ensemble de données d'apprentissage.

Le taux d'apprentissage par défaut est égal à max[0,01, 0,1 * min(1,0, N/10 000). Si vous spécifiez un taux d'apprentissage faible, vous pouvez augmenter le nombre maximal d'arbres dans le modèle de sorte que le nombre optimal d'arbres soit inférieur au nombre maximal d'arbres.

Fraction de sous-échantillon

La fraction de sous-échantillon affiche la fraction des données que l'analyse utilise pour créer chaque arbre. Modifiez ce paramètre si le surajustement s'avère problématique.

Nombre maximal de nœuds terminaux par arbre ou profondeur maximale de l'arbre

La fonction Régression TreeNet^® combine un grand nombre de petits arbres CART® dans un modèle puissant. Vous pouvez spécifier le nombre maximal de nœuds terminaux ou la profondeur maximale de l'arbre pour ces petits arbres CART®.

Nombre maximal de nœuds terminaux par arbre: Le nombre maximal de nœuds terminaux par défaut est de 6. Bien qu'un plus grand nombre maximal de nœuds terminaux par arbre puisse améliorer la capacité de détecter les interactions, les valeurs supérieures à 12 pourraient ralentir l'analyse sans forcément améliorer le modèle.
Profondeur maximale de l'arbre: La profondeur maximale par défaut de l'arbre est de 4. Si le modèle ajusté initial ne fonctionne pas bien, envisagez de spécifier une plus grande profondeur maximale de l'arbre, par exemple 5 ou 6, pour voir si cela améliore le modèle.

Taille minimale des nœuds terminaux

Indique le nombre minimal de cas pour un nœud terminal. Par exemple, si la taille minimale est de 3 et une division crée un nœud avec moins de 3 cas, Minitab n'effectue pas de division.

Nombre de prédicteurs sélectionnés pour la partition des nœuds

Cette ligne indique si la partition des nœuds tient compte de tous les prédicteurs à chaque nœud ou d'un sous-ensemble aléatoire des prédicteurs. Si la partition des nœuds utilise un sous-ensemble aléatoire, cette ligne indique le choix du nombre de prédicteurs à prendre en compte.

Si vous utilisez tous les prédicteurs au départ, envisagez d'utiliser un sous-ensemble de prédicteurs dans les modèles ultérieurs pour comparer les performances des modèles.

Pénalité de valeur manquante

Par défaut, l’analyse n’a pas de pénalité de valeur manquante et cette ligne n’est pas présente. La pénalité de valeur manquante pénalise une variable de prédiction en fonction de la proportion de valeurs manquantes. Une variable avec une pénalité élevée est moins susceptible de devenir le séparateur d'un nœud.

Pénalité de catégorie de niveau élevé

Par défaut, l’analyse n’a pas de pénalité de catégorie de niveau élevé et cette ligne n’est pas présente. La pénalité de catégorie de niveau élevé pénalise une variable en fonction du nombre de niveaux de catégorie par rapport à la taille du nœud pour chaque nœud. Ainsi, une division compétitive avec de nombreux niveaux est moins susceptible de devenir le séparateur d'un nœud.

Pondérations

Indique la colonne utilisée pour pondérer la réponse.

Lignes utilisées

Nombre d'observations de réponse incluses dans l'analyse qui ajuste et évalue le modèle.

Lignes non utilisées

Nombre d'observations de réponse manquantes. Cela inclut également les valeurs manquantes ou les zéros dans la colonne de pondération.

Tableau de méthode pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet®