Critère de sélection pour le nombre optimal d'arbres

Minitab utilise le log de vraisemblance maximal (par défaut), la zone maximale située sous la courbe ROC, ou le taux minimal de mauvais classement pour sélectionner le nombre optimal d'arbres.

Validation de modèle

Minitab utilise la méthode de validation croisée ou un ensemble de test distinct pour valider le modèle. Avec la validation croisée, vous pouvez spécifier les lignes pour chaque ensemble, ou autoriser une sélection aléatoire. Avec un ensemble de test distinct, vous pouvez spécifier les lignes pour les ensembles d’apprentissage et de test ou autoriser une sélection aléatoire.

Taux d'apprentissage

Les taux d'apprentissage faibles pondèrent moins chaque nouvel arbre dans le modèle que des taux d'apprentissage plus élevés et génèrent parfois plus d'arbres pour le modèle. Le modèle présentant un taux d'apprentissage faible est moins susceptible d'être surajusté pour l'ensemble de données d'apprentissage.

Le taux d'apprentissage par défaut est égal à max[0,01, 0,1 * min(1,0, N/10 000). Si vous spécifiez un taux d'apprentissage faible, vous pouvez augmenter le nombre maximal d'arbres dans le modèle de sorte que le nombre optimal d'arbres soit inférieur au nombre maximal d'arbres.

Méthode de sélection de sous-échantillon

La méthode de sélection de sous-échantillon affiche la fraction des données que l'analyse utilise pour créer chaque arbre. Modifiez ce paramètre si le surajustement s'avère problématique. Si l'analyse spécifie une fraction distincte pour chaque classe dans une variable de réponse binaire, la méthode affiche les deux valeurs. L'option permettant de spécifier la fraction pour chaque niveau de réponse garantit que les arbres contiennent une quantité minimale de chaque valeur de réponse lorsque l'une des valeurs est rare.

Nombre maximal de nœuds terminaux par arbre ou profondeur maximale de l'arbre

La fonction Classification TreeNet® combine un grand nombre de petits arbres CART® dans un modèle puissant. Vous pouvez spécifier le nombre maximal de nœuds terminaux ou la profondeur maximale de l'arbre pour ces petits arbres CART®.
Nombre maximal de nœuds terminaux par arbre
Le nombre maximal de nœuds terminaux par défaut est de 6. Bien qu'un plus grand nombre maximal de nœuds terminaux par arbre puisse améliorer la capacité de détecter les interactions, les valeurs supérieures à 12 pourraient ralentir l'analyse sans forcément améliorer le modèle.
Profondeur maximale de l'arbre
La profondeur maximale par défaut de l'arbre est de 4. Si le modèle ajusté initial ne fonctionne pas bien, envisagez de spécifier une plus grande profondeur maximale de l'arbre, par exemple 5 ou 6, pour voir si cela améliore le modèle.

Taille minimale des nœuds terminaux

Indique le nombre minimal de cas pour un nœud terminal. Par exemple, si la taille minimale est de 3 et une division crée un nœud avec moins de 3 cas, Minitab n'effectue pas de division.

Nombre de prédicteurs sélectionnés pour la partition des nœuds

Cette ligne indique si la partition des nœuds tient compte de tous les prédicteurs à chaque nœud ou d'un sous-ensemble aléatoire des prédicteurs. Si la partition des nœuds utilise un sous-ensemble aléatoire, cette ligne indique le choix du nombre de prédicteurs à prendre en compte.

Si vous utilisez tous les prédicteurs au départ, envisagez d'utiliser un sous-ensemble de prédicteurs dans les modèles ultérieurs pour comparer les performances des modèles.

Pénalité de valeur manquante

Par défaut, l’analyse n’a pas de pénalité de valeur manquante et cette ligne n’est pas présente. La pénalité de valeur manquante pénalise une variable de prédiction en fonction de la proportion de valeurs manquantes. Une variable avec une pénalité élevée est moins susceptible de devenir le séparateur d'un nœud.

Pénalité de catégorie de niveau élevé

Par défaut, l’analyse n’a pas de pénalité de catégorie de niveau élevé et cette ligne n’est pas présente. La pénalité de catégorie de niveau élevé pénalise une variable en fonction du nombre de niveaux de catégorie par rapport à la taille du nœud pour chaque nœud. Ainsi, une division compétitive avec de nombreux niveaux est moins susceptible de devenir le séparateur d'un nœud.

Pondérations

Indique la colonne utilisée pour pondérer la réponse.

Lignes utilisées

Nombre d'observations de réponse incluses dans l'analyse qui ajuste et évalue le modèle.

Lignes non utilisées

Nombre d'observations de réponse manquantes. Cela inclut également les valeurs manquantes ou les zéros dans la colonne de pondération.