Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.
Minitab utilise le log de vraisemblance maximal (par défaut), la zone maximale située sous la courbe ROC, ou le taux minimal de mauvais classement pour sélectionner le nombre optimal d'arbres.
Minitab utilise la méthode de validation croisée ou un ensemble de test distinct pour valider le modèle. Avec la validation croisée, vous pouvez spécifier les lignes pour chaque ensemble, ou autoriser une sélection aléatoire. Avec un ensemble de test distinct, vous pouvez spécifier les lignes pour les ensembles d’apprentissage et de test ou autoriser une sélection aléatoire.
Les taux d'apprentissage faibles pondèrent moins chaque nouvel arbre dans le modèle que des taux d'apprentissage plus élevés et génèrent parfois plus d'arbres pour le modèle. Le modèle présentant un taux d'apprentissage faible est moins susceptible d'être surajusté pour l'ensemble de données d'apprentissage.
Le taux d'apprentissage par défaut est égal à max[0,01, 0,1 * min(1,0, N/10 000). Si vous spécifiez un taux d'apprentissage faible, vous pouvez augmenter le nombre maximal d'arbres dans le modèle de sorte que le nombre optimal d'arbres soit inférieur au nombre maximal d'arbres.
La méthode de sélection de sous-échantillon affiche la fraction des données que l'analyse utilise pour créer chaque arbre. Modifiez ce paramètre si le surajustement s'avère problématique. Si l'analyse spécifie une fraction distincte pour chaque classe dans une variable de réponse binaire, la méthode affiche les deux valeurs. L'option permettant de spécifier la fraction pour chaque niveau de réponse garantit que les arbres contiennent une quantité minimale de chaque valeur de réponse lorsque l'une des valeurs est rare.
Indique le nombre minimal de cas pour un nœud terminal. Par exemple, si la taille minimale est de 3 et une division crée un nœud avec moins de 3 cas, Minitab n'effectue pas de division.
Cette ligne indique si la partition des nœuds tient compte de tous les prédicteurs à chaque nœud ou d'un sous-ensemble aléatoire des prédicteurs. Si la partition des nœuds utilise un sous-ensemble aléatoire, cette ligne indique le choix du nombre de prédicteurs à prendre en compte.
Si vous utilisez tous les prédicteurs au départ, envisagez d'utiliser un sous-ensemble de prédicteurs dans les modèles ultérieurs pour comparer les performances des modèles.
Par défaut, l’analyse n’a pas de pénalité de valeur manquante et cette ligne n’est pas présente. La pénalité de valeur manquante pénalise une variable de prédiction en fonction de la proportion de valeurs manquantes. Une variable avec une pénalité élevée est moins susceptible de devenir le séparateur d'un nœud.
Par défaut, l’analyse n’a pas de pénalité de catégorie de niveau élevé et cette ligne n’est pas présente. La pénalité de catégorie de niveau élevé pénalise une variable en fonction du nombre de niveaux de catégorie par rapport à la taille du nœud pour chaque nœud. Ainsi, une division compétitive avec de nombreux niveaux est moins susceptible de devenir le séparateur d'un nœud.
Indique la colonne utilisée pour pondérer la réponse.
Nombre d'observations de réponse incluses dans l'analyse qui ajuste et évalue le modèle.
Nombre d'observations de réponse manquantes. Cela inclut également les valeurs manquantes ou les zéros dans la colonne de pondération.