Critère de
sélection pour le nombre optimal d'arbres
Sélectionnez la méthode pour générer votre modèle optimal. Vous pouvez comparer les résultats de plusieurs méthodes pour déterminer le meilleur choix pour votre application.
Log de
vraisemblance maximal : la méthode du maximum de vraisemblance trouve le maximum des fonctions de vraisemblance pour les données. Il s'agit du critère par défaut avec une réponse binaire.
Zone maximale
située sous la courbe ROC : la méthode de la zone maximale située sous la courbe ROC fonctionne bien dans de nombreuses applications. L'aire sous la courbe ROC mesure la capacité du modèle à classer les lignes de la plus susceptible de produire un événement à la moins susceptible de produire un événement. Cette option est disponible avec une réponse binaire.
Taux
minimal de mauvais classement : sélectionnez cette option pour afficher les résultats pour le modèle qui réduit le taux de mauvais classement. Le taux de mauvais classement repose sur un simple dénombrement de la fréquence à laquelle le modèle prédit un cas correctement ou incorrectement. Il s'agit du critère par défaut avec une réponse multinomiale.
Saisissez une valeur entre 1 et 5 000 pour définir le nombre d'arbres à créer. La valeur par défaut de 300 permet d'obtenir des résultats initiaux utiles.
Si le modèle sélectionné initialement est proche du nombre d'arbres que vous spécifiez, envisagez d'augmenter le nombre d'arbres pour rechercher un meilleur modèle.
Nombre
maximal de nœuds terminaux par arbre et Profondeur
maximale de l'arbre
Vous pouvez également limiter la taille des arbres. Sélectionnez l'une des options suivantes pour limiter la taille des arbres.
Nombre
maximal de nœuds terminaux par arbre : saisissez une valeur entre 2 et 2 000 pour définir le nombre maximal de nœuds terminaux d'un arbre. Habituellement, la valeur par défaut de 6 fournit un équilibre adéquat entre la vitesse de calcul et l'examen des interactions entre les variables. Une valeur de 2 élimine l'examen des interactions.
Profondeur
maximale de l'arbre : saisissez une valeur entre 2 et 1 000 pour définir la profondeur maximale d'un arbre. Le nœud racine correspond à une profondeur de 1. La profondeur par défaut est de 4. Dans de nombreuses applications, les profondeurs de 4 à 6 donnent des modèles relativement adéquats.
Nombre
minimal de cas autorisés pour un nœud terminal
Saisissez le nombre minimal de cas pour un nœud terminal. Par exemple, si la taille minimale est de 3 et une division crée un nœud avec moins de 3 cas, Minitab n'effectue pas de division.
Protection
contre le surajustement
Utilisez les options suivantes pour limiter le surajustement du modèle.
Taux
d'apprentissage
Le taux d'apprentissage est l'un des deux hyperparamètres extrêmement importants que vous pouvez affiner afin d'identifier un modèle optimal pour vos données.
Par défaut, si le nombre de cas dans vos données d'apprentissage est de 1 000 ou moins, Minitab utilise 0,01 comme taux d'apprentissage. Pour les ensembles de données de plus de 1 000 cas, le taux d'apprentissage par défaut est max[0,01, 0,1 * min(1,0, N/10 000)]. Par exemple, lorsque l'ensemble de données comporte 9 000 réponses, le taux d'apprentissage est de 0,09.
Si le modèle initial ne prédit pas correctement vos données, envisagez d'augmenter ou de diminuer le taux d'apprentissage de 5 ou de 10 fois pour voir si vous pouvez obtenir un meilleur modèle.
Randomiser la sélection de
sous-échantillon
Choisissez de créer chaque arbre dans l'analyse à partir d'un sous-échantillon de l'ensemble complet de données d'apprentissage ou à partir de sous-échantillons à chaque niveau de réponse.
Dans tout
l'ensemble de données : sélectionnez un échantillon aléatoire dans l'ensemble complet de données d'apprentissage. Généralement, une fraction de 0,5 produit de bons résultats. Envisagez d'augmenter la valeur par défaut de la fraction de 0,5 à 0,70 ou plus si le modèle initial n'est pas bien ajusté à vos données.
Dans chaque
niveau de réponse : prenez un sous-échantillon des cas de classe d'événement dans les données d'apprentissage et un sous-échantillon des cas de classe de non-événement dans les données d'apprentissage. Vous pouvez utiliser cette option pour vous assurer que suffisamment de cas d'une classe rare se trouvent dans chaque sous-échantillon. Si une classe est assez rare, vous pouvez saisir 1 pour inclure tous ses cas dans chaque sous-échantillon.
Fraction de
sous-échantillon
Spécifiez la proportion des données d'apprentissage à sélectionner de manière aléatoire pour créer chaque arbre dans l'analyse. Généralement, une fraction de 0,5 produit de bons résultats. Envisagez d'augmenter la valeur par défaut de la fraction de 0,5 à 0,70 ou plus si le modèle initial n'est pas bien ajusté à vos données.
Nombre de
prédicteurs pour la partition des nœuds
Spécifiez le nombre de prédicteurs à prendre en compte pour chaque partition de nœud. Généralement, l'analyse fonctionne bien lorsque vous tenez compte de tous les prédicteurs à chaque nœud. Toutefois, certains ensembles de données disposent d'associations parmi les prédicteurs qui conduisent à une amélioration des performances du modèle lorsque l'analyse tient compte d'un sous-ensemble aléatoire de prédicteurs différent à chaque nœud. Dans de tels cas, la racine carrée du nombre total de prédicteurs est un point de départ habituel. Après avoir utilisé la racine carrée et affiché le modèle, vous pouvez envisager de spécifier un nombre plus grand ou plus petit de prédicteurs avec un pourcentage du total.
Nombre total
de prédicteurs : sélectionnez cette option afin d'utiliser tous les prédicteurs pour la partition des nœuds.
Racine
carrée du nombre total de prédicteurs : sélectionnez cette option afin d'utiliser la racine carrée du nombre total de prédicteurs pour la partition des nœuds.
K pour
cent du nombre total de prédicteurs ; K = : sélectionnez cette option afin d'utiliser un pourcentage de prédicteurs pour la partition des nœuds.
Base pour le générateur
de nombres aléatoires
Vous pouvez spécifier une base pour le générateur de nombres aléatoires afin de sélectionner de manière aléatoire les sous-échantillons et le sous-ensemble des prédicteurs. Généralement, vous n'avez pas besoin de modifier la base. Vous pouvez modifier la base pour explorer la sensibilité des résultats aux sélections aléatoires ou pour assurer la même sélection aléatoire pour les analyses répétées.
Pondérations
Saisissez une colonne qui contient les pondérations de cas. La colonne doit comporter le même nombre de lignes que la colonne de réponse. Les valeurs doivent être ≥ 0. Minitab omet les lignes qui contiennent des valeurs manquantes ou des zéros provenant de l'analyse.