Sélectionner les valeurs des hyperparamètres à évaluer pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet®

Exécutez Module d'analyse prédictive > Régression TreeNet® > Ajuster le modèle. Cliquez sur le bouton Régler les hyperparamètres pour identifier un meilleur modèle d’après le tableau récapitulatif du modèle.

Exécutez Module d'analyse prédictive > Régression TreeNet® > Découvrir les prédicteurs principaux. Cliquez sur le bouton Régler les hyperparamètres pour identifier un meilleur modèle d’après le tableau récapitulatif du modèle.

Généralités

Les performances des modèles TreeNet® sont généralement sensibles aux valeurs du taux d’apprentissage, de la fraction du sous-échantillon et de la complexité des arbres individuels qui forment le modèle. Dans les résultats d’un modèle, cliquez sur Affiner les hyperparamètres pour identifier un meilleur modèle pour évaluer plusieurs valeurs de ces hyperparamètres et savoir quelle combinaison produit les meilleures valeurs d’un critère de précision, comme la valeur R2 maximale. De meilleures valeurs de ces hyperparamètres ont le potentiel d’améliorer considérablement la précision des prédictions, de sorte que l’exploration de différentes valeurs est une étape courante dans l’analyse.

Vous pouvez également ajuster le nombre d’arbres inclut dans le modèle. En général, 300 arbres suffisent à distinguer les valeurs des hyperparamètres. En général, vous augmentez le nombre d’arbres lorsque le nombre optimal d’arbres pour un ou plusieurs modèles d’intérêt est proche du nombre maximal d’arbres. Si le nombre d’arbres est plus proche du nombre maximal, une augmentation du nombre d’arbres est plus susceptible d’améliorer les performances du modèle.

Paramètres de protection contre le surajustement

Spécifiez une ou plusieurs valeurs pour chaque hyperparamètre à évaluer. L’analyse évalue les hyperparamètres pour trouver la combinaison ayant la meilleure valeur du critère de précision. Si vous n'entrez aucune valeur pour un hyperparamètre, l’évaluation utilise la valeur de cet hyperparamètre provenant du modèle dans les résultats. Si la réponse est binaire et que le modèle original spécifie la proportion d’événements et de non-événements à échantillonner, l’évaluation utilise toujours les proportions du modèle original.

Taux d'apprentissage

Entrez jusqu'à 10 valeurs. Les valeurs éligibles vont de 0,0001 à 1. Sauf si vous sélectionnez Évaluer les combinaisons complètes de paramètres, l’évaluation du taux d’apprentissage est la première. Si elle se produit d’abord, l’évaluation du taux d’apprentissage utilise la plus petite valeur du taux d’apprentissage et de la fraction du sous-échantillon.

Fraction de sous-échantillon

Entrez jusqu'à 10 valeurs. Les valeurs éligibles sont supérieures à 0 et inférieures ou égales à 1. Sauf si vous sélectionnez Évaluer les combinaisons complètes de paramètres, l’évaluation du sous-échantillon est la deuxième. Si elle se produit en deuxième, l’évaluation de la fraction de sous-échantillon utilise la meilleure valeur trouvée par l’analyse pour le taux d’apprentissage et la plus petite valeur de la fraction sous-échantillon.

Fraction de sous-échantillon est désactivé lorsque le modèle d’origine spécifie la proportion d’événements et de non-événements à échantillonner pour une réponse binaire.

Paramètre individuel de complexité des arbres

Choisissez d’évaluer le Maximum de nœuds terminaux ou le Profondeur maximale de l'arbre. Habituellement, l’un ou l’autre choix est un moyen raisonnable d’identifier un modèle utile et le choix est une préférence individuelle. Sauf si vous sélectionnez Évaluer les combinaisons complètes de paramètres, l’évaluation du paramètre de complexité est la dernière. Si elle se déroule en dernier, l’évaluation utilise la meilleure valeur que l’analyse a déjà trouvée pour le taux d’apprentissage et pour la fraction de sous-échantillon.
Maximum de nœuds terminaux
Entrez jusqu'à 3 valeurs. Les valeurs éligibles sont entre 2 et 2000. Habituellement, la valeur par défaut de 6 fournit un équilibre adéquat entre la vitesse de calcul et l'examen des interactions entre les variables. Une valeur de 2 élimine l'examen des interactions.
Profondeur maximale de l'arbre
Entrez jusqu'à 3 valeurs. Les valeurs éligibles sont entre 2 et 1000 pour représenter la profondeur maximale d'un arbre. Le nœud racine correspond à une profondeur de 1. Dans de nombreuses applications, les profondeurs de 4 à 6 donnent des modèles relativement bons.

Nombre d'arbres

Saisissez une valeur entre 1 et 5 000 pour définir le nombre maximal d'arbres à créer. La valeur par défaut de 300 fournit généralement des résultats utiles pour l’évaluation des valeurs des hyperparamètres.

Si un ou plusieurs modèles d’intérêt ont un certain nombre d’arbres proches du nombre d’arbres que vous spécifiez, alors envisagez d'augmenter le nombre d’arbres. Si le nombre d’arbres est plus proche du nombre maximal, une augmentation du nombre d’arbres est plus susceptible d’améliorer les performances du modèle.

Évaluer les combinaisons complètes de paramètres

Si vous spécifiez des valeurs pour plus d’un hyperparamètre, les modèles dans le tableau d’évaluation dépendent de l'évaluation ou non des combinaisons complètes des hyperparamètres.
  • Si vous sélectionnez Évaluer les combinaisons complètes de paramètres, l’algorithme évalue chaque combinaison des hyperparamètres. Cette option prend généralement plus de temps à calculer.
  • Dans le cas contraire, l’algorithme évalue les hyperparamètres dans cet ordre :
    1. Taux d'apprentissage
    2. Fraction de sous-échantillon
    3. Paramètre individuel de complexité des arbres
    Supposons par exemple que l’algorithme reçoive les hyperparamètres suivants :
    • Taux d'apprentissage : 0,001, 0,01, 0,1
    • Fractions de sous-échantillon : 0,4, 0,5, 0,7
    • Nombre maximal de nœuds terminaux : 4, 6
    1. L’algorithme définit la proportion de sous-échantillon à 0,4 et le nombre maximal de nœuds terminaux à 4. Ensuite, l’algorithme évalue les taux d’apprentissage d'un plus petit au plus grand : 0,001, 0,01, 0,1.
    2. Supposons que l’algorithme identifie 0,01 comme le meilleur taux d’apprentissage. Ensuite, l’algorithme fixe le taux d’apprentissage à 0,01 et le nombre maximal de nœuds terminaux à 4. Ensuite, l’algorithme évalue les proportions de sous-échantillon de 0,4, 0,5 et 0,7.
    3. Supposons que l’algorithme identifie 0,5 comme la meilleure proportion de sous-échantillon. Ensuite, l’algorithme fixe le taux d’apprentissage à 0,01, la proportion de sous-échantillon à 0,5. Ensuite, l’algorithme évalue le nombre maximal de nœuds de 4 et 6.
    4. Supposons que l’algorithme identifie 6 comme le meilleur nombre maximal de nœuds terminaux. Ensuite, Minitab produit le tableau d’évaluation et les résultats pour le modèle avec un taux d’apprentissage = 0,01, la proportion de sous-échantillon 0,5, et le nombre maximal de nœuds terminaux 6.

    Dans cet exemple, l’analyse qui n’évalue pas l’ensemble complet des combinaisons de paramètres comprend 8 modèles dans le tableau d’évaluation. Une analyse de toutes les combinaisons de paramètres a 3 × 3 × 2 = 18 combinaisons et prend plus de temps à calculer.

Afficher les résultats

Après avoir spécifié les valeurs à examiner, cliquez sur Afficher les résultats. Dans un nouvel ensemble de résultats, Minitab produit un tableau qui compare le critère de précision pour les combinaisons d’hyperparamètres et les résultats pour le modèle avec la meilleure valeur du critère de précision.

Minitab recrée les mêmes tableaux et graphiques pour le nouveau modèle que pour le modèle original. Les tableaux et les graphiques du nouveau modèle sont dans un nouvel ensemble de résultats. La notation est la même que dans les sections précédente. Les colonnes normalisées se trouvent dans la feuille de travail. Si par exemple l’analyse originale stockait les valeurs ajustées dans une colonne intitulée "Fit", la nouvelle analyse titre une colonne vide "Fit_1" pour y stocker les valeurs ajustées.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique