Optimisation des hyperparamètres pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet^®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Sur ce thème

Nombre optimal d'arbres
R carré (%)
MAD
Taux d'apprentissage

Fraction de sous-échantillon
Nombre maximal de nœuds terminaux par arbre
Profondeur maximale de l'arbre

Utilisez les résultats pour comparer la façon dont les modèles fonctionnent avec différentes valeurs des hyperparamètres. Cliquez sur Régler les hyperparamètres pour évaluer les valeurs supplémentaires des hyperparamètres.

Nombre optimal d'arbres

Le nombre optimal d’arbres est habituellement différent à chaque étape. Lorsque le nombre optimal est proche du nombre maximal d’arbres pour l’analyse, le modèle est plus susceptible de s’améliorer si vous augmentez le nombre d’arbres qu’un modèle avec un nombre optimal d’arbres loin du maximum. Vous pouvez vous demander s’il est possible d’explorer davantage un modèle alternatif qui semble susceptible de s’améliorer.

R carré (%)

Le R² est le pourcentage de variation dans la réponse que le modèle explique. Les valeurs aberrantes ont un effet plus important sur R² que sur le MAD.

Lorsque vous utilisez la fonction de perte d’erreur quadratique ou la fonction de perte Huber, le tableau inclut la valeur R² pour chaque modèle. Les résultats qui suivent sont pour le modèle avec la valeur R^{2 la plus} élevée.

MAD

L’écart absolu moyen (MAD) est la moyenne de la valeur absolue de la différence entre une valeur prévue et une valeur réelle. Plus le MAD est faible, plus le modèle est ajusté aux données. Le MAD exprime l'exactitude dans les mêmes unités que les données, ce qui aide à conceptualiser l'importance de l'erreur. Les valeurs aberrantes ont moins d'effet sur le MAD que sur R².

Lorsque vous utilisez la fonction de perte d’écart absolue, le tableau inclut la valeur MAD pour chaque modèle. Les résultats complets qui suivent le tableau sont pour le modèle ayant la valeur MAD la plus basse.

Taux d'apprentissage

Les taux d'apprentissage faibles pondèrent moins chaque nouvel arbre dans le modèle que des taux d'apprentissage plus élevés et génèrent parfois plus d'arbres pour le modèle. Un modèle présentant un taux d'apprentissage faible est moins susceptible d'être surajusté pour l'ensemble de données d'apprentissage. Les modèles à faible taux d’apprentissage utilisent généralement plus d’arbres pour trouver le nombre optimal d’arbres.

Fraction de sous-échantillon

La fraction de sous-échantillon est la proportion des données que l'analyse utilise pour créer chaque arbre.

Nombre maximal de nœuds terminaux par arbre

La fonction Régression TreeNet^® combine un grand nombre de petits arbres CART® dans un modèle puissant. Vous pouvez spécifier le nombre maximal de nœuds terminaux ou la profondeur maximale de l'arbre pour ces petits arbres CART®. Les arbres avec plus de nœuds terminaux peuvent modéliser des interactions plus complexes. En général, les valeurs supérieures à 12 pourraient ralentir l’analyse sans grand avantage pour le modèle.

Profondeur maximale de l'arbre

La fonction Régression TreeNet^® combine un grand nombre de petits arbres CART® dans un modèle puissant. Vous pouvez spécifier le nombre maximal de nœuds terminaux ou la profondeur maximale de l'arbre pour ces petits arbres CART®. Les arbres plus profonds peuvent modéliser des interactions plus complexes. Les valeurs de 4 à 6 sont suffisantes pour de nombreux ensembles de données.

Optimisation des hyperparamètres pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Régression TreeNet®