Optimisation des hyperparamètres pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet^®

Trouvez des définitions et des pistes d’interprétation pour le tableau d'évaluation des modèles.

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Taux d'apprentissage
Fraction de sous-échantillon
Nombre maximal de nœuds terminaux par arbre
Profondeur maximale de l'arbre

Utilisez les résultats pour comparer la façon dont les modèles fonctionnent avec différentes valeurs des hyperparamètres. Cliquez sur Régler les hyperparamètres pour évaluer les valeurs supplémentaires des hyperparamètres.

Nombre optimal d'arbres

Le nombre optimal d’arbres est habituellement différent à chaque étape. Lorsque le nombre optimal est proche du nombre maximal d’arbres pour l’analyse, le modèle est plus susceptible de s’améliorer si vous augmentez le nombre d’arbres qu’un modèle avec un nombre optimal d’arbres loin du maximum. Vous pouvez vous demander s’il est possible d’explorer davantage un modèle alternatif qui semble susceptible de s’améliorer.

Moyenne du log négatif de vraisemblance

La moyenne du log négatif de vraisemblance est une mesure de la précision du modèle. Des valeurs plus petites indiquent un meilleur ajustement.

Lorsque la réponse est binaire, vous pouvez utiliser le log de vraisemblance maximal comme critère pour la sélection du meilleur modèle. Les résultats complets qui suivent le tableau sont pour le modèle ayant la plus petite valeur de la moyenne du log négatif de vraisemblance.

Aire sous la courbe ROC

La courbe ROC représente le taux de vrais positifs (TPR), également appelé puissance, sur l'axe Y. La courbe ROC représente le taux de faux positifs (FPR), également appelé erreur de type 1, sur l'axe X. L'aire sous une courbe ROC indique si le modèle est un bon classificateur.

Pour les arbres de classification, l'aire sous les valeurs de la courbe ROC varie généralement de 0,5 à 1. Plus les valeurs sont élevées, meilleure est la classification du modèle. Lorsque le modèle peut parfaitement séparer les classes, l'aire sous la courbe est de 1. Lorsque le modèle ne peut pas séparer les classes plus efficacement qu'une affectation aléatoire, l'aire sous la courbe est de 0,5.

Lorsque vous utilisez l'aire maximale sous la courbe ROC comme critère de sélection du meilleur modèle, le tableau inclut l'aire sous la courbe ROC pour chaque modèle. Les résultats complets qui suivent le tableau sont pour le modèle ayant la plus grande aire sous la courbe ROC.

Taux de mauvais classement

Le taux de mauvais classement indique la fréquence à laquelle le modèle classe correctement les valeurs de réponse. Des valeurs plus petites indiquent de meilleures performances.

Lorsque vous utilisez le taux minimal de mauvais classement comme critère de sélection du meilleur modèle, le tableau inclut le taux de mauvais classement pour chaque modèle. Les résultats complets qui suivent le tableau sont pour le modèle ayant le taux de mauvais classement le plus bas.

Taux d'apprentissage

Les taux d'apprentissage faibles pondèrent moins chaque nouvel arbre dans le modèle que des taux d'apprentissage plus élevés et génèrent parfois plus d'arbres pour le modèle. Un modèle présentant un taux d'apprentissage faible est moins susceptible d'être surajusté pour l'ensemble de données d'apprentissage. Les modèles à faible taux d’apprentissage utilisent généralement plus d’arbres pour trouver le nombre optimal d’arbres.

Fraction de sous-échantillon

La fraction de sous-échantillon est la proportion des données que l'analyse utilise pour créer chaque arbre.

Nombre maximal de nœuds terminaux par arbre

La fonction Classification TreeNet^® combine un grand nombre de petits arbres CART® dans un modèle puissant. Le tableau inclut l'hyperparamètre qui se trouve dans l’analyse, soit le nombre maximal de nœuds terminaux par arbre, soit la profondeur maximale de l’arbre. Les arbres avec plus de nœuds terminaux peuvent modéliser des interactions plus complexes. En général, les valeurs supérieures à 12 pourraient ralentir l’analyse sans grand avantage pour le modèle.

Profondeur maximale de l'arbre

La fonction Classification TreeNet^® combine un grand nombre de petits arbres CART® dans un modèle puissant. Vous pouvez spécifier le nombre maximal de nœuds terminaux ou la profondeur maximale de l'arbre pour ces petits arbres CART®. Les arbres plus profonds peuvent modéliser des interactions plus complexes. Les valeurs de 4 à 6 sont suffisantes pour de nombreux ensembles de données.

Optimisation des hyperparamètres pour Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet®