Évaluation des modèles par élimination des prédicteurs importants ou non pour Découvrir les prédicteurs principaux avec Classification TreeNet®

Trouvez des définitions et des pistes d’interprétation pour le tableau d'évaluation des modèles.
Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Remarque

Lorsque vous spécifiez les options pour Découvrir les prédicteurs principaux, vous pouvez choisir les résultats de sélection des modèles pour les données d'apprentissage et de test. Les résultats de test indiquent si le modèle peut prédire de manière adaptée les valeurs de réponse pour les nouvelles observations, ou récapituler correctement les relations entre les variables de réponse et de prédiction. Les résultats d'apprentissage sont généralement pour référence seulement.

Utilisez les résultats pour comparer les modèles à différentes étapes. Pour explorer davantage un modèle alternatif à partir du tableau, cliquez sur Sélectionner un autre modèle. Minitab produit un ensemble complet de résultats pour le modèle alternatif. Vous pouvez affiner les hyperparamètres et faire des prédictions en conséquence.

Nombre optimal d'arbres

Le nombre optimal d’arbres est habituellement différent à chaque étape. Si le nombre optimal est proche du nombre total d’arbres pour l’analyse, le modèle est plus susceptible de s’améliorer. Vous pouvez vous demander s’il est possible d’explorer davantage un modèle alternatif qui semble susceptible de s’améliorer.

Moyenne du log négatif de vraisemblance

La moyenne du log négatif de vraisemblance est une mesure de la précision du modèle. Des valeurs plus petites indiquent un meilleur ajustement.

Lorsque la réponse est binaire, vous pouvez utiliser le log de vraisemblance maximal comme critère pour la sélection du meilleur modèle. Les résultats complets qui suivent le tableau sont pour le modèle ayant la plus petite valeur de la moyenne du log négatif de vraisemblance. Si un modèle ayant un plus petit nombre de termes a une moyenne du log négatif de vraisemblance proche de la valeur optimale, envisagez d'explorer davantage ou non le modèle alternatif. Un modèle avec moins de prédicteurs est plus facile à interpréter et permet de travailler avec un plus petit nombre de prédicteurs.

Aire sous la courbe ROC

La courbe ROC représente le taux de vrais positifs (TPR), également appelé puissance, sur l'axe Y. La courbe ROC représente le taux de faux positifs (FPR), également appelé erreur de type 1, sur l'axe X. L'aire sous une courbe ROC indique si le modèle est un bon classificateur.

Pour les arbres de classification, l'aire sous les valeurs de la courbe ROC varie généralement de 0,5 à 1. Plus les valeurs sont élevées, meilleure est la classification du modèle. Lorsque le modèle peut parfaitement séparer les classes, l'aire sous la courbe est de 1. Lorsque le modèle ne peut pas séparer les classes plus efficacement qu'une affectation aléatoire, l'aire sous la courbe est de 0,5.

Lorsque vous utilisez l'aire maximale sous la courbe ROC comme critère de sélection du meilleur modèle, le tableau inclut l'aire sous la courbe ROC pour chaque modèle. Les résultats complets qui suivent le tableau sont pour le modèle ayant la plus grande aire sous la courbe ROC. Si un modèle ayant un plus petit nombre de termes a une valeur proche de la valeur optimale, envisagez ou non d’explorer davantage le modèle alternatif. Un modèle avec moins de prédicteurs est plus facile à interpréter et permet de travailler avec un plus petit nombre de prédicteurs.

Taux de mauvais classement

Le taux de mauvais classement indique la fréquence à laquelle le modèle classe correctement les valeurs de réponse. Des valeurs plus petites indiquent de meilleures performances.

Lorsque vous utilisez le taux minimal de mauvais classement comme critère de sélection du meilleur modèle, le tableau inclut le taux de mauvais classement pour chaque modèle. Les résultats complets qui suivent le tableau sont pour le modèle ayant le taux de mauvais classement le plus bas. Si un modèle ayant un plus petit nombre de termes a une valeur proche de la valeur optimale, envisagez ou non d’explorer davantage le modèle alternatif. Un modèle avec moins de prédicteurs est plus facile à interpréter et permet de travailler avec un plus petit nombre de prédicteurs.

Nombre de prédicteurs

Le nombre de prédicteurs indique le nombre de prédicteurs du modèle. Le nombre de prédicteurs dans la première ligne du tableau intègre toujours tous les prédicteurs que l’analyse prend en compte. Après la première ligne, le nombre de prédicteurs dépend de l’analyse selon qu'elle élimine ou non les prédicteurs sans importance ou les prédicteurs importants.

Lorsque l’analyse supprime les prédicteurs les moins importants, le nombre de prédicteurs diminue d’un nombre spécifié de prédicteurs à chaque étape, plus tous les prédicteurs qui ont des scores d’importance de 0. Si par exemple l’analyse élimine 10 prédicteurs par étape, a 900 prédicteurs, et 450 prédicteurs de scores d’importance de 0 dans le modèle initial, la première ligne du tableau a 900 prédicteurs. La deuxième ligne a 440 prédicteurs parce que l’analyse supprime les 450 prédicteurs de scores d’importance de 0 et les 10 prédicteurs les moins importants.

Lorsque l’analyse supprime les prédicteurs les plus importants, le nombre de prédicteurs diminue du nombre spécifié de prédicteurs à chaque étape. Les prédicteurs qui ont une importance 0 demeurent dans le modèle.

Prédicteurs éliminés

La colonne affiche les prédicteurs éliminés à chaque étape. La liste affiche au plus 25 titres de prédicteurs à une étape. La première ligne affiche toujours "Aucun" parce que le modèle a tous les prédicteurs. Après la première ligne, le nombre de prédicteurs dépend de l’analyse selon qu'elle élimine ou non les prédicteurs sans importance ou les prédicteurs importants.

Lorsque l’analyse supprime les prédicteurs les moins importants, le nombre de prédicteurs diminue d’un nombre spécifié de prédicteurs à chaque étape, plus tous les prédicteurs qui ont des scores d’importance 0. Si l’analyse élimine les prédicteurs qui ont un score d’importance 0, ces prédicteurs sont les premiers dans la liste. Lorsque l’analyse élimine plus d’un prédicteur dans l’une ou l’autre catégorie, l’ordre des noms est celui des prédicteurs de la feuille de travail.

Lorsque l’analyse supprime les prédicteurs les plus importants, la liste affiche les prédicteurs éliminés à chaque étape. Lorsque l’analyse élimine plus d’un prédicteur important à une étape, l’ordre des noms dans la liste est celui des prédicteurs de la feuille de travail.