Sélectionner des options pour Découvrir le meilleur modèle (réponse binaire)

Module d'analyse prédictive > Auto-apprentissage par la machine automatisé > Découvrir le meilleur modèle (réponse binaire) > Options
Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Sélectionnez les critères pour déterminer le meilleur modèle et spécifiez des options pour les différents types de modèles. Vous pouvez également spécifier une base pour le générateur de nombres aléatoires et quand affecter une prédiction à la classe d’événements.

Critère de sélection du meilleur modèle

Sélectionnez la méthode pour générer votre modèle optimal. Vous pouvez comparer les résultats de plusieurs méthodes pour déterminer le meilleur choix pour votre application.
  • Log de vraisemblance maximal : la méthode du maximum de vraisemblance trouve le maximum des fonctions de vraisemblance pour les données.
  • Zone maximale située sous la courbe ROC : la méthode de la zone maximale située sous la courbe ROC fonctionne bien dans de nombreuses applications. L'aire sous la courbe ROC mesure la capacité du modèle à classer les lignes de la plus susceptible de produire un événement à la moins susceptible de produire un événement.
  • Taux minimal de mauvais classement : sélectionnez cette option pour afficher les résultats pour le modèle qui réduit le taux de mauvais classement. Le taux de mauvais classement repose sur un simple dénombrement de la fréquence à laquelle le modèle prédit un cas correctement ou incorrectement.

Options pour les modèles de classification TreeNet®

Spécifiez les options du modèle de TreeNet®.

Nombre d'arbres
Saisissez une valeur entre 1 et 5 000 pour définir le nombre d'arbres à créer. La valeur par défaut de 300 permet d'obtenir des résultats initiaux utiles.
Si le modèle sélectionné initialement est proche du nombre d'arbres que vous spécifiez, envisagez d'augmenter le nombre d'arbres pour rechercher un meilleur modèle.
Nombre maximal de nœuds terminaux par arbre et Profondeur maximale de l'arbre
Vous pouvez également limiter la taille des arbres. Sélectionnez l'une des options suivantes pour limiter la taille des arbres.
  • Nombre maximal de nœuds terminaux par arbre : saisissez une valeur entre 2 et 2 000 pour définir le nombre maximal de nœuds terminaux d'un arbre. Habituellement, la valeur par défaut de 6 fournit un équilibre adéquat entre la vitesse de calcul et l'examen des interactions entre les variables. Une valeur de 2 élimine l'examen des interactions.
  • Profondeur maximale de l'arbre : saisissez une valeur entre 2 et 1 000 pour définir la profondeur maximale d'un arbre. Le nœud racine correspond à une profondeur de 1. La profondeur par défaut est de 4. Dans de nombreuses applications, les profondeurs de 4 à 6 donnent des modèles relativement adéquats.
Taux d'apprentissage
Spécifiez jusqu’à 10 taux d’apprentissage.
Par défaut, l’analyse évalue 3 taux d’apprentissage. L’analyse règle généralement les hyperparamètres avec 3 valeurs de K : 0,001, 0,1 et max(0,01, 0,1 * min(1,0, N/10000)), où N = nombre de lignes dans la colonne de réponse. Si max(0,01, 0,1 * min(1,0, N/10000)) = 0,001 ou 0,1, alors l’analyse règle les hyperparamètres avec 0,001, 0,01 et 0,1.
Fraction de sous-échantillon
Spécifiez jusqu’à 10 fractions de sous-échantillon. À chaque itération, la procédure sélectionne un sous-ensemble différent qui contient cette fraction des données pour construire une arborescence. Le sous-échantillonnage protège du surajustement. Entrez un nombre supérieur ou égal à 0 et inférieur ou égal à 1. Les valeurs résiduelles normalisées sont 0,5 et 0,7.
Nombre de prédicteurs pour la partition des nœuds
Spécifiez le nombre de prédicteurs à prendre en compte pour chaque partition de nœud. Généralement, l'analyse fonctionne bien lorsque vous tenez compte de tous les prédicteurs à chaque nœud. Toutefois, certains ensembles de données disposent d'associations parmi les prédicteurs qui conduisent à une amélioration des performances du modèle lorsque l'analyse tient compte d'un sous-ensemble aléatoire de prédicteurs différent à chaque nœud. Dans de tels cas, la racine carrée du nombre total de prédicteurs est un point de départ habituel. Après avoir utilisé la racine carrée et affiché le modèle, vous pouvez envisager de spécifier un nombre plus grand ou plus petit de prédicteurs avec un pourcentage du total.
  • Nombre total de prédicteurs : sélectionnez cette option afin d'utiliser tous les prédicteurs pour la partition des nœuds.
  • Racine carrée du nombre total de prédicteurs : sélectionnez cette option afin d'utiliser la racine carrée du nombre total de prédicteurs pour la partition des nœuds.
  • K pour cent du nombre total de prédicteurs ; K = : sélectionnez cette option afin d'utiliser un pourcentage de prédicteurs pour la partition des nœuds.

Options pour les modèles de classification Random Forests®

Spécifiez les options du modèle Random Forests®.

Nombre d'échantillons bootstrap pour cultiver les arbres
Saisissez une valeur pour déterminer le nombre d'échantillons bootstrap et le nombre d'arbres générés par l'analyse. Saisissez une valeur comprise entre 3 et 3000.
Spécifier un effectif d'échantillon bootstrap inférieur à la taille des données d'apprentissage
Sélectionnez cette option pour saisir une valeur qui définit la taille de l'échantillon bootstrap. Vous devez saisir une valeur supérieure ou égale à 5. Si vous saisissez une taille supérieure à la taille des données d'apprentissage, Minitab utilise une taille d'échantillon égale à celle des données d'apprentissage.
Nombre de prédicteurs pour la partition des nœuds
Spécifiez le nombre de prédicteurs à prendre en compte pour chaque partition de nœud. Généralement, l'analyse fonctionne bien lorsque vous tenez compte de la racine carrée du nombre total de prédicteurs. Toutefois, certains ensembles de données disposent d'associations parmi les prédicteurs qui conduisent à une amélioration des performances du modèle lorsque l'analyse tient compte d'un plus grand ou d'un plus petit nombre de prédicteurs pour chaque nœud. Après avoir utilisé la racine carrée et affiché le modèle, envisagez de modifier le nombre de prédicteurs pour essayer d'améliorer les performances du modèle.
  • Nombre total de prédicteurs : sélectionnez cette option afin d'utiliser tous les prédicteurs pour la partition des nœuds. La forêt créée par cette option est appelée forêt bootstrap.
  • Racine carrée du nombre total de prédicteurs : sélectionnez cette option afin d'utiliser la racine carrée du nombre total de prédicteurs pour la partition des nœuds.
  • K pour cent du nombre total de prédicteurs ; K = : sélectionnez cette option afin d'utiliser un pourcentage de prédicteurs pour la partition des nœuds.
Nombre minimal de cas pour diviser un nœud interne
Spécifiez de 1 à 3 nombres minimums. Par défaut, l’analyse évalue 2, 5 et 8. La valeur par défaut est de 2 de sorte que tous les nœuds peuvent être divisés en nœuds plus petits jusqu'à ce qu'il ne soit plus possible de les diviser. Si les performances du modèle sont insuffisantes, envisagez de modifier cette valeur pour observer l'effet sur les performances.

Options pour les modèles de classification CART®

Spécifiez les options du modèle de CART®.

Méthode de partition des nœuds
Choisissez la méthode de partition pour générer votre arbre de décision. Vous pouvez comparer les résultats de plusieurs méthodes de division pour déterminer le meilleur choix pour votre application.
  • Gini : la méthode Gini est la méthode par défaut. La méthode Gini est compatible avec de nombreuses applications. La méthode Gini génère habituellement des arbres qui comprennent de petits nœuds avec une forte concentration de la réponse d’intérêt.
  • Entropie : la méthode entropie est proportionnelle au maximum de certaines fonctions de vraisemblance pour le nœud.
Critère de sélection d'un arbre optimal
Choisissez parmi les critères suivants pour sélectionner l’arbre dans les résultats. Vous pouvez comparer les résultats de différents arbres pour déterminer le meilleur choix pour votre application.
  • Coût minimum de mauvais classement : sélectionnez cette option pour afficher les résultats pour l’arbre qui réduit le coût de mauvais classement.
  • Dans K erreurs types du coût minimal de mauvais classement ; K = : sélectionnez cette option pour afficher les résultats pour le plus petit arbre dont le coût de mauvais classement se situe à moins de K erreurs types du coût de mauvais classement minimal.
Nombre minimal de cas pour diviser un nœud interne
Saisissez le nombre minimal de cas qu’un nœud peut avoir et encore être divisé en davantage de nœuds. Elle est par défaut de 10. Avec des échantillons plus grands, il est préférable d'augmenter ce minimum. Par exemple, si un nœud interne contient 10 cas ou plus, Minitab essaie d'effectuer une partition. Si le nœud interne contient 9 cas ou moins, Minitab n'essaie pas d'effectuer de partition.
La limite de nœud interne n’est pertinente que lorsque la valeur est au moins deux fois supérieure à la limite de nœud de terminal. Les limites internes de nœuds d'au moins 3 fois les limites de nœuds terminaux permettent d'utiliser un nombre raisonnable de séparateurs. Habituellement, des limites plus élevées sont raisonnables pour des ensembles de données plus importants.
Nombre minimal de cas autorisés pour un nœud terminal
Saisissez le nombre minimal de cas qui peuvent se trouver dans un nœud terminal. La valeur par défaut est 3. Avec des échantillons plus grands, il est préférable d'augmenter ce minimum. Par exemple, si une partition crée un nœud avec moins de 3 cas, Minitab n'effectue pas de partition.

Base pour le générateur de nombres aléatoires

Vous pouvez spécifier une base pour le générateur de nombres aléatoires afin de sélectionner de manière aléatoire les sous-échantillons et le sous-ensemble des prédicteurs. Généralement, vous n'avez pas besoin de modifier la base. Vous pouvez modifier la base pour explorer la sensibilité des résultats aux sélections aléatoires ou pour assurer la même sélection aléatoire pour les analyses répétées.

Attribuer la classe d'événement

spécifiez la probabilité minimale prévue pour l'affectation d'un cas à la classe d'événement. Cette option affecte les modèles TreeNet® et les modèles de régression logistique binaire.

  • La probabilité d'événement dépasse la valeur spécifiée : spécifiez la probabilité minimale prévue pour l'affectation d'un cas à la classe d'événement. Par exemple, une valeur de 0,5 signifie que Minitab attribue un cas à la classe d'événement lorsque la probabilité de l'événement est supérieure à 0,5.
  • La probabilité d'événement dépasse le taux d'événement de l'échantillon : spécifiez cette information pour utiliser le taux d'événement de l'échantillon des données d'apprentissage comme seuil d'affectation de la classe prévue pour un cas. Lorsque le taux d'événement de l'échantillon est supérieur à 0,50, cette option réduit la probabilité que les événements soient classés comme événements et augmente la probabilité qu'ils soient classés comme non-événements. Généralement, vous pouvez envisager d'utiliser cette option lorsque vous souhaitez équilibrer les taux de mauvais classement des événements et des non-événements par rapport à ce qu'ils seraient avec un seuil de 0,50.