Exemple de Découvrir les prédicteurs principaux avec Classification TreeNet®

Remarque

Cette commande est disponible avec la commande Module d'analyse prédictive. Cliquez ici pour plus d’informations sur la façon d’activer le module.

Une équipe de chercheurs recueille des données sur les facteurs qui affectent une caractéristique de qualité des bretzels cuits au four. Les variables incluent les paramètres de processus, comme outil de mélange, et les propriétés de grain, comme protéine de farine.

Dans le cadre de l’exploration initiale des données, les chercheurs décident Découvrir les prédicteurs principaux de comparer les modèles en supprimant séquentiellement les prédicteurs sans importance pour identifier les prédicteurs clés. Les chercheurs espèrent identifier les prédicteurs clés qui ont des effets importants sur la caractéristique de qualité et obtenir plus de connaissances sur les relations entre la caractéristique de qualité et les prédicteurs clés.

  1. Ouvrez les données d’échantillonnage, acceptabilité_bretzel.MTW.
  2. Choisissez Module d'analyse prédictive > Classification TreeNet® > Découvrir les prédicteurs principaux.
  3. Dans la liste déroulante, sélectionnez Réponse binaire.
  4. Dans Réponse, entrez bretzel acceptable.
  5. Dans Evénement de réponse, sélectionnez 1 pour indiquer que le bretzel est acceptable.
  6. Dans Prédicteurs continus, entrez protéine de farine-densité en vrac.
  7. Dans Prédicteurs de catégorie, entrez outil de mélange-méthode de four.
  8. Cliquer Découvrir les prédicteurs principaux
  9. Dans la Nombre maximal d’étapes d’élimination section 29.
  10. Cliquez dans OK chaque boîte de dialogue.

Interpréter les résultats

Pour cette analyse, Minitab Statistical Software compare 28 modèles. Le nombre d’étapes est inférieur au nombre maximal d’étapes, car le stabilité de mousse prédicteur a un score d’importance de 0 dans le premier modèle, de sorte que l’algorithme élimine 2 variables dans la première étape. L’astérisque dans la colonne Modèle de la table d’évaluation du modèle indique que le modèle avec la plus petite valeur de la statistique de log-vraisemblance moyenne est le modèle 23. Les résultats qui suivent le tableau d’évaluation du modèle concernent le modèle 23.

Bien que le modèle 23 ait la plus petite valeur de la statistique de log-vraisemblance moyenne, d’autres modèles ont des valeurs similaires. L’équipe peut cliquer Sélectionner un autre modèle pour produire des résultats pour d’autres modèles à partir du tableau d’évaluation du modèle.

Dans les résultats du modèle 23, le graphique Log-vraisemblance moyenne en fonction du nombre d’arbres montre que le nombre optimal d’arbres est presque le nombre d’arbres dans l’analyse. L’équipe peut cliquer Régler les hyperparamètres pour augmenter le nombre d’arbres et voir si les modifications apportées à d’autres hyperparamètres améliorent les performances du modèle.

Le graphique Importance relative des variables trace les prédicteurs dans l’ordre de leur effet sur l’amélioration du modèle lorsque des divisions sont effectuées sur un prédicteur au cours de la séquence d’arbres. La variable prédictive la plus importante est temps de mélange. Si l’importance de la variable prédictive principale, temps de mélange, est de 100 %, la variable importante suivante, température du four, a une contribution de 93,9 %. Cela signifie que température du four est 93,9 % aussi important que temps de mélange.

Utilisez les tracés de dépendances partielles pour obtenir des informations sur la façon dont les variables importantes ou les paires de variables affectent les valeurs de réponse ajustées. Les valeurs de réponse ajustées sont sur l’échelle 1/2 log. Les graphiques de dépendance partielle montrent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.

Les graphiques de dépendance partielle d’un prédicteur montrent que des valeurs moyennes pour temps de mélange, température du four et il est temps de cuisiner augmentent les chances d’un bretzel acceptable. Une valeur moyenne de temps sec diminue les chances d’obtenir un bretzel acceptable. Les chercheurs peuvent choisir Graphiques à un prédicteur de produire des graphiques pour d’autres variables.

Le graphique de dépendance partielle à deux prédicteurs de temps de mélange et température du four montre une relation plus complexe entre les deux variables et la réponse. Alors que des valeurs moyennes de temps de mélange et température du four augmentent les chances d’un bretzel acceptable, le graphique montre que les meilleures chances se produisent lorsque les deux variables sont à des valeurs moyennes. Les chercheurs peuvent choisir Graphiques à deux prédicteurs de produire des graphiques pour d’autres paires de variables.

Méthode

Critères de sélection du nombre d'arbres optimalLog de vraisemblance maximale
Validation de modèleEnsembles d'apprentissage/test 70/30%
Taux d'apprentissage0,05
Méthode de sélection de sous-échantillonComplètement aléatoire
    Fraction de sous-échantillon0,5
Nombre maximal de nœuds terminaux par arbre6
Taille minimale du nœud terminal3
Nombre de prédicteurs sélectionnés pour la partition des nœudsNombre total de prédicteurs = 29
Lignes utilisées5000

Informations de réponse binaire



ApprentissageTest
VariableClasseDénombrement%Dénombrement%
bretzel acceptable1 (Événement)216061,8294362,62
  0133438,1856337,38
  Tous3494100,001506100,00

Sélection du modèle en éliminant les prédicteurs non importants

Test
ModèleNombre
optimal
d'arbres
Log de
vraisemblance
de moyenne
Nombre de
prédicteurs
Prédicteurs éliminés
12680,27393629Aucun
22680,27418627stabilité de mousse; densité en vrac
32340,27384326Min. concentration gélification
42330,27435025mode four 2
52320,27494324méthode de four
62730,27555323mode four 1
72440,27481122vitesse de mélange
82680,27425821mode four 3
92720,27418520surface de repos
102320,27407719cuire la température 3
112870,27359818outil de mélange
122270,27435817cuire la température 1
132760,27537416temps de repos
142720,27608215eau
152680,27559514concentration caustique
162680,27781013capacité d’enflure
172530,27643612stabilité de l’émulsion
182310,27615911activité d’émulsion
192680,27353710capacité d’absorption de l’eau
202600,2734559capacité d’absorption d’huile
212990,2728488protéine de farine
222780,2726297capacité de mousse
23*2990,2671846taille de farine
242970,2886215cuire la température 2
252340,3303424temps sec
262900,3059933température de gélatinisation
272450,5343452il est temps de cuisiner
281460,5998371température du four
L'algorithme a supprimé un prédicteur et tous les prédicteurs ayant une importance de 0 à
     chaque étape.
* Le modèle sélectionné présente un log de vraisemblance de moyenne minimal. Les résultats du
     modèle sélectionné sont affichés ci-après.

Récapitulatif du modèle

Nombre total de prédicteurs6
Prédicteurs importants6
Nombre d'arbres développés300
Nombre optimal d'arbres299
StatistiquesApprentissageTest
Log de vraisemblance de moyenne0,24180,2672
Zone située sous la courbe ROC0,96610,9412
        IC à 95 %(0,9608; 0,9713)(0,9295; 0,9529)
Lift1,61761,5970
Taux de mauvaise classification0,09700,0963

Matrice de confusion


Classe prévue (apprentissage)Classe prévue (test)
Classe réelleDénombrement10% correctDénombrement10% correct
1 (Événement)2160194221889,919438469789,71
01334121121390,935634851591,47
Tous34942063143190,30150689461290,37
Attribuez une rangée à la classe d'événement si la probabilité d'événement pour la ligne
     dépasse 0,5.
     
StatistiquesApprentissage
(%)
Test (%)
Taux de vrai positif (sensibilité ou puissance)89,9189,71
Taux de faux positif (erreur de type I)9,078,53
Taux de faux négatif (erreur de type II)10,0910,29
Taux de vrai négatif (spécificité)90,9391,47

Mauvais classement


ApprentissageTest
Classe réelleDénombrementMal classé% erreurDénombrementMal classé% erreur
1 (Événement)216021810,099439710,29
013341219,07563488,53
Tous34943399,7015061459,63
Attribuez une rangée à la classe d'événement si la probabilité d'événement pour la ligne
     dépasse 0,5.