Exemple de Découvrir les prédicteurs principaux de Classification TreeNet®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Une équipe de chercheurs recueille des données sur les facteurs qui influent sur une caractéristique de qualité des bretzels cuits au four. Les variables incluent les paramètres de processus, comme outil de mélange, et les propriétés des céréales, comme protéine de farine.

Dans le cadre de l’exploration initiale des données, les chercheurs décident d’utiliser Découvrir les prédicteurs principaux pour comparer les modèles en supprimant séquentiellement les prédicteurs sans importance pour identifier les prédicteurs principaux. Les chercheurs espèrent identifier les prédicteurs principaux qui ont de grands effets sur la caractéristique de qualité et mieux éclairer les relations entre la caractéristique de qualité et les principaux prédicteurs.

  1. Ouvrez les données échantillons, acceptabilité_bretzel.MTW.
  2. Sélectionnez Module d'analyse prédictive > Classification TreeNet® > Découvrir les prédicteurs principaux.
  3. Dans la liste déroulante, sélectionnez Réponse binaire.
  4. Dans Réponse, saisissez bretzel acceptable.
  5. Dans Evénement de réponse, sélectionnez 1 pour indiquer que le bretzel est acceptable.
  6. Dans Prédicteurs continus, saisissez protéine de farine-densité en vrac.
  7. Dans Prédicteurs de catégorie, saisissez outil de mélange-méthode de four.
  8. Cliquez sur Découvrir les prédicteurs principaux
  9. Dans Nombre maximal d’étapes d’élimination, saisissez 29.
  10. Cliquez sur OK dans chaque boîte de dialogue

Interpréter les résultats

Pour cette analyse, Minitab Statistical Software compare 28 modèles. Le nombre d’étapes est inférieur au nombre maximal d’étapes parce que le prédicteur stabilité de mousse a un score d’importance de 0 dans le premier modèle, de sorte que l’algorithme élimine 2 variables dans la première étape. L’astérisque dans la colonne Modèle du tableau Évaluation des modèles montre que le modèle ayant la plus faible valeur de la statistique moyenne du log négatif de vraisemblance est le modèle 23. Les résultats qui suivent le tableau Évaluation des modèles sont pour le modèle 23.

Bien que le modèle 23 ait la plus petite valeur de la statistique moyenne du log négatif de vraisemblance, d’autres modèles ont des valeurs similaires. L’équipe peut cliquer sur Sélectionner un autre modèle pour produire des résultats pour d’autres modèles à partir du tableau Évaluation des modèles.

Dans les résultats du modèle 23, le diagramme Moyenne du log négatif de vraisemblance en fonction du Nombre d’arbres montre que le nombre optimal d’arbres est presque le nombre d’arbres dans l’analyse. L’équipe peut cliquer sur Affiner les hyperparamètres pour identifier un meilleur modèle pour augmenter le nombre d’arbres et voir si les modifications apportées à d’autres hyperparamètres améliorent les performances du modèle.

La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est temps de mélange. Si l'importance de la principale variable de prédiction, temps de mélange, est de 100 %, la variable importante suivante, température du four, présente une contribution de 93,9%. Cela signifie que température du four est 93,9 % aussi important que temps de mélange.

Utilisez les diagrammes de dépendance partielle pour mieux comprendre comment les variables ou les paires de variables importantes affectent la réponse prévue. Les valeurs de réponse sur l'échelle de la moitié du logarithme correspondent aux prédictions du modèle. Les diagrammes de dépendance partielle indiquent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.

Les diagrammes de dépendance partielle à un prédicteur montrent que les valeurs moyennes temps de mélange, température du four et il est temps de cuisiner augmentent les probabilités de succès d'un bretzel acceptable. Une valeur moyenne de temps sec diminue les probabilités de succès d’un bretzel acceptable. Les chercheurs peuvent cliquer sur Sélectionner plus de prédicteurs à tracer pour produire des diagrammes pour d’autres variables.

Le diagramme de dépendance partielle à deux prédicteurs de temps de mélange et température du four montre une relation plus complexe entre les deux variables et la réponse. Alors que les valeurs moyennes de temps de mélange et température du four augmentent les probabilités de succès d’un bretzel acceptable, le diagramme montre que les meilleures probabilités se produisent lorsque les deux variables sont à des valeurs moyennes. Les chercheurs peuvent cliquer sur Sélectionner plus de prédicteurs à tracer pour produire des diagrammes pour d’autres paires de variables.

TreeNet® Classification: Acceptable P vs Flour Protei, Water, Mix Time, ...

Method Criterion for selecting optimal number of trees Maximum loglikelihood Model validation 70/30% training/test sets Learning rate 0.05 Subsample selection method Completely random Subsample fraction 0.5 Maximum terminal nodes per tree 6 Minimum terminal node size 3 Number of predictors selected for node splitting Total number of predictors = 29 Rows used 5000
Binary Response Information Training Test Variable Class Count % Count % Acceptable Pretzel 1 (Event) 2160 61.82 943 62.62 0 1334 38.18 563 37.38 All 3494 100.00 1506 100.00

Classification TreeNet® - Découvrir les prédicteurs principaux : bretzel acce vs protéine de ; eau; ...

Graphique d'elimination des prédicteurs

Sélection du modèle en éliminant les prédicteurs non importants Test Nombre Log de optimal vraisemblance Nombre de Modèle d'arbres de moyenne prédicteurs 1 268 0,273936 29 2 268 0,274186 27 3 234 0,273843 26 4 233 0,274350 25 5 232 0,274943 24 6 273 0,275553 23 7 244 0,274811 22 8 268 0,274258 21 9 272 0,274185 20 10 232 0,274077 19 11 287 0,273598 18 12 227 0,274358 17 13 276 0,275374 16 14 272 0,276082 15 15 268 0,275595 14 16 268 0,277810 13 17 253 0,276436 12 18 231 0,276159 11 19 268 0,273537 10 20 260 0,273455 9 21 299 0,272848 8 22 278 0,272629 7 23* 299 0,267184 6 24 297 0,288621 5 25 234 0,330342 4 26 290 0,305993 3 27 245 0,534345 2 28 146 0,599837 1
Modèle Prédicteurs éliminés 1 Aucun 2 stabilité de mousse; densité en vrac 3 Min. concentration gélification 4 mode four 2 5 méthode de four 6 mode four 1 7 vitesse de mélange 8 mode four 3 9 surface de repos 10 cuire la température 3 11 outil de mélange 12 cuire la température 1 13 temps de repos 14 eau 15 concentration caustique 16 capacité d’enflure 17 stabilité de l’émulsion 18 activité d’émulsion 19 capacité d’absorption de l’eau 20 capacité d’absorption d’huile 21 protéine de farine 22 capacité de mousse 23* taille de farine 24 cuire la température 2 25 temps sec 26 température de gélatinisation 27 il est temps de cuisiner 28 température du four L'algorithme a supprimé un prédicteur et tous les prédicteurs ayant une importance de 0 à chaque étape. * Le modèle sélectionné présente un log de vraisemblance de moyenne minimal. Les résultats du modèle sélectionné sont affichés ci-après.

Une prévision partielle des parcelles de dépendance

Sélectionner d'autres prédicteurs à représenter...

Deux parcelles de dépendance partielle de Predictor

Sélectionner d'autres prédicteurs à représenter...

Classification TreeNet®: bretzel acce vs temps de mél; il est temps; ...

Récapitulatif du modèle Nombre total de prédicteurs 6 Prédicteurs importants 6 Nombre d'arbres développés 300 Nombre optimal d'arbres 299 Statistiques Apprentissage Test Log de vraisemblance de moyenne 0,2418 0,2672 Zone située sous la courbe ROC 0,9661 0,9412 IC à 95 % (0,9608; 0,9713) (0,9295; 0,9529) Lift 1,6176 1,5970 Taux de mauvaise classification 0,0970 0,0963

Une prévision partielle des parcelles de dépendance

Sélectionner d'autres prédicteurs à représenter...

Deux parcelles de dépendance partielle de Predictor

Sélectionner d'autres prédicteurs à représenter...

Classification TreeNet®: bretzel acce vs temps de mél; il est temps; ...

Matrice de confusion Classe prévue (apprentissage) Classe prévue (test) Classe réelle Dénombrement 1 0 % correct Dénombrement 1 0 1 (Événement) 2160 1942 218 89,91 943 846 97 0 1334 121 1213 90,93 563 48 515 Tous 3494 2063 1431 90,30 1506 894 612
Classe réelle % correct 1 (Événement) 89,71 0 91,47 Tous 90,37 Attribuez une rangée à la classe d'événement si la probabilité d'événement pour la ligne dépasse 0,5.
Apprentissage Statistiques (%) Test (%) Taux de vrai positif (sensibilité ou puissance) 89,91 89,71 Taux de faux positif (erreur de type I) 9,07 8,53 Taux de faux négatif (erreur de type II) 10,09 10,29 Taux de vrai négatif (spécificité) 90,93 91,47
Mauvais classement Apprentissage Test Classe réelle Dénombrement Mal classé % erreur Dénombrement Mal classé 1 (Événement) 2160 218 10,09 943 97 0 1334 121 9,07 563 48 Tous 3494 339 9,70 1506 145
Classe réelle % erreur 1 (Événement) 10,29 0 8,53 Tous 9,63 Attribuez une rangée à la classe d'événement si la probabilité d'événement pour la ligne dépasse 0,5.

Une prévision partielle des parcelles de dépendance

Sélectionner d'autres prédicteurs à représenter...

Deux parcelles de dépendance partielle de Predictor

Sélectionner d'autres prédicteurs à représenter...