Une équipe de chercheurs recueille des données sur les facteurs qui influent sur une caractéristique de qualité des bretzels cuits au four. Les variables incluent les paramètres de processus, comme outil de mélange, et les propriétés des céréales, comme protéine de farine.
Dans le cadre de l’exploration initiale des données, les chercheurs décident d’utiliser Découvrir les prédicteurs
principaux pour comparer les modèles en supprimant séquentiellement les prédicteurs sans importance pour identifier les prédicteurs principaux. Les chercheurs espèrent identifier les prédicteurs principaux qui ont de grands effets sur la caractéristique de qualité et mieux éclairer les relations entre la caractéristique de qualité et les principaux prédicteurs.
Interpréter les résultats
Pour cette analyse, Minitab Statistical Software compare 28 modèles. Le nombre d’étapes est inférieur au nombre maximal d’étapes parce que le prédicteur stabilité de mousse a un score d’importance de 0 dans le premier modèle, de sorte que l’algorithme élimine 2 variables dans la première étape. L’astérisque dans la colonne Modèle du tableau Évaluation des modèles montre que le modèle ayant la plus faible valeur de la statistique moyenne du log négatif de vraisemblance est le modèle 23. Les résultats qui suivent le tableau Évaluation des modèles sont pour le modèle 23.
Bien que le modèle 23 ait la plus petite valeur de la statistique moyenne du log négatif de vraisemblance, d’autres modèles ont des valeurs similaires. L’équipe peut cliquer sur Sélectionner un autre modèle pour produire des résultats pour d’autres modèles à partir du tableau Évaluation des modèles.
Dans les résultats du modèle 23, le diagramme Moyenne du log négatif de vraisemblance en fonction du Nombre d’arbres montre que le nombre optimal d’arbres est presque le nombre d’arbres dans l’analyse. L’équipe peut cliquer sur Affiner
les hyperparamètres pour identifier un meilleur modèle pour augmenter le nombre d’arbres et voir si les modifications apportées à d’autres hyperparamètres améliorent les performances du modèle.
La courbe d'importance relative des variables trace les prédicteurs dans l'ordre de leur effet sur l'amélioration du modèle lorsqu'un prédicteur est divisé sur la séquence des arbres. La variable de prédiction la plus importante est temps de mélange. Si l'importance de la principale variable de prédiction, temps de mélange, est de 100 %, la variable importante suivante, température du four, présente une contribution de 93,9%. Cela signifie que température du four est 93,9 % aussi important que temps de mélange.
Utilisez les diagrammes de dépendance partielle pour mieux comprendre comment les variables ou les paires de variables importantes affectent la réponse prévue. Les valeurs de réponse sur l'échelle de la moitié du logarithme correspondent aux prédictions du modèle. Les diagrammes de dépendance partielle indiquent si la relation entre la réponse et une variable est linéaire, monotone ou plus complexe.
Les diagrammes de dépendance partielle à un prédicteur montrent que les valeurs moyennes temps de mélange, température du four et il est temps de cuisiner augmentent les probabilités de succès d'un bretzel acceptable. Une valeur moyenne de temps sec diminue les probabilités de succès d’un bretzel acceptable. Les chercheurs peuvent cliquer sur Sélectionner plus de prédicteurs à
tracer pour produire des diagrammes pour d’autres variables.
Le diagramme de dépendance partielle à deux prédicteurs de temps de mélange et température du four montre une relation plus complexe entre les deux variables et la réponse. Alors que les valeurs moyennes de temps de mélange et température du four augmentent les probabilités de succès d’un bretzel acceptable, le diagramme montre que les meilleures probabilités se produisent lorsque les deux variables sont à des valeurs moyennes. Les chercheurs peuvent cliquer sur Sélectionner plus de prédicteurs à
tracer pour produire des diagrammes pour d’autres paires de variables.
TreeNet® Classification: Acceptable P vs Flour Protei, Water, Mix Time, ...
Method
Criterion for selecting optimal number of trees Maximum loglikelihood
Model validation 70/30% training/test sets
Learning rate 0.05
Subsample selection method Completely random
Subsample fraction 0.5
Maximum terminal nodes per tree 6
Minimum terminal node size 3
Number of predictors selected for node splitting Total number of predictors = 29
Rows used 5000
Binary Response Information
Training Test
Variable Class Count % Count %
Acceptable Pretzel 1 (Event) 2160 61.82 943 62.62
0 1334 38.18 563 37.38
All 3494 100.00 1506 100.00
Classification TreeNet® - Découvrir les prédicteurs principaux : bretzel acce vs protéine de ; eau; ...
Graphique d'elimination des prédicteurs
Sélection du modèle en éliminant les prédicteurs non importants
Test
Nombre Log de
optimal vraisemblance Nombre de
Modèle d'arbres de moyenne prédicteurs
1 268 0,273936 29
2 268 0,274186 27
3 234 0,273843 26
4 233 0,274350 25
5 232 0,274943 24
6 273 0,275553 23
7 244 0,274811 22
8 268 0,274258 21
9 272 0,274185 20
10 232 0,274077 19
11 287 0,273598 18
12 227 0,274358 17
13 276 0,275374 16
14 272 0,276082 15
15 268 0,275595 14
16 268 0,277810 13
17 253 0,276436 12
18 231 0,276159 11
19 268 0,273537 10
20 260 0,273455 9
21 299 0,272848 8
22 278 0,272629 7
23* 299 0,267184 6
24 297 0,288621 5
25 234 0,330342 4
26 290 0,305993 3
27 245 0,534345 2
28 146 0,599837 1
Modèle Prédicteurs éliminés
1 Aucun
2 stabilité de mousse; densité en vrac
3 Min. concentration gélification
4 mode four 2
5 méthode de four
6 mode four 1
7 vitesse de mélange
8 mode four 3
9 surface de repos
10 cuire la température 3
11 outil de mélange
12 cuire la température 1
13 temps de repos
14 eau
15 concentration caustique
16 capacité d’enflure
17 stabilité de l’émulsion
18 activité d’émulsion
19 capacité d’absorption de l’eau
20 capacité d’absorption d’huile
21 protéine de farine
22 capacité de mousse
23* taille de farine
24 cuire la température 2
25 temps sec
26 température de gélatinisation
27 il est temps de cuisiner
28 température du four
L'algorithme a supprimé un prédicteur et tous les prédicteurs ayant une
importance de 0 à chaque étape.
* Le modèle sélectionné présente un log de vraisemblance de moyenne minimal.
Les résultats du modèle sélectionné sont affichés ci-après.
Une prévision partielle des parcelles de dépendance
Sélectionner d'autres prédicteurs à représenter...
Deux parcelles de dépendance partielle de Predictor
Sélectionner d'autres prédicteurs à représenter...
Classification TreeNet®: bretzel acce vs temps de mél; il est temps; ...
Récapitulatif du modèle
Nombre total de prédicteurs 6
Prédicteurs importants 6
Nombre d'arbres développés 300
Nombre optimal d'arbres 299
Statistiques Apprentissage Test
Log de vraisemblance de moyenne 0,2418 0,2672
Zone située sous la courbe ROC 0,9661 0,9412
IC à 95 % (0,9608; 0,9713) (0,9295; 0,9529)
Lift 1,6176 1,5970
Taux de mauvaise classification 0,0970 0,0963
Une prévision partielle des parcelles de dépendance
Sélectionner d'autres prédicteurs à représenter...
Deux parcelles de dépendance partielle de Predictor
Sélectionner d'autres prédicteurs à représenter...
Classification TreeNet®: bretzel acce vs temps de mél; il est temps; ...
Matrice de confusion
Classe prévue (apprentissage) Classe prévue (test)
Classe réelle Dénombrement 1 0 % correct Dénombrement 1 0
1 (Événement) 2160 1942 218 89,91 943 846 97
0 1334 121 1213 90,93 563 48 515
Tous 3494 2063 1431 90,30 1506 894 612
Classe réelle % correct
1 (Événement) 89,71
0 91,47
Tous 90,37
Attribuez une rangée à la classe d'événement si la probabilité d'événement pour
la ligne dépasse 0,5.
Apprentissage
Statistiques (%) Test (%)
Taux de vrai positif (sensibilité ou puissance) 89,91 89,71
Taux de faux positif (erreur de type I) 9,07 8,53
Taux de faux négatif (erreur de type II) 10,09 10,29
Taux de vrai négatif (spécificité) 90,93 91,47
Mauvais classement
Apprentissage Test
Classe réelle Dénombrement Mal classé % erreur Dénombrement Mal classé
1 (Événement) 2160 218 10,09 943 97
0 1334 121 9,07 563 48
Tous 3494 339 9,70 1506 145
Classe réelle % erreur
1 (Événement) 10,29
0 8,53
Tous 9,63
Attribuez une rangée à la classe d'événement si la probabilité d'événement pour
la ligne dépasse 0,5.
Une prévision partielle des parcelles de dépendance
Sélectionner d'autres prédicteurs à représenter...
Deux parcelles de dépendance partielle de Predictor
Sélectionner d'autres prédicteurs à représenter...