Beispiel für Ermitteln von wichtigen Prädiktoren mit TreeNet®-Klassifikation

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Ein Forscherteam sammelt Daten über Faktoren, die ein Qualitätsmerkmal von gebackenen Brezeln beeinflussen. Variablen umfassen Prozesseinstellungen, darunter Mischwerkzeug und Getreideeigenschaften wie Mehlprotein.

Im Rahmen der anfänglichen Untersuchung der Daten beschließen die Forscher Ermitteln von wichtigen Prädiktoren zu verwenden, um Modelle zu vergleichen, indem sie sequenziell unwichtige Prädiktoren entfernen, um wichtige Prädiktoren zu identifizieren. Die Forscher hoffen, wichtige Prädiktoren zu identifizieren, die große Effekte auf das Qualitätsmerkmal haben, und mehr Einblicke in die Beziehungen zwischen dem Qualitätsmerkmal und den wichtigsten Prädiktoren zu gewinnen.

  1. Öffnen Sie die Beispieldaten Brezel_Akzeptanz.MTW.
  2. Wählen Sie Predictive Analytics-Modul > TreeNet® Klassifikation > Wichtige Prädiktoren ermitteln aus.
  3. Wählen Sie in der Dropdown-Liste die Option Binäre Antwort aus.
  4. Geben Sie im Feld Antwort die Spalte akzeptable Brezel ein.
  5. Wählen Sie unter Antwortereignis1 aus, um anzugeben, dass die Brezel akzeptabel ist.
  6. Geben Sie im Stetige PrädiktorenMehlprotein-Massendichte ein.
  7. Geben Sie im Kategoriale PrädiktorenMischwerkzeug-Ofenmethode ein.
  8. Klicken Sie auf Wichtige Prädiktoren ermitteln
  9. Geben Sie in Maximale Anzahl von Eliminierungsschritten den Wert 29 ein.
  10. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Für diese Analyse vergleicht Minitab Statistical Software 28 Modelle. Die Anzahl der Schritte ist kleiner als die maximale Anzahl von Schritten, da der Schaumstabilität-Prädiktor im ersten Modell eine Wichtigkeitspunktzahl von 0 hat, sodass der Algorithmus im ersten Schritt 2 Variablen eliminiert. Das Sternchen in der Spalte Modell der Tabelle Modellauswertung zeigt, dass das Modell mit dem kleinsten Wert der durchschnittlichen –Log-Likelihood-Statistik das Modell 23 ist. Die Ergebnisse, die der Modellauswertungstabelle folgen, beziehen sich auf Modell 23.

Obwohl Modell 23 den kleinsten Wert der durchschnittlichen –Log-Likelihood-Statistik hat, weisen andere Modelle ähnliche Werte auf. Das Team kann auf Auswählen eines alternativen Modells klicken, um Ergebnisse für andere Modelle aus der Tabelle Modellauswertung zu erstellen.

In den Ergebnissen für Modell 23 zeigt das Diagramme Durchschnittliche –Log-Likelihood vs. Anzahl der Bäume, dass die optimale Anzahl von Bäumen nahezu der Anzahl der Bäume in der Analyse entspricht. Das Team kann auf Anpassen von Hyperparametern zum Identifizieren eines besseren Modells klicken, um die Anzahl der Bäume zu erhöhen und zu sehen, ob Änderungen an anderen Hyperparametern die Leistung des Modells verbessern.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist Mischzeit. Wenn die Wichtigkeit der obersten Prädiktorvariablen, Mischzeit, 100 % beträgt, hat die nächstwichtige Variable, Ofentemperatur, einen Beitrag von 93,9 %. Das bedeutet, dass Ofentemperatur 93,9 % so wichtig ist wie Mischzeit.

Verwenden Sie die Diagramme der partiellen Abhängigkeit, um zu erfahren, wie sich die wichtigen Variablen oder Variablenpaare auf den prognostizierten Wert der Antwortvariablen auswirken. Die Werte der Antwortvariablen auf der 1/2 Log-Skala sind die Prognosen aus dem Modell. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Die Diagramme der partiellen Abhängigkeit bei einem Prädiktor zeigen, dass mittlere Werte für Mischzeit, Ofentemperatur und Zeit zum Backen die Wahrscheinlichkeit einer akzeptablen Brezel erhöhen. Ein mittlerer Wert von Trockenzeit verringert die Wahrscheinlichkeit einer akzeptablen Brezel. Die Forscher können auf Auswählen weiterer Prädiktoren zur Darstellung klicken, um Diagramme für andere Variablen zu erstellen.

Das Diagramm der partiellen Abhängigkeit bei zwei Prädiktoren von Mischzeit und Ofentemperatur zeigt eine komplexere Beziehung zwischen den beiden Variablen und der Antwortvariablen. Während mittlere Werte von Mischzeit und Ofentemperatur die Wahrscheinlichkeit einer akzeptablen Brezel erhöhen, zeigt das Diagramm, dass die besten Chancen gegeben sind, wenn beide Variablen bei mittleren Werten liegen. Die Forscher können auf Auswählen weiterer Prädiktoren zur Darstellung klicken, um Diagramme für andere Paare von Variablen zu produzieren.

TreeNet® Klassifikation: akzeptable B vs Mehlprotein; Wasser; Mischzeit; ...

Methode Kriterium für Auswahl der optimalen Anzahl von Bäumen Maximale Log-Likelihood Modellvalidierung 70/30% Schulungen-/Test setzt Trainingsrate 0,05 Auswahlmethode für Teilstichprobe Vollständig zufällig Teilstichbruchfraktionschefin 0,5 Maximale Anzahl von Endknoten pro Baum 6 Minimale Endknotengröße 3 Anzahl der für die Knotenteilung ausgewählten Prädiktoren Gesamtanzahl der Prädiktoren = 29 Verwendete Zeilen 5000
Informationen zur binären Antwort Schulungen Test Variable Klasse Anzahl % Anzahl % akzeptable Brezel 1 (Ereignis) 2160 61,82 943 62,62 0 1334 38,18 563 37,38 Alle 3494 100,00 1506 100,00

Ein Prädiktor Partielle Abhängigkeitsdiagramme

Weitere Prädiktoren für Diagramm auswählen...

Zwei Predictor PartI-Abhängigkeitsdiagramme

Weitere Prädiktoren für Diagramm auswählen...

TreeNet®-Klassifikation - wichtige Prädiktoren entdecken: akzeptable B vs. Mehlprotein; Wasser; ...

Prädiktor-Eliminationsdiagramm

Modellauswahl durch Eliminierung unwichtiger Prädiktoren Test Optimale Anzahl von Durchschnitt Anzahl der Modell Bäumen -Log-Likelihood Prädiktoren 1 268 0,273936 29 2 268 0,274186 27 3 234 0,273843 26 4 233 0,274350 25 5 232 0,274943 24 6 273 0,275553 23 7 244 0,274811 22 8 268 0,274258 21 9 272 0,274185 20 10 232 0,274077 19 11 287 0,273598 18 12 227 0,274358 17 13 276 0,275374 16 14 272 0,276082 15 15 268 0,275595 14 16 268 0,277810 13 17 253 0,276436 12 18 231 0,276159 11 19 268 0,273537 10 20 260 0,273455 9 21 299 0,272848 8 22 278 0,272629 7 23* 299 0,267184 6 24 297 0,288621 5 25 234 0,330342 4 26 290 0,305993 3 27 245 0,534345 2 28 146 0,599837 1
Modell Eliminierte Prädiktoren 1 Keine 2 Schaumstabilität; Massendichte 3 GeringsteGelationskonzentrat 4 Ofenmodus 2 5 Ofenmethode 6 Ofenmodus 1 7 Mischgeschwindigkeit 8 Ofenmodus 3 9 Ruhefläche 10 Backtemperatur 3 11 Mischwerkzeug 12 Backtemperatur 1 13 Ruhezeit 14 Wasser 15 kaustische Konzentration 16 Schwellungskapazität 17 Emulsionsstabilität 18 Emulsionsaktivität 19 Wasseraufnahmekapazität 20 Ölaufnahmekapazität 21 Mehlprotein 22 Schaumkapazität 23* Mehlgröße 24 Backtemperatur 2 25 Trockenzeit 26 Gelatinierungstemperatur 27 Zeit zum Backen 28 Ofentemperatur Der Algorithmus hat bei jedem Schritt einen Prädiktor und alle Prädiktoren mit 0 Wichtigkeit entfernt. * Das ausgewählte Modell weist die minimale durchschnittliche –Log-Likelihood auf. Die Ausgabe für das ausgewählte Modell folgt.

Ein Prädiktor Partielle Abhängigkeitsdiagramme

Weitere Prädiktoren für Diagramm auswählen...

Zwei Predictor PartI-Abhängigkeitsdiagramme

Weitere Prädiktoren für Diagramm auswählen...

TreeNet® Klassifikation: akzeptable B vs Mischzeit; Zeit zum Bac; ...

Zusammenfassung des Modells Prädiktoren gesamt 6 Wichtige Prädiktoren 6 Anzahl der aufgebauten Bäume 300 Optimale Anzahl von Bäumen 299 Statistiken Schulungen Test Durchschnittliche -Log-Likelihood 0,2418 0,2672 Fläche unter der ROC-Kurve 0,9661 0,9412 95%-KI (0,9608; 0,9713) (0,9295; 0,9529) Lift 1,6176 1,5970 Fehlklassifizierungsrate 0,0970 0,0963

Ein Prädiktor Partielle Abhängigkeitsdiagramme

Weitere Prädiktoren für Diagramm auswählen...

Zwei Predictor PartI-Abhängigkeitsdiagramme

Weitere Prädiktoren für Diagramm auswählen...

TreeNet® Klassifikation: akzeptable B vs Mischzeit; Zeit zum Bac; ...

Konfusionsmatrix Prognostizierte Klasse Tatsächliche (Schulungen) Prognostizierte Klasse (Test) Klasse Anzahl 1 0 % Richtig Anzahl 1 0 % Richtig 1 (Ereignis) 2160 1942 218 89,91 943 846 97 89,71 0 1334 121 1213 90,93 563 48 515 91,47 Alle 3494 2063 1431 90,30 1506 894 612 90,37 Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die Zeile 0,5 überschreitet.
Schulungen Statistiken (%) Test (%) Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) 89,91 89,71 Falsch-Positiv-Rate (Fehler 1. Art) 9,07 8,53 Falsch-Negativ-Rate (Fehler 2. Art) 10,09 10,29 Richtig-Negativ-Rate (Spezifität) 90,93 91,47
Fehlklassifikation Tatsächliche Schulungen Test Klasse Anzahl Fehlklassifiziert % Fehler Anzahl Fehlklassifiziert 1 (Ereignis) 2160 218 10,09 943 97 0 1334 121 9,07 563 48 Alle 3494 339 9,70 1506 145 Tatsächliche Klasse % Fehler 1 (Ereignis) 10,29 0 8,53 Alle 9,63 Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die Zeile 0,5 überschreitet.

Ein Prädiktor Partielle Abhängigkeitsdiagramme

Weitere Prädiktoren für Diagramm auswählen...

Zwei Predictor PartI-Abhängigkeitsdiagramme

Weitere Prädiktoren für Diagramm auswählen...