Beispiel für Ermitteln von wichtigen Prädiktoren with TreeNet®-Klassifikation

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Ein Forscherteam sammelt Daten über Faktoren, die ein Qualitätsmerkmal von gebackenen Brezeln beeinflussen. Zu den Variablen gehören Prozesseinstellungen wie Mischwerkzeug und Korneigenschaften wie Mehlprotein.

Im Rahmen der ersten Erkundung der Daten entscheiden sich die Forscher für Ermitteln von wichtigen Prädiktoren den Vergleich von Modellen, indem sie nacheinander unwichtige Prädiktoren entfernen, um wichtige Prädiktoren zu identifizieren. Die Forscher hoffen, wichtige Prädiktoren zu identifizieren, die große Effekte auf das Qualitätsmerkmal haben, und mehr Einblicke in die Beziehungen zwischen dem Qualitätsmerkmal und den wichtigsten Prädiktoren zu gewinnen.

  1. Öffnen Sie die Beispieldaten Brezel_Akzeptanz.MTW.
  2. Wählen Sie Predictive Analytics-Modul > TreeNet® Klassifikation > Wichtige Prädiktoren ermitteln aus.
  3. Wählen Sie in der Dropdown-Liste die Option Binäre Antwort aus.
  4. Geben Sie im Feld Antwort den Wert akzeptable Brezel ein.
  5. Wählen Sie unter Antwortereignis 1 aus, um anzugeben, dass die Brezel akzeptabel ist.
  6. Geben Sie im Feld Stetige Prädiktoren Mehlprotein-Massendichte ein.
  7. Geben Sie im Feld Kategoriale Prädiktoren Mischwerkzeug-Ofenmethode ein.
  8. Klicken Sie auf Wichtige Prädiktoren ermitteln
  9. Geben Sie in Maximale Anzahl von Eliminierungsschritten den Wert 29 ein.
  10. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Für diese Analyse vergleicht Minitab Statistical Software 28 Modelle. Die Anzahl der Schritte ist kleiner als die maximale Anzahl von Schritten, da der Schaumstabilität-Prädiktor im ersten Modell eine Wichtigkeitspunktzahl von 0 hat, sodass der Algorithmus im ersten Schritt 2 Variablen eliminiert. Das Sternchen in der Spalte Modell der Tabelle Modellauswertung zeigt, dass das Modell mit dem kleinsten Wert der durchschnittlichen –Log-Likelihood-Statistik das Modell 23 ist. Die Ergebnisse, die der Modellauswertungstabelle folgen, beziehen sich auf Modell 23.

Obwohl Modell 23 den kleinsten Wert der durchschnittlichen –Log-Likelihood-Statistik hat, weisen andere Modelle ähnliche Werte auf. Das Team kann auf Alternatives Modell auswählen klicken, um Ergebnisse für andere Modelle aus der Tabelle Modellauswertung zu erstellen.

In den Ergebnissen für Modell 23 zeigt das Diagramme Durchschnittliche –Log-Likelihood vs. Anzahl der Bäume, dass die optimale Anzahl von Bäumen nahezu der Anzahl der Bäume in der Analyse entspricht. Das Team kann auf Optimieren von Hyperparametern klicken, um die Anzahl der Bäume zu erhöhen und zu sehen, ob Änderungen an anderen Hyperparametern die Leistung des Modells verbessern.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist Mischzeit. Wenn die Wichtigkeit der obersten Prädiktorvariablen, Mischzeit, 100 % beträgt, hat die nächstwichtige Variable, Ofentemperatur, einen Beitrag von 93,9 %. Das bedeutet, dass Ofentemperatur 93,9 % so wichtig ist wie Mischzeit.

Verwenden Sie die partiellen Abhängigkeitsdiagramme, um einen Einblick in die Auswirkungen der wichtigen Variablen oder Variablenpaare auf die angepassten Antwortwerte zu erhalten. Die angepassten Antwortwerte liegen auf der 1/2 Log-Skala. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Die Diagramme der partiellen Abhängigkeit bei einem Prädiktor zeigen, dass mittlere Werte für Mischzeit, Ofentemperatur und Zeit zum Backen die Wahrscheinlichkeit einer akzeptablen Brezel erhöhen. Ein mittlerer Wert von Trockenzeit verringert die Wahrscheinlichkeit einer akzeptablen Brezel. Die Forscher können auswählen Diagramme bei einem Prädiktor, ob sie Diagramme für andere Variablen erstellen möchten.

Das Diagramm der partiellen Abhängigkeit bei zwei Prädiktoren von Mischzeit und Ofentemperatur zeigt eine komplexere Beziehung zwischen den beiden Variablen und der Antwortvariablen. Während mittlere Werte von Mischzeit und Ofentemperatur die Wahrscheinlichkeit einer akzeptablen Brezel erhöhen, zeigt das Diagramm, dass die besten Quoten auftreten, wenn beide Variablen bei mittleren Werten liegen. Die Forscher können sich dafür entscheiden Diagramme bei zwei Prädiktoren, Diagramme für andere Variablenpaare zu erstellen.

Methode

Kriterium für Auswahl der optimalen Anzahl von BäumenMaximale Log-Likelihood
Modellvalidierung70/30% Trainings-/Testdatensätze
Trainingsrate0,05
Auswahlmethode für TeilstichprobeVollständig zufällig
    Teilstichprobenfraktion0,5
Maximale Anzahl von Endknoten pro Baum6
Minimale Endknotengröße3
Anzahl der für die Knotenteilung ausgewählten PrädiktorenGesamtanzahl der Prädiktoren = 29
Verwendete Zeilen5000

Informationen zur binären Antwort



TrainingsTest
VariableKlasseAnzahl%Anzahl%
akzeptable Brezel1 (Ereignis)216061,8294362,62
  0133438,1856337,38
  Alle3494100,001506100,00

Modellauswahl durch Eliminierung unwichtiger Prädiktoren

Test
ModellOptimale
Anzahl von
Bäumen
Durchschnitt
-Log-Likelihood
Anzahl der
Prädiktoren
Eliminierte Prädiktoren
12680,27393629Keine
22680,27418627Schaumstabilität; Massendichte
32340,27384326GeringsteGelationskonzentrat
42330,27435025Ofenmodus 2
52320,27494324Ofenmethode
62730,27555323Ofenmodus 1
72440,27481122Mischgeschwindigkeit
82680,27425821Ofenmodus 3
92720,27418520Ruhefläche
102320,27407719Backtemperatur 3
112870,27359818Mischwerkzeug
122270,27435817Backtemperatur 1
132760,27537416Ruhezeit
142720,27608215Wasser
152680,27559514kaustische Konzentration
162680,27781013Schwellungskapazität
172530,27643612Emulsionsstabilität
182310,27615911Emulsionsaktivität
192680,27353710Wasseraufnahmekapazität
202600,2734559Ölaufnahmekapazität
212990,2728488Mehlprotein
222780,2726297Schaumkapazität
23*2990,2671846Mehlgröße
242970,2886215Backtemperatur 2
252340,3303424Trockenzeit
262900,3059933Gelatinierungstemperatur
272450,5343452Zeit zum Backen
281460,5998371Ofentemperatur
Der Algorithmus hat bei jedem Schritt einen Prädiktor und alle Prädiktoren mit 0 Wichtigkeit
     entfernt.
* Das ausgewählte Modell weist die minimale durchschnittliche –Log-Likelihood auf. Die
     Ausgabe für das ausgewählte Modell folgt.

Zusammenfassung des Modells

Prädiktoren gesamt6
Wichtige Prädiktoren6
Anzahl der aufgebauten Bäume300
Optimale Anzahl von Bäumen299
StatistikenTrainingsTest
Durchschnittliche -Log-Likelihood0,24180,2672
Fläche unter der ROC-Kurve0,96610,9412
        95%-KI(0,9608; 0,9713)(0,9295; 0,9529)
Lift1,61761,5970
Fehlklassifizierungsrate0,09700,0963

Konfusionsmatrix


Prognostizierte Klasse
(Trainings)




Tatsächliche
Klasse
Prognostizierte Klasse (Test)
Anzahl10% RichtigAnzahl10% Richtig
1 (Ereignis)2160194221889,919438469789,71
01334121121390,935634851591,47
Alle34942063143190,30150689461290,37
Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die
     Zeile 0,5 überschreitet.
     
StatistikenTrainings
(%)
Test (%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)89,9189,71
Falsch-Positiv-Rate (Fehler 1. Art)9,078,53
Falsch-Negativ-Rate (Fehler 2. Art)10,0910,29
Richtig-Negativ-Rate (Spezifität)90,9391,47

Fehlklassifikation

Tatsächliche
Klasse
TrainingsTest
AnzahlFehlklassifiziert% FehlerAnzahlFehlklassifiziert% Fehler
1 (Ereignis)216021810,099439710,29
013341219,07563488,53
Alle34943399,7015061459,63
Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die
     Zeile 0,5 überschreitet.