Beispiel für Ermitteln von wichtigen Prädiktoren for TreeNet® Regression

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Ein Forscherteam will anhand von Daten aus einem Spritzgießprozess Einstellungen für Maschinen untersuchen, die eine bestimmte Art von Festigkeit eines Kunststoffteils maximieren. Zu den Variablen gehören Steuerungen an den Maschinen, verschiedene Kunststoffformeln und die Spritzgießmaschinen.

Im Rahmen der ersten Erkundung der Daten entscheiden sich die Forscher für Ermitteln von wichtigen Prädiktoren den Vergleich von Modellen, indem sie nacheinander unwichtige Prädiktoren entfernen, um wichtige Prädiktoren zu identifizieren. Die Forscher hoffen, wichtige Prädiktoren zu identifizieren, die den größten Einfluss haben und mehr Einblick in die Beziehungen zwischen der Antwort und den wichtigsten Prädiktoren zu gewinnen.

  1. Öffnen Sie den Beispieldatensatz Injektionsprozess.MTW.
  2. Wählen Sie Predictive Analytics-Modul > TreeNet® Regression > Wichtige Prädiktoren ermitteln aus.
  3. Geben Sie im Feld Antwort den Wert Stärke ein.
  4. Geben Sie Injektionsdruck-Temperatur bei der Messung in Stetige Prädiktoren.
  5. Geben Sie im Feld Kategoriale Prädiktoren die Spalten Maschine und Formel ein.
  6. Klicken Sie auf OK.

Interpretieren der Ergebnisse

Für diese Analyse vergleicht Minitab Statistical Software 20 Modelle. Das Sternchen in der Spalte „Modell“ der Tabelle Modellauswertung zeigt, dass das Modell mit dem größten Wert der kreuzvalidierten R2-Statistik Modell 16 ist. Modell 16 enthält 5 wichtige Prädiktoren. Die Ergebnisse, die der Modellauswertungstabelle folgen, beziehen sich auf Modell 16.

Obwohl Modell 16 den größten Wert der kreuzvalidierten R2-Statistik hat, weisen andere Modelle ähnliche Werte auf. Das Team kann auf Alternatives Modell auswählen klicken, um Ergebnisse für andere Modelle aus der Tabelle Modellauswertung zu erstellen.

In den Ergebnissen für Modell 16 zeigt das Diagramm von R-Quadrat vs. Anzahl der Bäume, dass die optimale Anzahl von Bäumen der Anzahl der Bäume in der Analyse entspricht, 300. Das Team kann auf Optimieren von Hyperparametern klicken, um die Anzahl der Bäume zu erhöhen und zu sehen, ob Änderungen an anderen Hyperparametern die Leistung des Modells verbessern.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist die Formtemperatur. Wenn die Wichtigkeit der obersten Prädiktorvariablen, „Formtemperatur“, 100 % beträgt, hat die nächstwichtige Variable, „Maschine“, einen Beitrag von 58,7 %. Das bedeutet, dass die Maschine, die einspritzt, zu 58,7 % so wichtig ist wie die Temperatur im Inneren der Form.

Verwenden Sie die Diagramme der partiellen Abhängigkeit, um zu erfahren, wie sich die wichtigen Variablen oder Variablenpaare auf den prognostizierten Wert der Antwortvariablen auswirken. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Die Diagramme der partiellen Abhängigkeit bei einem Prädiktor zeigen, dass Formtemperatur, Einspritzdruck und Kühltemperatur alle einen positiven Bezug zur Festigkeit haben. Das Diagramm der Maschinen zeigt die Unterschiede zwischen den Maschinen, wobei Maschine 1 im Durchschnitt die schwächsten Teile und Maschine 4 im Durchschnitt die stärksten Teile herstellt. Das Team stellt fest, dass die Formtemperatur und die Maschine die stärkste Wechselwirkung in den Daten haben, also betrachten Sie das Diagramm der partiellen Abhängigkeit, um besser zu verstehen, wie diese Variablen die Festigkeit beeinflussen. Das Team kann in den Ergebnissen auswählen Diagramme bei einem Prädiktor, um Diagramme für andere Variablen zu erstellen, z. B. die Einspritztemperatur.

Das Diagramm der partiellen Abhängigkeit bei zwei Prädiktoren „Formtemperatur und Maschine“ gibt einen Einblick in die unterschiedlichen durchschnittlichen Festigkeiten der Maschinen. Ein Grund ist, dass die Daten von Maschine 1 nicht so viele Beobachtungen bei den höchsten Formtemperaturen enthalten wie die anderen Maschinen. Das Team könnte sich immer noch entscheiden, nach anderen Gründen zu suchen, dass die Maschinen unterschiedliche Festigkeiten erzeugen, wenn andere Einstellungen identisch sind. Das Team kann auf die Ergebnisse klicken Diagramme bei zwei Prädiktoren, um Diagramme für andere Variablenpaare zu erstellen.

Methode

VerlustfunktionQuadrierter Fehler
Kriterium für Auswahl der optimalen Anzahl von BäumenMaximales R-Quadrat
ModellvalidierungKreuzvalidierung mit 3 Faltungen
Trainingsrate0,01408
Teilstichprobenfraktion0,5
Maximale Anzahl von Endknoten pro Baum6
Minimale Endknotengröße3
Anzahl der für die Knotenteilung ausgewählten PrädiktorenGesamtanzahl der Prädiktoren = 21
Verwendete Zeilen1408

Informationen zur Antwortvariablen

MittelwertStdAbwMinimumQ1MedianQ3Maximum
485,247318,61141,2082301,099398,924562,4492569,04

Modellauswahl durch Eliminierung unwichtiger Prädiktoren

Test
ModellOptimale
Anzahl von
Bäumen
R-Quadrat
(%)
Anzahl der
Prädiktoren
Eliminierte Prädiktoren
130089,3221Keine
230089,3419Kunststoffdurchfluss; Position ändern
330089,3918Trocknungstemperatur
430089,4617Schmelztemperaturzone 2
530089,5116Kunststofftemperatur
630089,5015Formel
730089,5914Haltedruck
830089,5713Schraubenkissen
930089,6912Schmelztemperaturzone 4
1030089,7011Rückdruck
1130089,8610Schmelztemperaturzone 1
1230089,909Trocknungszeit
1330089,928Temperatur bei der Messung
1430090,067Schmelztemperaturzone 5
1530090,166Schmelztemperaturzone 3
16*30090,235Schraubendrehzahl
1730089,964Injektionstemperatur
1829779,373Kühltemperatur
1924466,642Injektionsdruck
2016446,191Maschine
Der Algorithmus hat bei jedem Schritt einen Prädiktor und alle Prädiktoren mit 0 Wichtigkeit
     entfernt.
* Das ausgewählte Modell weist das maximale R-Quadrat auf. Die Ausgabe für das ausgewählte
     Modell folgt.

Zusammenfassung des Modells

Prädiktoren gesamt5
Wichtige Prädiktoren5
Anzahl der aufgebauten Bäume300
Optimale Anzahl von Bäumen300
StatistikenTrainingsTest
R-Quadrat92,23%90,23%
Wurzel des mittleren quadrierten Fehlers (RMSE)88,804999,5673
Mittlerer quadrierter Fehler (MSE)7886,31529913,6420
Mittlere abs. Abweichung (MAD)68,923174,4113
Mittlerer absoluter prozentualer Fehler (MAPE)0,20830,2175