Auswählen der auswertenden Hyperparameterwerte für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet® Regression

Führen Sie Predictive Analytics-Modul > TreeNet® Regression > Modell anpassen aus. Klicken Sie auf die Schaltfläche Hyperparameter anpassen, um ein besseres Modell... nach der Tabelle mit der Zusammenfassung des Modells zu identifizieren.

Führen Sie Predictive Analytics-Modul > TreeNet® Regression > Wichtige Prädiktoren ermitteln aus. Klicken Sie auf die Schaltfläche Hyperparameter anpassen, um ein besseres Modell... nach der Tabelle mit der Zusammenfassung des Modells zu identifizieren.

Übersicht

Die Leistung von TreeNet®-Modellen hängt im Allgemeinen von den Werte der Trainingsrate, der Fraktion für die Teilstichprobe und der Komplexität der einzelnen Bäume ab, die das Modell bilden. Klicken Sie in den Ergebnissen für ein Modell auf Anpassen von Hyperparametern zum Identifizieren eines besseren Modells, um mehrere Werte dieser Hyperparameter auszuwerten und zu erfahren, welche Kombination die besten Werte eines Genauigkeitskriteriums ergibt, z. B. den maximalen R2-Wert. Bessere Werte dieser Hyperparameter haben das Potenzial, die Prognosegenauigkeit deutlich zu verbessern, daher ist die Untersuchung verschiedener Werte ein üblicher Schritt in der Analyse.

Sie können auch die Anzahl der Bäume anpassen, die das Modell enthält. Im Allgemeinen reichen 300 Bäume aus, um die Werte der Hyperparameter zu unterscheiden. Im Allgemeinen erhöhen Sie die Anzahl der Bäume, wenn die optimale Anzahl von Bäumen für ein oder mehrere als relevant erachtete Modelle nahe an der maximalen Anzahl von Bäumen liegt. Wenn die Anzahl der Bäume näher an der maximalen Anzahl liegt, ist die Wahrscheinlichkeit größer, dass eine Erhöhung der Anzahl der Bäume die Leistung des Modells verbessert.

Parameter zum Schutz vor übermäßiger Anpassung

Geben Sie einen oder mehrere Werte für jeden auszuwertenden Hyperparameter ein. Die Analyse wertet die Hyperparameter aus, um die Kombination mit dem besten Wert des Genauigkeitskriteriums zu finden. Wenn Sie keine Werte für einen Hyperparameter eingeben, verwendet die Auswertung den Wert für diesen Hyperparameter aus dem Modell in den Ergebnissen. Wenn die Antwort binär ist und das ursprüngliche Modell den Anteil der Ereignisse und Nicht-Ereignisse für die Stichprobe angibt, verwendet die Auswertung immer die Anteile aus dem ursprünglichen Modell.

Trainingsrate

Geben Sie bis zu 10 Werte ein. Geeignete Werte liegen zwischen 0,0001 und 1. Wenn Sie nicht Auswerten kompletter Parameterkombinationen auswählen, erfolgt die Auswertung der Trainingsrate an erster Stelle. Wenn die Auswertung zuerst erfolgt, dann wird für die Auswertung der Trainingsrate der kleinste Wert der Trainingsrate und des Teilstichprobenanteils verwendet.

Fraktion für Teilstichprobe

Geben Sie bis zu 10 Werte ein. Geeignete Werte sind größer als 0 und kleiner oder gleich 1. Wenn Sie nicht Auswerten kompletter Parameterkombinationen auswählen, ist die Auswertung der Teilstichprobe zweitrangig. Wenn die Auswertung an zweiter Stelle erfolgt, verwendet die Auswertung der Fraktion für die Teilstichprobe den besten Wert, den die Analyse für die Trainingsrate gefunden hat, und den geringsten Wert des Teilstichprobenanteils.

Fraktion für Teilstichprobe wird deaktiviert, wenn das ursprüngliche Modell den Anteil der Ereignisse und Nicht-Ereignisse an der Stichprobe für eine binäre Antwort angibt.

Individueller Baumkomplexitätsparameter

Wählen Sie, ob die Maximale Anzahl von Endknoten oder die Maximale Baumtiefe ausgewertet werden sollen. Normalerweise ist jede der beiden Wahlmöglichkeiten eine sinnvolle Möglichkeit, ein brauchbares Modell zu identifizieren, und die Auswahl hängt allein von individuellen Präferenzen ab. Wenn Sie nicht Auswerten kompletter Parameterkombinationen auswählen, erfolgt die Auswertung des Komplexitätsparameters zuletzt. Wenn die Auswertung zuletzt erfolgt, verwendet die Auswertung den besten Wert, den die Analyse bereits für die Trainingsrate und für den Teilstichprobenanteil gefunden hat.
Maximale Anzahl von Endknoten
Geben Sie bis zu 3 Werte ein. Geeignete Werte liegen zwischen 2 und 2000. Normalerweise bietet der Standardwert 6 ein gutes Gleichgewicht zwischen der Berechnungsgeschwindigkeit und der Untersuchung von Wechselwirkungen zwischen Variablen. Bei einem Wert von 2 werden die Wechselwirkungen nicht untersucht.
Maximale Baumtiefe
Geben Sie bis zu 3 Werte ein. Geeignete Werte liegen zwischen 2 und 1000 ein, um die maximale Tiefe eines Baums darzustellen. Der Wurzelknoten entspricht einer Tiefe von 1. In vielen Anwendungen ergeben Tiefen von 4 bis 6 ausreichend gute Modelle.

Anzahl der Bäume

Geben Sie einen Wert zwischen 1 und 5000 ein, um die maximale Anzahl der zu erstellenden Bäume festzulegen. Der Standardwert 300 liefert in der Regel nützliche Ergebnisse für die Auswertung der Hyperparameterwerte.

Wenn ein oder mehrere der als relevant erachteten Modelle über eine Anzahl von Bäumen verfügen, die in der Nähe der von Ihnen angegebenen Anzahl von Bäumen liegt, sollten Sie überlegen, ob Sie die Anzahl der Bäume erhöhen wollen. Wenn die Anzahl der Bäume näher an der maximalen Anzahl liegt, ist die Wahrscheinlichkeit größer, dass eine Erhöhung der Anzahl der Bäume die Leistung des Modells verbessert.

Auswerten kompletter Parameterkombinationen

Wenn Sie Werte für mehr als einen Hyperparameter angeben, hängen die Modelle in der Auswertungstabelle davon ab, ob Sie die vollständigen Kombinationen der Hyperparameter auswerten.
  • Wenn Sie Auswerten kompletter Parameterkombinationen auswählen, wertet der Algorithmus jede Kombination der Hyperparameter aus. Die Berechnung dieser Option dauert in der Regel länger.
  • Andernfalls wertet der Algorithmus die Hyperparameter in dieser Reihenfolge aus:
    1. Trainingsrate
    2. Fraktion für Teilstichprobe
    3. Individueller Baumkomplexitätsparameter
    Angenommen, der Algorithmus erhält die folgenden Hyperparameter:
    • Trainingsraten: 0,001, 0,01, 0,1
    • Teilstichproben-Fraktionen: 0,4, 0,5, 0,7
    • Maximale Anzahl von Endknoten: 4, 6
    1. Der Algorithmus legt den Anteil der Teilstichprobe auf 0,4 und die maximale Anzahl der Endknoten auf 4 fest. Anschließend wertet der Algorithmus die Trainingsraten in der Reihenfolge vom kleinsten zum größten Wert aus: 0,001, 0,01, 0,1.
    2. Angenommen, der Algorithmus identifiziert 0,01 als die beste Trainingsrate. Dann legt der Algorithmus die Trainingsrate auf 0,01 und die maximale Anzahl von Endknoten auf 4 fest. Anschließend wertet der Algorithmus die Teilstichprobenanteile von 0,4, 0,5 und 0,7 aus.
    3. Angenommen, der Algorithmus identifiziert 0,5 als den besten Teilstichprobenanteil. Dann legt der Algorithmus die Trainingsrate auf 0,01 und den Anteil der Teilstichprobe auf 0,5 fest. Anschließend wertet der Algorithmus die maximale Anzahl von Knoten von 4 und 6 aus.
    4. Angenommen, der Algorithmus identifiziert 6 als die beste maximale Anzahl von Endknoten. Anschließend erstellt Minitab die Auswertungstabelle und die Ergebnisse für das Modell mit Trainingsrate = 0,01, Teilstichprobenanteil 0,5 und maximaler Anzahl von Endknoten = 6.

    In diesem Beispiel enthält die Analyse, die nicht den vollständigen Satz von Parameterkombinationen auswertet, 8 Modelle in der Auswertungstabelle. Eine Analyse aller Parameterkombinationen hat 3 × 3 × 2 = 18 Kombinationen und benötigt mehr Rechenzeit.

Anzeigen der Ergebnisse

Nachdem Sie die zu untersuchenden Werte angegeben haben, klicken Sie auf Anzeigen der Ergebnisse. In einem neuen Satz von Ergebnissen erstellt Minitab eine Tabelle, in der das Genauigkeitskriterium für die Hyperparameterkombinationen und die Ergebnisse für das Modell mit dem besten Wert des Genauigkeitskriteriums verglichen werden.

Minitab erstellt für das neue Modell dieselben Tabellen und Diagramme wie für das ursprüngliche Modell. Die Tabellen und Grafiken für das neue Modell befinden sich in einem neuen Ergebnissatz. Die Notation ist dieselbe wie in der ursprünglichen Analyse. Die Speicherspalten befinden sich in demselben Arbeitsblatt. Wenn die ursprüngliche Analyse z. B. die angepassten Werte in einer Spalte mit dem Titel „Anpass“ gespeichert hat, betitelt die neue Analyse eine leere Spalte „Anpass_1“ und speichert die angepassten Werte.