Wählen Sie die Kriterien aus, um das beste Modell zu ermitteln, und geben Sie Optionen für die verschiedenen Modelltypen an. Sie können auch eine Basis für den Zufallszahlengenerator angeben.

Kriterium zum Auswählen des besten Modells

Wählen Sie das Kriterium aus, um den besten Modelltyp zu bestimmen. Sie können die Ergebnisse aus mehreren Methoden vergleichen, um die beste Option für Ihre Anwendung zu ermitteln.
  • Maximales R-Quadrat: Die Standardmethode funktioniert in vielen Anwendungen gut. Diese Methode minimiert die Summe der quadrierten Fehler.
  • Minimale mittlere absolute Abweichung: Diese Methode minimiert die Summe der absoluten Fehlerwerte.

Zum Anpassen von TreeNet®-Regressionsmodellen die Verlustfunktion nach Huber mit Umschaltwert K verwenden; K =

Die Huber-Funktion ist eine Mischung aus den maximalen R-Quadratfunktionen und den minimalen mittleren absoluten Abweichungsfunktionen. Geben Sie mit der Huber-Funktion einen Schaltwert an. Die Verlustfunktion beginnt als quadrierter Fehler. Die Verlustfunktion bleibt der quadrierte Fehler, solange der Wert kleiner als der Umschaltwert ist. Wenn der quadrierte Fehler den Umschaltwert überschreitet, wird als Verlustfunktion die absolute Abweichung verwendet. Wenn die absolute Abweichung kleiner als der Umschaltwert wird, wird als Verlustfunktion wieder der quadratische Fehler verwendet..

Optionen für TreeNet®-Regressionsmodelle

Geben Sie Optionen für das TreeNet-Modell® an.

Anzahl der Bäume
Geben Sie einen Wert zwischen 1 und 5000 ein, um die Anzahl der zu erstellenden Bäume festzulegen. Der Standardwert 300 liefert nützliche Ergebnisse als Ausgangspunkt.
Wenn sich das ursprünglich ausgewählte Modell in der Nähe der von Ihnen angegebenen Anzahl von Bäumen befindet, überlegen Sie, ob die Anzahl der Bäume erhöht werden soll, um nach einem besseren Modell zu suchen.
Maximale Anzahl von Endknoten pro Baum und Maximale Baumtiefe
Sie können auch die Größe der Bäume einschränken. Wählen Sie eine der folgenden Optionen aus, um die Größe der Bäume zu begrenzen.
  • Maximale Anzahl von Endknoten pro Baum: Geben Sie einen Wert zwischen 2 und 2000 ein, um die maximale Anzahl von Endknoten in einem Baum anzugeben. Normalerweise bietet der Standardwert 6 ein gutes Gleichgewicht zwischen der Berechnungsgeschwindigkeit und der Untersuchung von Wechselwirkungen zwischen Variablen. Bei einem Wert von 2 werden die Wechselwirkungen nicht untersucht.
  • Maximale Baumtiefe: Geben Sie einen Wert zwischen 2 und 1000 ein, um die maximale Tiefe eines Baums anzugeben. Der Wurzelknoten entspricht einer Tiefe von 1. Die Standardtiefe ist 4. In vielen Anwendungen ergeben Tiefen von 4 bis 6 ausreichend gute Modelle.
Trainingsrate
Geben Sie bis zu 10 Lernraten an.
Standardmäßig wertet die Analyse 3 Lernraten aus. Die Analyse stimmt die Hyperparameter normalerweise mit 3 Werten von K ab: 0,001, 0,1 und max(0,01, 0,1 * min(1,0, N/10000)), wobei N = Anzahl der Zeilen in der Antwortspalte. Wenn max(0.01, 0.1 * min(1.0, N/10000)) = 0.001 oder 0.1, dann stimmt die Analyse die Hyperparameter mit 0.001, 0.01 und 0.1 ab.
Fraktion für Teilstichprobe
Geben Sie bis zu 10 Teilstichprobenfraktionen an. Bei jeder Iteration wählt die Prozedur eine andere Teilmenge aus, die diesen Teil der Daten enthält, um eine Struktur zu erstellen. Subsampling schützt vor Überanpassung. Teilstichprobenfraktionen müssen größer als 0 und kleiner oder gleich 1 sein. Die Standardwerte sind 0,5 und 0,7.
Anzahl der Prädiktoren für die Knotenteilung
Geben Sie die Anzahl der Prädiktoren an, die für jede Knotenteilung berücksichtigt werden sollen. In der Regel funktioniert die Analyse gut, wenn an jedem Knoten alle Prädiktoren berücksichtigt werden. Einige Datensätze weisen jedoch Assoziationen zwischen den Prädiktoren auf, die zu einer verbesserten Modellleistung führen, wenn die Analyse eine andere zufällige Teilmenge von Prädiktoren an jedem Knoten berücksichtigt. Für solche Fälle ist die Quadratwurzel der Gesamtzahl der Prädiktoren ein typischer Ausgangspunkt. Nachdem Sie die Quadratwurzel verwendet und das Modell angezeigt haben, können Sie überlegen, ob eine größere oder kleinere Anzahl von Prädiktoren mit einem Prozentsatz der Gesamtsumme angegeben werden soll.
  • Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um alle Prädiktoren zum Teilen der Knoten zu verwenden.
  • Quadratwurzel der Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um die Quadratwurzel der Gesamtzahl der Prädiktoren zum Teilen der Knoten zu verwenden.
  • K Prozent der Gesamtzahl der Prädiktoren; K =: Wählen Sie diese Option aus, um einen Prozentsatz der Prädiktoren zum Teilen der Knoten zu verwenden.

Optionen für Random Forests®-Regressionsmodelle

Geben Sie Optionen für das Modell "Random Forests® " an.

Anzahl der Bootstrap-Stichproben zum Aufbauen der Bäume
Geben Sie einen Wert ein, um die Anzahl der Bootstrap-Stichproben und die Anzahl der durch die Analyse erzeugten Bäume zu bestimmen. Geben Sie einen Wert zwischen 3 und 3000 ein.
Bootstrap-Stichprobenumfang kleiner als der Trainingsdatenumfang angeben
Wählen Sie diese Option aus, um einen Wert einzugeben, der den Umfang der Bootstrap-Stichprobe festlegt. Sie müssen einen Wert größer oder gleich 5 eingeben. Wenn Sie einen Umfang eingeben, der den Umfang des Trainingsdatensatzes übersteigt, verwendet Minitab einen Stichprobenumfang, die gleich dem Umfang des Trainingsdatensatzes ist.
Anzahl der Prädiktoren für die Knotenteilung
Geben Sie die Anzahl der Prädiktoren an, die für jede Knotenteilung berücksichtigt werden sollen. In der Regel funktioniert die Analyse gut, wenn Sie die Quadratwurzel der Gesamtzahl der Prädiktoren berücksichtigen. Einige Datensätze weisen jedoch Assoziationen unter den Prädiktoren auf, die zu einer besseren Leistung des Modells führen, wenn bei der Analyse für jeden Knoten eine größere oder kleinere Anzahl Prädiktoren berücksichtigt wird. Nachdem Sie die Quadratwurzel verwendet und das Modell angezeigt haben, können Sie überlegen, ob Sie die Anzahl der Prädiktoren ändern sollten, um die Leistung des Modells zu verbessern.
  • Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um alle Prädiktoren zum Teilen der Knoten zu verwenden. Der mit dieser Option angelegte Wald wird als Bootstrap-Wald bezeichnet.
  • Quadratwurzel der Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um die Quadratwurzel der Gesamtzahl der Prädiktoren zum Teilen der Knoten zu verwenden.
  • K Prozent der Gesamtzahl der Prädiktoren; K =: Wählen Sie diese Option aus, um einen Prozentsatz der Prädiktoren zum Teilen der Knoten zu verwenden.
Minimale Anzahl der Fälle zum Teilen eines internen Knotens
Geben Sie 1 bis 3 Mindestzahlen an. Standardmäßig wertet die Analyse 2, 5 und 8 aus. Wenn die Zahl 2 ist, können alle Knoten in kleinere Knoten aufgeteilt werden, bis eine weitere Aufteilung unmöglich ist. Wenn die Modellleistung unzureichend ist, überlegen Sie, ob Sie andere Werte ausprobieren sollten, um die Auswirkungen auf die Leistung zu bestimmen.

Optionen für CART®-Regressionsmodelle

Geben Sie Optionen für das CART-Modell® an.

Kriterium für Auswahl des optimalen Baums
Wählen Sie zwischen diesen Kriterien, um den Baum in den Ergebnissen zu erzeugen. Sie können die Ergebnisse aus verschiedenen Bäumen vergleichen, um die beste Option für Ihre Anwendung zu ermitteln.
Innerhalb von K Standardfehlern des maximalen R-Quadrat; K=
Wählen Sie diese Option aus, damit Minitab den kleinsten Baum mit einem R2 auswählt, das innerhalb von K Standardfehlern des Baums mit dem maximalen R2 fällt. In der Standardeinstellung ist K=1, sodass der Baum in den Ergebnissen der kleinste Regression mit einem R2 innerhalb von 1 Standardfehler des maximalen R2 ist.
Maximales R-Quadrat
Wählen Sie diese Option aus, um Ergebnisse für den Baum mit dem maximalen R-Quadrat anzuzeigen.
Minimale Anzahl der Fälle zum Teilen eines internen Knotens
Geben Sie die minimale Anzahl von Fällen ein, die ein Knoten aufweisen kann, wenn er immer noch in weitere Knoten geteilt werden kann. Der Standardwert ist 10. Bei größeren Stichprobenumfängen empfiehlt es sich möglicherweise, dieses Minimum zu erhöhen. Wenn ein interner Knoten beispielsweise über 10 oder mehr Fälle verfügt, versucht Minitab, diesen zu teilen. Verfügt der interne Knoten hingegen über höchstens 9 Fälle, versucht Minitab nicht, diesen zu teilen.
Das interne Knotenlimit ist nur relevant, wenn der Wert mindestens das Doppelte des Terminalknotenlimits beträgt. Interne Knotengrenzen von mindestens dem 3-fachen der Terminalknotengrenzen ermöglichen eine angemessene Anzahl von Splittern. In der Regel sind größere Grenzwerte für größere Datensätze sinnvoll.
Minimal zulässige Anzahl der Fälle für einen Endknoten
Geben Sie die Mindestanzahl von Fällen ein, die in einem Endknoten enthalten sein können. Der Standardwert ist 3. Bei größeren Stichprobenumfängen empfiehlt es sich möglicherweise, dieses Minimum zu erhöhen. Wenn z. B. bei einer Teilung ein Knoten mit weniger als drei Fällen erstellt würde, führt Minitab keine Teilung durch.

Optionen für CART®-Regressionsmodelle

Geben Sie Optionen für das MARS-Modell® an.

Maximale Anzahl von Basisfunktionen
In den meisten Fällen funktioniert der Standardwert 30 gut. Ziehen Sie einen größeren Wert in Betracht, wenn 30 Basisfunktionen für die Daten zu klein erscheinen. Betrachten Sie beispielsweise einen größeren Wert, wenn Sie der Meinung sind, dass mehr als 30 Prädiktoren wichtig sind.
Wenn Sie sich nicht sicher sind, ob 30 ausreichen, überprüfen Sie die ersten Ergebnisse. Beispielsweise ist es wahrscheinlicher, dass ein größerer Wert die Anpassung des Modells verbessert, wenn der R-Quadrat-Wert nach oben tendiert, wenn die Analyse Basisfunktionen hinzufügt.
Minimale Anzahl von Beobachtungen zwischen Knoten
MARS® die Wahl erlauben
Die Analyse verwendet Stichprobenumfang und Modellkomplexität, um automatisch einen Wert auszuwählen. Der automatische Wert funktioniert in den meisten Fällen gut.
Benutzerdefiniertes λ
Der Wert 1 gibt an, dass aufeinanderfolgende Datenpunkte Punkte sein können, bei denen sich die Basisfunktion ändert. Der Wert 1 ermöglicht die schnellsten Änderungen in den Modellvorhersagen. Berücksichtigen Sie verschiedene Werte, um die Auswirkungen auf die Anpassung des Modells zu sehen. Beispielsweise erzeugen größere Werte für einige Daten glattere Modelle, bei denen die Wahrscheinlichkeit einer Überanpassung der Trainingsdaten geringer ist. Solche glatteren Modelle sind manchmal über bestimmte Datenbereiche hinweg weniger genau.
Zulässige Prädiktorinteraktionen

Lassen Sie Prädiktorinteraktionen in der von Ihnen angegebenen Reihenfolge zu. Eine Wechselwirkung bedeutet, dass die Wirkung eines Prädiktors vom Wert anderer Prädiktoren abhängt. Zum Beispiel hängt die Geschwindigkeit, mit der Getreide in einem Ofen trocknet, von der Zeit im Ofen ab, aber die Wirkung der Zeit hängt von der Temperatur des Ofens ab. Die Zeit- und Temperaturvariablen interagieren.

Keine Wechselwirkungen zulassen (additives Modell)
Keine Prädiktor-Wechselwirkungen sind zulässig. In diesem Fall verwendet Minitab das additive Modell, bei dem die Basisfunktionen nicht interagieren.
Alle Wechselwirkungen bis zur Ordnung 2 zulassen
Order gibt die Anzahl der verschiedenen Prädiktoren an, die in einer Basisfunktion enthalten sein können. Beispielsweise gibt eine Ordnung von 2 an, dass die Wirkung eines Prädiktors vom Wert von 1 anderen Prädiktor abhängen kann. Die folgenden Basisfunktionen sind ein Beispiel für ein Zusammenspiel der Ordnung 2:
  • BF1 = max(0, X1 − 800)
  • BF2 = max(0, X2 − 50) * BF1

Basis für Zufallszahlengenerator

Sie können eine Basis für den Zufallszahlengenerator angeben, um die Teilstichproben und die Teilmenge der Prädiktoren nach dem Zufallsprinzip auszuwählen. In der Regel müssen Sie die Basis nicht ändern. Sie können die Basis ändern, um zu untersuchen, wie empfindlich die Ergebnisse in Bezug auf eine Zufallsauswahl sind, oder um um dieselbe Zufallsauswahl für wiederholte Analysen sicherzustellen.