Auswählen der Analyseoptionen für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet® Regression

Die Analyseoptionen sind für die folgenden Analysen gleich:

Predictive Analytics-Modul > TreeNet® Regression > Modell anpassen > Optionen

Predictive Analytics-Modul > TreeNet® Regression > Wichtige Prädiktoren ermitteln > Optionen

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Wählen Sie die Analyseoptionen aus.

Verlustfunktion
Wählen Sie die Verlustfunktion zum Erstellen des Modells aus. Sie können die Ergebnisse aus mehreren Funktionen vergleichen, um die beste Option für Ihre Anwendung zu ermitteln.
  • Quadrierter Fehler: Die Standardfunktion ist der quadrierte Fehler. Dies ist eine auf dem Mittelwert basierende Verlustfunktion. Diese Verlustfunktion eignet sich für viele Anwendungen.
  • Absolute Abweichung: Die absolute Abweichung ist eine auf dem Median basierende Verlustfunktion.
  • Huber: Die Huber-Funktion ist ein Hybrid aus dem quadrierten Fehler und der absoluten Abweichung.
Geben Sie für Huber außerdem Umschaltwert an. Die Verlustfunktion beginnt als quadrierter Fehler. Die Verlustfunktion bleibt der quadrierte Fehler, solange der Wert kleiner als der Umschaltwert ist. Wenn der quadrierte Fehler den Umschaltwert überschreitet, wird als Verlustfunktion die absolute Abweichung verwendet. Wenn die absolute Abweichung kleiner als der Umschaltwert wird, wird als Verlustfunktion wieder der quadratische Fehler verwendet.
Anzahl der Bäume
Geben Sie einen Wert zwischen 1 und 5000 ein, um die Anzahl der zu erstellenden Bäume festzulegen. Der Standardwert 300 liefert nützliche Ergebnisse als Ausgangspunkt.
Wenn sich das ursprünglich ausgewählte Modell in der Nähe der von Ihnen angegebenen Anzahl von Bäumen befindet, überlegen Sie, ob die Anzahl der Bäume erhöht werden soll, um nach einem besseren Modell zu suchen.
Maximale Anzahl von Endknoten pro Baum und Maximale Baumtiefe
Sie können auch die Größe der Bäume einschränken. Wählen Sie eine der folgenden Optionen aus, um die Größe der Bäume zu begrenzen.
  • Maximale Anzahl von Endknoten pro Baum: Geben Sie einen Wert zwischen 2 und 2000 ein, um die maximale Anzahl von Endknoten in einem Baum anzugeben. Normalerweise bietet der Standardwert 6 ein gutes Gleichgewicht zwischen der Berechnungsgeschwindigkeit und der Untersuchung von Wechselwirkungen zwischen Variablen. Bei einem Wert von 2 werden die Wechselwirkungen nicht untersucht.
  • Maximale Baumtiefe: Geben Sie einen Wert zwischen 2 und 1000 ein, um die maximale Tiefe eines Baums anzugeben. Der Wurzelknoten entspricht einer Tiefe von 1. Die Standardtiefe ist 4. In vielen Anwendungen ergeben Tiefen von 4 bis 6 ausreichend gute Modelle.
Minimal zulässige Anzahl der Fälle für einen Endknoten
Geben Sie die Mindestanzahl von Fällen für einen Endknoten ein. Wenn z. B. die Mindestgröße 3 ist und bei einer Teilung ein Knoten mit weniger als drei Fällen erstellt würde, führt Minitab keine Teilung durch.
Schutz vor übermäßiger Anpassung
Verwenden Sie die folgenden Optionen, um eine übermäßige Anpassung des Modells zu minimieren.
Trainingsrate
Die Trainingsrate ist einer der beiden extrem wichtigen Hyperparameter, die Sie optimieren können, um ein optimales Modell für Ihre Daten zu erhalten.
Wenn die Anzahl der Fälle in Ihren Trainingsdaten 1000 oder weniger beträgt, verwendet Minitab standardmäßig 0,01 als Trainingsrate. Bei Datensätzen mit mehr als 1000 Fällen beträgt die Standardtrainingsrate max[0,01; 0,1 * min(1,0; N/10000)]. Wenn der Datensatz beispielsweise 9000 Werte der Antwortvariablen aufweist, ist die Trainingsrate = 0,09.
Wenn das anfängliche Modell Ihre Daten nicht gut prognostiziert, sollten Sie die Trainingsrate um das Fünf- oder Zehnfache erhöhen oder verringern, um festzustellen, ob Sie ein besseres Modell erhalten können.
Fraktion für Teilstichprobe
Geben Sie den Anteil der Trainingsdaten an, die nach dem Zufallsprinzip ausgewählt werden sollen, um jeden Baum in der Analyse zu erstellen. Normalerweise funktioniert ein Anteil von 0,5 gut. Erwägen Sie, den Anteil vom Standardwert 0,5 auf 0,70 oder höher anzuheben, wenn das ursprüngliche Modell nicht gut für Ihre Daten passend ist.
Anzahl der Prädiktoren für die Knotenteilung
Geben Sie die Anzahl der Prädiktoren an, die für jede Knotenteilung berücksichtigt werden sollen. In der Regel funktioniert die Analyse gut, wenn an jedem Knoten alle Prädiktoren berücksichtigt werden. Einige Datensätze weisen jedoch Assoziationen zwischen den Prädiktoren auf, die zu einer verbesserten Modellleistung führen, wenn die Analyse eine andere zufällige Teilmenge von Prädiktoren an jedem Knoten berücksichtigt. Für solche Fälle ist die Quadratwurzel der Gesamtzahl der Prädiktoren ein typischer Ausgangspunkt. Nachdem Sie die Quadratwurzel verwendet und das Modell angezeigt haben, können Sie überlegen, ob eine größere oder kleinere Anzahl von Prädiktoren mit einem Prozentsatz der Gesamtsumme angegeben werden soll.
  • Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um alle Prädiktoren zum Teilen der Knoten zu verwenden.
  • Quadratwurzel der Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um die Quadratwurzel der Gesamtzahl der Prädiktoren zum Teilen der Knoten zu verwenden.
  • K Prozent der Gesamtzahl der Prädiktoren; K =: Wählen Sie diese Option aus, um einen Prozentsatz der Prädiktoren zum Teilen der Knoten zu verwenden.
Basis für Zufallszahlengenerator
Sie können eine Basis für den Zufallszahlengenerator angeben, um die Teilstichproben und die Teilmenge der Prädiktoren nach dem Zufallsprinzip auszuwählen. In der Regel müssen Sie die Basis nicht ändern. Sie können die Basis ändern, um zu untersuchen, wie empfindlich die Ergebnisse in Bezug auf eine Zufallsauswahl sind, oder um um dieselbe Zufallsauswahl für wiederholte Analysen sicherzustellen.
Gewichtungen
Geben Sie eine Spalte ein, die die Fallgewichtungen enthält. Die Spalte muss dieselbe Anzahl von Zeilen wie die Spalte der Antwortvariablen aufweisen. Die Werte müssen ≥ 0 sein. Minitab lässt Zeilen aus der Analyse aus, die fehlende Werte oder Nullwerte enthalten.