Auswählen der Analyseoptionen für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet®-Klassifikation

Predictive Analytics-Modul > TreeNet® Klassifikation > Modell anpassen > Optionen

Predictive Analytics-Modul > TreeNet® Klassifikation > Wichtige Prädiktoren ermitteln > Optionen

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Wählen Sie die Analyseoptionen aus.

Kriterium für Auswahl der optimalen Anzahl von Bäumen
Wählen Sie die Methode zum Generieren des optimalen Modells aus. Sie können die Ergebnisse aus mehreren Methoden vergleichen, um die beste Option für Ihre Anwendung zu ermitteln.
  • Maximale Log-Likelihood: Die Maximum-Likelihood-Methode ermittelt das Maximum der Wahrscheinlichkeitsfunktionen für die Daten. Dies ist die Standardeinstellung bei einer binären Antwortvariablen.
  • Maximale Fläche unterhalb der ROC-Kurve: Die Methode der maximalen Fläche unter der ROC-Kurve funktioniert gut für viele Anwendungen. Die Fläche unter der ROC-Kurve misst, wie gut das Modell Zeilen vom wahrscheinlichsten Eintreten eines Ereignisses bis zum unwahrscheinlichsten Eintreten eines Ereignisses einordnet. Diese Option ist bei einer binären Antwortvariablen verfügbar.
  • Minimale Fehlklassifikationsquote: Wählen Sie diese Option aus, um die Ergebnisse für das Modell mit der kleinsten Fehlklassifizierungsrate anzuzeigen. Die Fehlklassifizierungsrate basiert auf einer einfachen Zählung, wie oft das Modell einen Fall richtig oder falsch prognostiziert. Dies ist die Standardeinstellung bei einer multinomialen Antwortvariablen.
Bei Minimale Fehlklassifikationsquote und einer binären Antwortvariablen können Sie auswählen wie die Ereignisklasse im Unterdialogfeld Ergebnisse zugewiesen werden soll. Weitere Informationen finden Sie unter Auswählen der anzuzeigenden Ergebnisse für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet®-Klassifikation.
Anzahl der Bäume
Geben Sie einen Wert zwischen 1 und 5000 ein, um die Anzahl der zu erstellenden Bäume festzulegen. Der Standardwert 300 liefert nützliche Ergebnisse als Ausgangspunkt.
Wenn sich das ursprünglich ausgewählte Modell in der Nähe der von Ihnen angegebenen Anzahl von Bäumen befindet, überlegen Sie, ob die Anzahl der Bäume erhöht werden soll, um nach einem besseren Modell zu suchen.
Maximale Anzahl von Endknoten pro Baum und Maximale Baumtiefe
Sie können auch die Größe der Bäume einschränken. Wählen Sie eine der folgenden Optionen aus, um die Größe der Bäume zu begrenzen.
  • Maximale Anzahl von Endknoten pro Baum: Geben Sie einen Wert zwischen 2 und 2000 ein, um die maximale Anzahl von Endknoten in einem Baum anzugeben. Normalerweise bietet der Standardwert 6 ein gutes Gleichgewicht zwischen der Berechnungsgeschwindigkeit und der Untersuchung von Wechselwirkungen zwischen Variablen. Bei einem Wert von 2 werden die Wechselwirkungen nicht untersucht.
  • Maximale Baumtiefe: Geben Sie einen Wert zwischen 2 und 1000 ein, um die maximale Tiefe eines Baums anzugeben. Der Wurzelknoten entspricht einer Tiefe von 1. Die Standardtiefe ist 4. In vielen Anwendungen ergeben Tiefen von 4 bis 6 ausreichend gute Modelle.
Minimal zulässige Anzahl der Fälle für einen Endknoten
Geben Sie die Mindestanzahl von Fällen für einen Endknoten ein. Wenn z. B. die Mindestgröße 3 ist und bei einer Teilung ein Knoten mit weniger als drei Fällen erstellt würde, führt Minitab keine Teilung durch.
Schutz vor übermäßiger Anpassung
Verwenden Sie die folgenden Optionen, um eine übermäßige Anpassung des Modells zu minimieren.
Trainingsrate
Die Trainingsrate ist einer der beiden extrem wichtigen Hyperparameter, die Sie optimieren können, um ein optimales Modell für Ihre Daten zu erhalten.
Wenn die Anzahl der Fälle in Ihren Trainingsdaten 1000 oder weniger beträgt, verwendet Minitab standardmäßig 0,01 als Trainingsrate. Bei Datensätzen mit mehr als 1000 Fällen beträgt die Standardtrainingsrate max[0,01; 0,1 * min(1,0; N/10000)]. Wenn der Datensatz beispielsweise 9000 Werte der Antwortvariablen aufweist, ist die Trainingsrate = 0,09.
Wenn das anfängliche Modell Ihre Daten nicht gut prognostiziert, sollten Sie die Trainingsrate um das Fünf- oder Zehnfache erhöhen oder verringern, um festzustellen, ob Sie ein besseres Modell erhalten können.
Auswahl für Teilstichprobe randomisieren
Wählen Sie aus, ob jeder Baum in der Analyse aus einer Teilstichprobe aus dem gesamten Trainingsdatensatz oder aus Teilstichproben innerhalb jeder Stufe der Antwortvariablen erstellt werden soll.
  • Innerhalb des gesamten Datensatzes: Es wird eine Zufallsstichprobe aus dem gesamten Trainingsdatensatz ausgewählt. Normalerweise funktioniert ein Anteil von 0,5 gut. Erwägen Sie, den Anteil vom Standardwert 0,5 auf 0,70 oder höher anzuheben, wenn das ursprüngliche Modell nicht gut für Ihre Daten passend ist.
  • Innerhalb jeder Antwortstufe: Es wird eine Teilstichprobe aus den Fällen der Ereignisklasse in den Trainingsdaten und eine Teilstichprobe aus den Fällen der Nicht-Ereignisklasse in den Trainingsdaten gezogen. Mit dieser Option können Sie sicherstellen, dass sich in jeder Teilstichprobe genügend Fälle einer seltenen Klasse befinden. Wenn eine Klasse äußerst selten ist, können Sie 1 eingeben, um alle entsprechenden Fälle in jede Teilstichprobe aufzunehmen.
Fraktion für Teilstichprobe
Geben Sie den Anteil der Trainingsdaten an, die nach dem Zufallsprinzip ausgewählt werden sollen, um jeden Baum in der Analyse zu erstellen. Normalerweise funktioniert ein Anteil von 0,5 gut. Erwägen Sie, den Anteil vom Standardwert 0,5 auf 0,70 oder höher anzuheben, wenn das ursprüngliche Modell nicht gut für Ihre Daten passend ist.
Anzahl der Prädiktoren für die Knotenteilung
Geben Sie die Anzahl der Prädiktoren an, die für jede Knotenteilung berücksichtigt werden sollen. In der Regel funktioniert die Analyse gut, wenn an jedem Knoten alle Prädiktoren berücksichtigt werden. Einige Datensätze weisen jedoch Assoziationen zwischen den Prädiktoren auf, die zu einer verbesserten Modellleistung führen, wenn die Analyse eine andere zufällige Teilmenge von Prädiktoren an jedem Knoten berücksichtigt. Für solche Fälle ist die Quadratwurzel der Gesamtzahl der Prädiktoren ein typischer Ausgangspunkt. Nachdem Sie die Quadratwurzel verwendet und das Modell angezeigt haben, können Sie überlegen, ob eine größere oder kleinere Anzahl von Prädiktoren mit einem Prozentsatz der Gesamtsumme angegeben werden soll.
  • Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um alle Prädiktoren zum Teilen der Knoten zu verwenden.
  • Quadratwurzel der Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um die Quadratwurzel der Gesamtzahl der Prädiktoren zum Teilen der Knoten zu verwenden.
  • K Prozent der Gesamtzahl der Prädiktoren; K =: Wählen Sie diese Option aus, um einen Prozentsatz der Prädiktoren zum Teilen der Knoten zu verwenden.
Basis für Zufallszahlengenerator
Sie können eine Basis für den Zufallszahlengenerator angeben, um die Teilstichproben und die Teilmenge der Prädiktoren nach dem Zufallsprinzip auszuwählen. In der Regel müssen Sie die Basis nicht ändern. Sie können die Basis ändern, um zu untersuchen, wie empfindlich die Ergebnisse in Bezug auf eine Zufallsauswahl sind, oder um um dieselbe Zufallsauswahl für wiederholte Analysen sicherzustellen.
Gewichtungen
Geben Sie eine Spalte ein, die die Fallgewichtungen enthält. Die Spalte muss dieselbe Anzahl von Zeilen wie die Spalte der Antwortvariablen aufweisen. Die Werte müssen ≥ 0 sein. Minitab lässt Zeilen aus der Analyse aus, die fehlende Werte oder Nullwerte enthalten.