Auswählen der Optionen für Bestes Modell ermitteln (binäre Antwort)

Predictive Analytics-Modul > Automatisiertes maschinelles Lernen > Bestes Modell ermitteln (binäre Antwort) > Optionen
Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Wählen Sie die Kriterien aus, um das beste Modell zu bestimmen, und geben Sie Optionen für die verschiedenen Modelltypen an. Sie können auch eine Basis für den Zufallszahlengenerator angeben und angeben, wann der Ereignisklasse eine Vorhersage zugewiesen werden soll.

Kriterium zum Auswählen des besten Modells

Wählen Sie die Methode zum Generieren des optimalen Modells aus. Sie können die Ergebnisse aus mehreren Methoden vergleichen, um die beste Option für Ihre Anwendung zu ermitteln.
  • Maximale Log-Likelihood: Die Maximum-Likelihood-Methode ermittelt das Maximum der Wahrscheinlichkeitsfunktionen für die Daten.
  • Maximale Fläche unterhalb der ROC-Kurve: Die Methode der maximalen Fläche unter der ROC-Kurve funktioniert gut für viele Anwendungen. Die Fläche unter der ROC-Kurve misst, wie gut das Modell Zeilen vom wahrscheinlichsten Eintreten eines Ereignisses bis zum unwahrscheinlichsten Eintreten eines Ereignisses einordnet.
  • Minimale Fehlklassifikationsquote: Wählen Sie diese Option aus, um die Ergebnisse für das Modell mit der kleinsten Fehlklassifizierungsrate anzuzeigen. Die Fehlklassifizierungsrate basiert auf einer einfachen Zählung, wie oft das Modell einen Fall richtig oder falsch prognostiziert.

Optionen für TreeNet®-Klassifikationsmodelle

Geben Sie Optionen für das TreeNet®-Modell an.

Anzahl der Bäume
Geben Sie einen Wert zwischen 1 und 5000 ein, um die Anzahl der zu erstellenden Bäume festzulegen. Der Standardwert 300 liefert nützliche Ergebnisse als Ausgangspunkt.
Wenn sich das ursprünglich ausgewählte Modell in der Nähe der von Ihnen angegebenen Anzahl von Bäumen befindet, überlegen Sie, ob die Anzahl der Bäume erhöht werden soll, um nach einem besseren Modell zu suchen.
Maximale Anzahl von Endknoten pro Baum und Maximale Baumtiefe
Sie können auch die Größe der Bäume einschränken. Wählen Sie eine der folgenden Optionen aus, um die Größe der Bäume zu begrenzen.
  • Maximale Anzahl von Endknoten pro Baum: Geben Sie einen Wert zwischen 2 und 2000 ein, um die maximale Anzahl von Endknoten in einem Baum anzugeben. Normalerweise bietet der Standardwert 6 ein gutes Gleichgewicht zwischen der Berechnungsgeschwindigkeit und der Untersuchung von Wechselwirkungen zwischen Variablen. Bei einem Wert von 2 werden die Wechselwirkungen nicht untersucht.
  • Maximale Baumtiefe: Geben Sie einen Wert zwischen 2 und 1000 ein, um die maximale Tiefe eines Baums anzugeben. Der Wurzelknoten entspricht einer Tiefe von 1. Die Standardtiefe ist 4. In vielen Anwendungen ergeben Tiefen von 4 bis 6 ausreichend gute Modelle.
Trainingsrate
Geben Sie bis zu 10 Lernraten an.
Standardmäßig wertet die Analyse 3 Lernraten aus. Die Analyse stimmt die Hyperparameter in der Regel mit 3 Werten von K ab: 0,001, 0,1 und max(0,01, 0,1 * min(1,0, N/10000)), wobei N = Anzahl der Zeilen in der Antwortspalte ist. Wenn max(0.01, 0.1 * min(1.0, N/10000)) = 0.001 oder 0.1 ist, dann stimmt die Analyse die Hyperparameter mit 0.001, 0.01 und 0.1 ab.
Fraktion für Teilstichprobe
Geben Sie bis zu 10 Teilstichprobenbrüche an. Bei jeder Iteration wählt die Prozedur eine andere Teilmenge aus, die diesen Bruchteil der Daten enthält, um eine Struktur zu erstellen. Subsampling schützt vor Überanpassung. Geeignete Werte sind größer als 0 und kleiner oder gleich 1. Typische Werte sind 0,5 und 0,7.
Anzahl der Prädiktoren für die Knotenteilung
Geben Sie die Anzahl der Prädiktoren an, die für jede Knotenteilung berücksichtigt werden sollen. In der Regel funktioniert die Analyse gut, wenn an jedem Knoten alle Prädiktoren berücksichtigt werden. Einige Datensätze weisen jedoch Assoziationen zwischen den Prädiktoren auf, die zu einer verbesserten Modellleistung führen, wenn die Analyse eine andere zufällige Teilmenge von Prädiktoren an jedem Knoten berücksichtigt. Für solche Fälle ist die Quadratwurzel der Gesamtzahl der Prädiktoren ein typischer Ausgangspunkt. Nachdem Sie die Quadratwurzel verwendet und das Modell angezeigt haben, können Sie überlegen, ob eine größere oder kleinere Anzahl von Prädiktoren mit einem Prozentsatz der Gesamtsumme angegeben werden soll.
  • Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um alle Prädiktoren zum Teilen der Knoten zu verwenden.
  • Quadratwurzel der Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um die Quadratwurzel der Gesamtzahl der Prädiktoren zum Teilen der Knoten zu verwenden.
  • K Prozent der Gesamtzahl der Prädiktoren; K =: Wählen Sie diese Option aus, um einen Prozentsatz der Prädiktoren zum Teilen der Knoten zu verwenden.

Optionen für Random Forests®-Klassifikationsmodelle

Geben Sie Optionen für das Random Forests® modell an.

Anzahl der Bootstrap-Stichproben zum Aufbauen der Bäume
Geben Sie einen Wert ein, um die Anzahl der Bootstrap-Stichproben und die Anzahl der durch die Analyse erzeugten Bäume zu bestimmen. Geben Sie einen Wert zwischen 3 und 3000 ein.
Bootstrap-Stichprobenumfang kleiner als der Trainingsdatenumfang angeben
Wählen Sie diese Option aus, um einen Wert einzugeben, der den Umfang der Bootstrap-Stichprobe festlegt. Sie müssen einen Wert größer oder gleich 5 eingeben. Wenn Sie einen Umfang eingeben, der den Umfang des Trainingsdatensatzes übersteigt, verwendet Minitab einen Stichprobenumfang, die gleich dem Umfang des Trainingsdatensatzes ist.
Anzahl der Prädiktoren für die Knotenteilung
Geben Sie die Anzahl der Prädiktoren an, die für jede Knotenteilung berücksichtigt werden sollen. In der Regel funktioniert die Analyse gut, wenn Sie die Quadratwurzel der Gesamtzahl der Prädiktoren berücksichtigen. Einige Datensätze weisen jedoch Assoziationen unter den Prädiktoren auf, die zu einer besseren Leistung des Modells führen, wenn bei der Analyse für jeden Knoten eine größere oder kleinere Anzahl Prädiktoren berücksichtigt wird. Nachdem Sie die Quadratwurzel verwendet und das Modell angezeigt haben, können Sie überlegen, ob Sie die Anzahl der Prädiktoren ändern sollten, um die Leistung des Modells zu verbessern.
  • Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um alle Prädiktoren zum Teilen der Knoten zu verwenden. Der mit dieser Option angelegte Wald wird als Bootstrap-Wald bezeichnet.
  • Quadratwurzel der Gesamtzahl der Prädiktoren: Wählen Sie diese Option aus, um die Quadratwurzel der Gesamtzahl der Prädiktoren zum Teilen der Knoten zu verwenden.
  • K Prozent der Gesamtzahl der Prädiktoren; K =: Wählen Sie diese Option aus, um einen Prozentsatz der Prädiktoren zum Teilen der Knoten zu verwenden.
Minimale Anzahl der Fälle zum Teilen eines internen Knotens
Geben Sie zwischen 1 und 3 Mindestzahlen an. Standardmäßig werden bei der Analyse 2, 5 und 8 ausgewertet. Der Standardwert ist 2, sodass alle Knoten in kleinere Knoten aufgeteilt werden können, bis eine weitere Teilung nicht mehr möglich ist. Wenn die Leistung des Modells nicht ausreichend ist, ziehen Sie in Betracht, diesen Wert zu ändern, um zu sehen, wie sich dies auf die Leistung auswirkt.

Optionen für CART®-Klassifikationsmodelle

Geben Sie Optionen für das CART® modell an.

Knotenteilungsmethode
Wählen Sie die Teilungsmethode aus, um den Entscheidungsbaum zu generieren. Sie können die Ergebnisse aus mehreren Teilungsmethoden vergleichen, um die beste Option für Ihre Anwendung zu ermitteln.
  • Gini: Die Gini-Methode ist die Standardmethode. Die Gini-Methode funktioniert gut in vielen Anwendungen. Mit der Gini-Methode werden in der Regel Bäume generiert, die kleine Knoten mit einer hohen Konzentration der als relevant erachteten Werte der Antwortvariablen enthalten.
  • Entropie: Die Entropiemethode ist proportional zum Maximum bestimmter Wahrscheinlichkeitsfunktionen für den Knoten.
Kriterium für Auswahl des optimalen Baums
Treffen Sie eine Auswahl unter den folgenden Kriterien, um den Baum in den Ergebnissen auszuwählen. Sie können die Ergebnisse aus verschiedenen Bäumen vergleichen, um die beste Option für Ihre Anwendung zu ermitteln.
  • Minimale Fehlklassifikationskosten: Wählen Sie diese Option aus, um Ergebnisse für den Baum anzuzeigen, welcher die Fehlklassifikationskosten minimiert.
  • Innerhalb von K Standardfehlern der minimalen Fehlklassifikationskosten; K=: Wählen Sie diese Option aus, um Ergebnisse für den kleinsten Baum mit Fehlklassifikationskosten innerhalb von K Standardfehlern der minimalen Fehlklassifikationskosten anzuzeigen.
Minimale Anzahl der Fälle zum Teilen eines internen Knotens
Geben Sie die minimale Anzahl von Fällen ein, die ein Knoten aufweisen kann, wenn er immer noch in weitere Knoten geteilt werden kann. Der Standardwert ist 10. Bei größeren Stichprobenumfängen empfiehlt es sich möglicherweise, dieses Minimum zu erhöhen. Wenn ein interner Knoten beispielsweise über 10 oder mehr Fälle verfügt, versucht Minitab, diesen zu teilen. Verfügt der interne Knoten hingegen über höchstens 9 Fälle, versucht Minitab nicht, diesen zu teilen.
Das interne Knotenlimit ist nur relevant, wenn der Wert mindestens das Doppelte des Terminalknotenlimits beträgt. Limits für interne Knoten, die sich auf mindestens das Dreifache des Limits für Endknoten belaufen, lassen eine sinnvolle Anzahl von Teilern zu. Normalerweise sind größere Grenzwerte für größere Datensätze sinnvoll.
Minimal zulässige Anzahl der Fälle für einen Endknoten
Geben Sie die Mindestanzahl von Fällen ein, die in einem Endknoten enthalten sein können. Der Standardwert ist 3. Bei größeren Stichprobenumfängen empfiehlt es sich möglicherweise, dieses Minimum zu erhöhen. Wenn z. B. bei einer Teilung ein Knoten mit weniger als drei Fällen erstellt würde, führt Minitab keine Teilung durch.

Basis für Zufallszahlengenerator

Sie können eine Basis für den Zufallszahlengenerator angeben, um die Teilstichproben und die Teilmenge der Prädiktoren nach dem Zufallsprinzip auszuwählen. In der Regel müssen Sie die Basis nicht ändern. Sie können die Basis ändern, um zu untersuchen, wie empfindlich die Ergebnisse in Bezug auf eine Zufallsauswahl sind, oder um um dieselbe Zufallsauswahl für wiederholte Analysen sicherzustellen.

Ereignisklasse zuweisen

Geben Sie die minimale prognostizierte Wahrscheinlichkeit an, bei der ein Fall der Ereignisklasse zugewiesen wird. Diese Option wirkt sich auf TreeNet®-Modelle und binäre logistische Regressionsmodelle aus.

  • Ereigniswahrscheinlichkeit überschreitet angegebenen Wert: Geben Sie die minimale prognostizierte Wahrscheinlichkeit an, bei der ein Fall der Ereignisklasse zugewiesen wird. Ein Wert von 0,5 bedeutet beispielsweise, dass Minitab einen Fall der Ereignisklasse zuweist, wenn die Wahrscheinlichkeit des Ereignisses höher als 0,5 ist.
  • Ereigniswahrscheinlichkeit überschreitet Ereignisrate in Stichprobe: Geben Sie an, dass die Ereignisrate der Stichprobe aus den Trainingsdaten als Schwellenwert für die Zuweisung der prognostizierten Klasse für einen Fall verwendet werden soll. Wenn die Ereignisrate in der Stichprobe größer als 0,50 ist, werden Ereignisse mit dieser Option weniger wahrscheinlich als Ereignis und wahrscheinlicher als Nicht-Ereignis klassifiziert. In der Regel greifen Sie auf diese Option zurück, wenn Sie die Fehlklassifizierungsraten der Ereignisse und Nicht-Ereignisse im Vergleich zu denen ausgleichen möchten, die sie bei einem Schwellenwert von 0,50 wären.