Übersicht über Bestes Modell ermitteln (binäre Antwort)

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Normalerweise besteht der einfachste Weg, um zu bestimmen, welcher Modelltyp die besten Vorhersagen für ein bestimmtes Dataset trifft, darin, alle Modelle zu erstellen und die Leistung zu vergleichen. Verwenden Bestes Modell ermitteln (binäre Antwort) Sie, um die Leistung von 4 gängigen Modelltypen zu vergleichen: Binäres logistisches Modell anpassen, Anpassen des Modells für TreeNet®-Klassifikationund Random Forests®-KlassifikationCART® Klassifikation. Alle 4 Analysen modellieren eine binäre Antwort mit vielen kategorialen und kontinuierlichen Prädiktorvariablen. Ein Marktforscher kann beispielsweise verwenden, um Kunden mit höheren Rücklaufquoten für bestimmte Initiativen zu identifizieren und diese Rücklaufquoten zu prognostizieren. Der Forscher vergleicht die Leistung der verschiedenen Arten von Modellen, um zu entscheiden, wie die genauesten Vorhersagen erhalten werden.

Unter den 4 Modelltypen befinden sich 2 allgemeinere Modelltypen: binäre logistische Regression und baumbasierte Modelle. Beispiel mit binären logistischen Regressionsmodellen Die anderen 3 Befehle erstellen baumbasierte Modelle. Die Modellanpassungsmethoden für die 2 allgemeinen Typen sind sehr unterschiedlich, ergänzen sich jedoch. Ein binäres logistisches Regressionsmodell geht davon aus, dass die Ereigniswahrscheinlichkeit einer binären Antwort eine parametrische Funktion der Prädiktoren ist. Das Modell verwendet das Kriterium der maximalen Wahrscheinlichkeit, um die Parameter für einen Datensatz zu schätzen. Wenn die parametrische Funktion die Beziehung zwischen der Ereigniswahrscheinlichkeit einer Antwort und ihren Prädiktoren angemessen darstellt, kann das Modell die Ereigniswahrscheinlichkeit gut abschätzen. Dann hat der Ausdruck eine große Chance, die Antwortniveaus für neue Beobachtungen korrekt vorherzusagen. Ein binäres logistisches Regressionsmodell vereinfacht die Identifizierung der optimalen Einstellungen für die Prädiktoren. Die effektive Anpassung bedeutet auch, dass die angepassten Parameter und Standardfehler für statistische Inferenz nützlich sind, z. B. die Schätzung von Konfidenzintervallen für die vorhergesagten Ereigniswahrscheinlichkeiten.

Manchmal passt das binäre logistische Regressionsmodell nicht gut zu einem Datensatz oder Merkmale der Daten verhindern die Konstruktion eines binären logistischen Regressionsmodells. Im Folgenden sind häufige Fälle, in denen ein binäres logistisches Regressionsmodell eine schlechte Anpassung auft:
  1. Die Beziehung zwischen der Ereigniswahrscheinlichkeit einer binären Antwort und den Prädiktoren folgt keiner parametrischen Funktion.
  2. Bei bestimmten Datensätzen kann der Algorithmus zur Schätzung der maximalen Wahrscheinlichkeit nicht zu eindeutigen Parameterschätzungen konvergieren.
  3. Die Daten verfügen nicht über genügend Beobachtungen, um die Parameter im Ereigniswahrscheinlichkeitsausdruck zu schätzen, wenn die Anzahl der Prädiktoren groß ist.
  4. Die Prädiktoren sind Zufallsvariablen.
  5. Die Prädiktoren enthalten viele fehlende Werte.

In solchen Fällen sind baumbasierte Modelle gute alternative Modelle, die in Betracht gezogen werden sollten.

Unter den baumbasierten Modellen verwendet CART einen einzelnen Entscheidungsbaum. Eine einzelne Entscheidungsstruktur beginnt mit dem gesamten Datensatz als erster übergeordneter Knoten. Dann teilt der Baum die Daten mithilfe des Knotenaufteilungskriteriums in 2 homogenere untergeordnete Knoten auf. Dieser Schritt wird iterativ wiederholt, bis alle nicht aufgeteilten Knoten die Kriterien erfüllen, um ein Terminalknoten zu sein. Danach wird die Kreuzvalidierung oder Validierung mit einem separaten Testset verwendet, um den Baum zu trimmen, um den optimalen Baum zu erhalten, der das CART-Modell ist. Einzelne Entscheidungsbäume sind leicht verständlich und können Datensätze mit einer Vielzahl von Merkmalen passen.

Einzelne Entscheidungsbäume können weniger robust und weniger leistungsfähig sein als die anderen 2 baumbasierten Methoden. Beispielsweise kann eine kleine Änderung der Prädiktorwerte in einem Datensatz zu einem ganz anderen CART-Modell führen. Die Methoden TreeNet® und Random Forests® verwenden Sätze einzelner Bäume, um Modelle zu erstellen, die robuster und genauer sind als Modelle aus einzelnen Entscheidungsbäumen.

Weitere Informationen zu den einzelnen Modelltypen finden Sie unter den folgenden Links: