Typen von Predictive Analytics-Modellen in Minitab Statistical Software

Modelle aus Predictive Analytics liefern Erkenntnisse für eine Vielzahl von Anwendungen, darunter Qualitätskontrolle in der Fertigung, Arzneimittelforschung, Betrugserkennung, Kreditbewertung und Abwanderungsprognose. Verwenden Sie die Ergebnisse, um wichtige Variablen zu identifizieren, Gruppen in den Daten mit wünschenswerten Merkmalen zu ermitteln und Werte der Antwortvariablen für neue Beobachtungen zu prognostizieren. Beispielsweise kann ein Marktforscher ein Predictive Analytics-Modell verwenden, um Kunden mit höheren Antwortraten auf bestimmte Initiativen zu identifizieren und diese Antwortraten vorherzusagen.

In vielen Anwendungen ist ein wichtiger Schritt im Modellbau, verschiedene Arten von Modellen zu berücksichtigen. Analysten finden den besten Typ für eine Anwendung zu einem bestimmten Zeitpunkt, finden die optimale Version dieses Modells und verwenden das Modell, um die genauesten Vorhersagen zu generieren. Zur Unterstützung der Berücksichtigung verschiedener Modelle bietet die Minitab Statistical Software die Möglichkeit, verschiedene Modelltypen in einer einzigen Analyse zu vergleichen, wenn Sie eine kontinuierliche Antwortvariable oder eine binäre Antwortvariable haben.

Wenn Sie eine kategoriale Antwortvariable mit mehr als 2 Kategorien haben, erstellen Sie Modelle nacheinander.

Mehrere Regressionsmodelle

Bei einem multiplen Regressionsmodell wird davon ausgegangen, dass die durchschnittliche Antwortvariablen eine parametrische Funktion der Prädiktoren ist. Das Modell verwendet das Kriterium der kleinsten Quadrate, um die Parameter für einen Datensatz zu schätzen. Wenn ein parametrisches Regressionsmodell der Beziehung zwischen der Antwortvariablen und ihren Prädiktoren entspricht, prognostiziert das Modell die Antwortwerte mit neuen Beobachtungen genau. Zum Beispiel besagt das Hookesche Gesetz in der Physik, dass die Kraft, eine Feder auszudehnen, eine lineare Beziehung mit dem Abstand der Ausdehnung hat, so dass ein Regressionsmodell sehr gut zu der Beziehung passt.

Ein multiples Regressionsmodell vereinfacht die Identifizierung optimaler Einstellungen für die Prädiktoren. Die effektive Anpassung bedeutet auch, dass die angepassten Parameter und Standardfehler für statistische Inferenzen nützlich sind, z. B. die Schätzung von Konfidenzintervallen für die vorhergesagten Antwortwerte.

Mehrere Regressionsmodelle sind flexibel und passen oft zur tatsächlichen Form der Beziehungen in den Daten. Trotzdem passt manchmal ein multiples Regressionsmodell nicht gut zu einem Datensatz oder Merkmale der Daten verhindern die Erstellung eines multiplen Regressionsmodells. Die folgenden Beispiele sind häufige Fälle, in denen ein multiples Regressionsmodell eine schlechte Anpassung aufweist:
  • Die Beziehungen zwischen der Antwortvariablen und dem Prädiktor folgen keinem Modell, für das ein multiples Regressionsmodell geeignet ist.
  • Die Daten enthalten nicht genügend Beobachtungen, um genügend Parameter zu schätzen, um ein Multiple-Regressionsmodell zu finden, das gut passt.
  • Die Prädiktoren sind Zufallsvariablen.
  • Die Prädiktoren enthalten viele fehlende Werte.

In solchen Fällen sind baumbasierte Modelle gute Alternativmodelle, die in Betracht gezogen werden sollten.

Im Predictive Analytics-Modul passt die Minitab Statistical Software mehrere Regressionsmodelle mit den Befehlen Discover Best Model an kontinuierliche und binäre Antwortvariablen an. Eine Liste anderer multipler Regressionsmodelle in der Minitab Statistical Software finden Sie unter Welche Regressions- und Korrelationsanalysen sind in Minitab enthalten?.

Baumbasierte Modelle

CART®, TreeNet®und Random Forests® sind 3 baumbasierte Methoden. Unter den baumbasierten Modellen ist CART® am einfachsten zu verstehen, da CART® einen einzigen Entscheidungsbaum verwendet. Ein einzelner Entscheidungsbaum beginnt mit dem gesamten Datensatz als erster übergeordneter Knoten. Anschließend teilt die Struktur die Daten mithilfe des Knotenaufteilungskriteriums in 2 homogenere untergeordnete Knoten auf. Dieser Schritt wird iterativ wiederholt, bis alle ungeteilten Knoten ein Kriterium erfüllen, um ein Terminalknoten zu sein. Danach wird die Kreuzvalidierung oder Validierung mit einem separaten Testsatz verwendet, um den Baum zu trimmen, um den optimalen Baum zu erhalten, den CART® Modell. Einzelne Entscheidungsbäume sind leicht verständlich und können Datensätze mit einer Vielzahl von Merkmalen anpassen.

Einzelne Entscheidungsbäume können weniger robust und weniger leistungsfähig sein als die anderen 2 baumbasierten Methoden. Beispielsweise kann eine kleine Änderung der Prädiktorwerte in einem Datensatz zu einem ganz anderen CART® Modell führen. Die TreeNet®- und Random Forest®-Methoden verwenden Sätze einzelner Strukturen, um Modelle zu erstellen, die robuster und genauer sind als Modelle aus einzelnen Entscheidungsbäumen.

Die Minitab Statistical Software passt baumbasierte Modelle an kontinuierliche Antwortvariablen, binäre Antwortvariablen und nominale Antwortvariablen an. Um ein Beispiel für jedes Modell in der Minitab Statistical Software anzuzeigen, wählen Sie einen Modelltyp aus:

MARS®-Regression Modelle

MARS®-Regression erstellt zunächst einen umfangreichen Satz von Basisfunktionen, die so gut wie möglich zu den Daten passen. Nach der Erstellung des umfangreichen Modells reduziert die Analyse das Risiko einer Überanpassung, indem nach einer optimalen Teilmenge der Basisfunktionen gesucht wird. Das reduzierte Modell bleibt an verschiedene nichtlineare Abhängigkeiten in den Daten anpassbar. Das resultierende Modell ist ein multiples lineares Regressionsmodell im Raum dieser Basisfunktionen. Die Eigenschaft, schrittweise nach verschiedenen Fits für verschiedene Regionen der Daten zu suchen, verbindet sich MARS®-Regression mit baumbasierten Modellen. Aufgrund der baumbasierten Eigenschaften MARS®-Regression bietet es einige der gleichen Vorteile:
  • Automatische Erkennung der Modellform
  • Automatische Behandlung fehlender Werte
  • Automatische Auswahl der relevantesten Prädiktoren
Die Verwendung einer Gleichung stellt eine Verbindung zu mehreren Regressionsmodellen her MARS®-Regression . Aufgrund der multiplen Regressionsmerkmale, MARS®-Regression bietet auch einige der Vorteile dieses Modelltyps:
  • Eine Regressionsgleichung macht die Auswirkungen der Variablen leicht verständlich.
  • Die stetige Funktion bedeutet, dass kleine Änderungen in den Prädiktoren zu kleinen Änderungen in den Vorhersagen führen.
  • Selbst für kleine Modelle ergeben unterschiedliche Werte der Prädiktoren unterschiedliche Vorhersagen.
Die flexiblen Modelle liefern MARS®-Regression genaue Vorhersagen und können Einblicke in die Form des Modells geben, die die Anpassung anderer Modelltypen verbessern. Die Minitab Statistical Software passt MARS®-Regressionsmodelle an kontinuierliche Antwortvariablen an. Ein Beispiel für MARS®-Regression die Minitab-Statistiksoftware finden Sie unter Beispiel für MARS®-Regression.