Die schrittweise Regression ist ein automatisiertes Werkzeug, mit dem in den explorativen Phasen der Modellerstellung eine nützliche Teilmenge von Prädiktoren bestimmt wird. Bei jedem Schritt des Verfahrens wird systematisch die signifikanteste Variable hinzugefügt oder die am wenigsten signifikante Variable entfernt.
Beispielsweise erfasst ein auf dem Wohnungsmarkt tätiges Beratungsunternehmen Daten zu den Wohnungsverkäufen im zurückliegenden Jahr und möchte auf dieser Grundlage die zukünftigen Verkaufspreise prognostizieren. Bei mehr als 100 Prädiktorvariablen kann das Ermitteln eines Modells mit hohem Zeitaufwand verbunden sein. Die Funktion der schrittweisen Regression von Minitab identifiziert automatisch eine Folge in Betracht kommender Modelle. Statistiken wie AICc, BIC, R2, korrigiertes R2, prognostiziertes R2, S und Mallows-Cp erleichtern Ihnen den Vergleich verschiedener Modelle. Minitab zeigt für das Modell, das dem von Ihnen angewendeten Verfahren der schrittweisen Regression zufolge am besten geeignet ist, die vollständigen Ergebnisse an.
Bei der Verwendung der Verfahren zur Variablenauswahl wie der Regression der besten Teilmengen und der schrittweisen Regression sollten Sie vorsichtig vorgehen. Bei automatischen Verfahren kann vorhandenes Expertenwissen hinsichtlich der Daten nicht berücksichtigt werden. Das Verfahren kann nicht die praktische Bedeutung eines der Prädiktoren berücksichtigen.
Ein verwandtes Problem der Nichtberücksichtigung von Sonderkenntnissen durch das Verfahren besteht darin, dass das Verfahren, wenn zwei Prädiktoren stark korreliert sind, nur einen der beiden Prädiktoren auswählen kann, obwohl beides wichtig sein kann. Beispielsweise kann das Verfahren einen Prädiktor entfernen, der billig und einfach zu Gunsten eines korrelierten Prädiktors zu messen ist, der schwierig und teuer zu messen ist. Der Analytiker müsste sein Wissen über die Daten nutzen, um Über Kriterien zu beurteilen, die das Verfahren nicht berücksichtigen kann.
Ein weiteres Problem bei schrittweisen Verfahren ist, dass die verschiedenen Modelle unterschiedliche Kriterien optimieren können. Beispielsweise ist das Modell mit dem höchsten eingestellten R2-Wert nicht unbedingt das Modell mit dem höchsten Test-R2-Wert. Der Analytiker muss die verschiedenen Kriterien berücksichtigen, um ein endgültiges Modell auszuwählen.
Um sicherzustellen, dass das Modell nicht nur an einen bestimmten Datensatz angepasst ist, sollten Sie das mit dem Auswahlverfahren gefundene Modell anhand eines neuen Datensatzes überprüfen. Sie können auch den ursprünglichen Datensatz nach dem Zufallsprinzip in zwei Teile unterteilen, auf einen Teil die Regression der besten Teilmengen anwenden, um ein Modell auszuwählen, und dann die Anpassung mit dem zweiten Teil überprüfen. Mit diesem Verfahren kann sichergestellt werden, dass das ausgewählte Modell auch für andere Datensätze gültig ist. Gehen Sie zum Abschnitt über schrittweise Prozeduren mit automatischer Validierung, um mehr über Befehle zu erfahren, die Ihre Daten automatisch partitionieren und Validierungsstatistiken berechnen können.
Alle Analysen, die automatische schrittweise Verfahren in Minitab enthalten, umfassen die folgenden Verfahren. Mit den folgenden Methoden können Sie schnell eine große Anzahl verschiedener Modelle in Bezug auf ihre Modellzusammenfassungsstatistiken für die Daten auswerten, die Sie zum Erstellen des Modells verwenden.
Die schrittweise Prozedur, die Minitab automatisch mit einem Testdatensatz ausführen kann, wird als Vorwärtsauswahl mit Validierung mit einem Testdatensatz bezeichnet. In diesem Verfahren ist das ursprüngliche Modell leer oder enthält Modellbegriffe, die Sie speziell auswählen. Dann fügt Minitab den nächsten potenziellen Begriff mit dem kleinsten p-Wert bei jedem Schritt hinzu. Minitab berechnet den Test R2 für das Modell bei jedem Schritt als R2-Wert für das Modell im Testdatensatz. Die Modellergebnisse, die Minitab präsentiert, beziehen sich auf das Modell mit dem maximalen Wert des Test-R2-Werts.
Für Regressionsmodell anpassenkönnen Sie eine zweite Validierungstechnik auswählen, die mit einer schrittweisen Auswahl, der so genannten Vorwärtsauswahl, mit k-fal-Kreuzvalidierung durchgeführt werden soll. In der k-falten-Kreuzvalidierung unterteilt Minitab das Dataset in k-Teilmengen. Die Teilmengen werden Faltungen genannt. Meistens verwendet die Validierung 10-fache, aber andere Zahlen sind möglich. Die Falten haben so nahe wie möglich eine möglichst große Anzahl von Beobachtungen. Minitab führt vorwärts Auswahl k-Zeiten. Für jede Vorwärtsauswahl sind k-1 Falten der Trainingsdatensatz und die letzte Falte der Testdatensatz. Wie bei anderen Forward-Auswahlverfahren ist das ursprüngliche Modell leer oder enthält Modellbegriffe, die Sie speziell auswählen. Dann fügt Minitab den nächsten potenziellen Begriff mit dem kleinsten p-Wert bei jedem Schritt hinzu. Für jeden Schritt berechnet Minitab den k-fachen R2-Wert, indem die Informationen aus den verschiedenen schrittweisen Auswahlverfahren kombiniert werden.
Ein hierarchisches Modell ist ein Modell, in dem für jeden Term im Modell alle darin enthaltenen untergeordneten Terme ebenfalls im Modell enthalten sein müssen. Angenommen, Sie verfügen über ein Modell mit vier Faktoren: A, B, C und D. Wenn der Term A * B * C im Modell enthalten ist, müssen die Terme A B C A * B A * C B * C ebenfalls im Modell enthalten sein, auch wenn einige Terme von D sich nicht unbedingt im Modell befinden müssen.
Die Begriffe, die ein Modell in einem Schritt eingeben oder verlassen, hängen von den Spezifikationen für die Hierarchie ab. Standardmäßig erfordert Minitab Statistical Software bei jedem Schritt ein hierarchisches Modell, erfordert Hierarchie für alle Begriffe und lässt nur einen Begriff zu, um das Modell bei jedem Schritt einzugeben. Diese Einstellungen begrenzen die Begriffe, die Minitab bei jedem Schritt berücksichtigt. Beispielsweise kann eine zweiseitige Interaktion nicht in das Modell eingegeben werden, es sei denn, die beiden Begriffe niedrigerer Ordnung in der Interaktion befinden sich bereits im Modell. Sie können diese Einstellungen anpassen, indem Sie auf Hierarchie , wenn Sie eine stufenweise Methode auswählen.
Die schrittweise Regression ist ein automatisiertes Werkzeug, mit dem in den explorativen Phasen der Modellerstellung eine nützliche Teilmenge von Prädiktoren bestimmt wird. Die Prozedur zeigt Modellzusammenfassungsergebnisse für die Anzahl der Modelle an, die Sie für jede Größe anfordern: Modelle mit einem Prädiktor, Modelle mit zwei Prädiktoren usw. Die angezeigten Modelle weisen die höchsten R2-Werte unter den möglichen Modellen dieser Größe auf. Um die Regression der besten Teilmengen in Minitab zu verwenden, wählen Sie .
Als automatisches Auswahlverfahren teilt die Regression der besten Teilmengen viele Probleme mit der schrittweisen Regression. Das Verfahren kann weder spezielles Wissen verwenden, das ein Analytiker hat, noch gibt es eine Garantie dafür, dass verschiedene Kriterien dasselbe Modell identifizieren. Korrelationen zwischen den Prädiktoren können die Identifizierung der besten Modelle erschweren. Die Validierung des Modells mit neuen Daten erhöht das Vertrauen, das Sie in die Leistung des Modells haben können.
Beste Teilmengen ist eine Analyse in Minitab Statistical Software. Die schrittweise Regression ist eine Option in mehreren Analysen. Beide automatisierten Modellauswahltechniken liefern Informationen über die Passform verschiedener Modelle. Anhand der verschiedenen Modelle können Sie alle Modelle identifizieren, die einer weiteren Erforschung bedürfen.
Merkmal | Regression der besten Teilmengen | Schrittweise Regression |
---|---|---|
Modelle berücksichtigt | Alle möglichen Modelle für die Prädiktoren. | Eine Folge von Modellen, die durch die statistische Signifikanz der Begriffe ausgewählt wurden. |
Anzahl der zu berücksichtigenden Prädiktoren | Bis zu 31 kostenlose Prädiktoren sowie alle Prädiktoren, die Sie in jedem Modell benötigen. | Kein festgelegtes Limit. |
Status der Prädiktoren | Ausblenden von Spalten im Arbeitsblatt | Text- oder numerische Spalten sowie Interaktionsbegriffe und andere Begriffe höherer Ordnung. |
Arten von Antwortvariablen | Numerische Spalte. | Verschiedene Analysen in Minitab können verschiedene Arten von Antwortvariablen analysieren. Für die schrittweise Regression können Sie eine Analyse für eine fortlaufende Antwortvariable, eine binäre Antwortvariable oder eine Poisson-Antwortvariable auswählen. |
Ergebnisse | Die Ergebnisse umfassen Modellzusammenfassungsstatistiken, die die Anpassung der Daten untersuchen. Um vollständige Regressionsergebnisse anzuzeigen, z. B. Residuendiagramme, untersuchen Sie das ausgewählte Modell in einer Analyse wie Regressionsmodell anpassen. | Die Analyse zeigt die vollständigen Regressionsergebnisse für das optimale Modell nach einem ausgewählten Kriterium an. Sie können auch Modellzusammenfassungsstatistiken für jeden Schritt in der Prozedur anzeigen. |