Die schrittweise Regression ist ein automatisiertes Werkzeug, mit dem in den explorativen Phasen der Modellerstellung eine nützliche Teilmenge von Prädiktoren bestimmt wird. Bei jedem Schritt des Verfahrens wird systematisch die signifikanteste Variable hinzugefügt oder die am wenigsten signifikante Variable entfernt.
Beispielsweise erfasst ein auf dem Wohnungsmarkt tätiges Beratungsunternehmen Daten zu den Wohnungsverkäufen im zurückliegenden Jahr und möchte auf dieser Grundlage die zukünftigen Verkaufspreise prognostizieren. Bei mehr als 100 Prädiktorvariablen kann das Ermitteln eines Modells mit hohem Zeitaufwand verbunden sein. Die Funktion der schrittweisen Regression von Minitab identifiziert automatisch eine Folge in Betracht kommender Modelle. Statistiken wie AICc, BIC, Test R2, R2, angepasstes R2, vorhergesagtes R2, S und Mallows' Cp helfen Ihnen beim Vergleich von Modellen. Minitab zeigt für das Modell, das dem von Ihnen angewendeten Verfahren der schrittweisen Regression zufolge am besten geeignet ist, die vollständigen Ergebnisse an.
Bei der Verwendung der Verfahren zur Variablenauswahl wie der Regression der besten Teilmengen und der schrittweisen Regression sollten Sie vorsichtig vorgehen. Ein Problem besteht darin, dass diese Verfahren das spezielle Wissen, das der Analyst über die Daten haben könnte, nicht berücksichtigen können. Das Verfahren kann die praktische Bedeutung eines der Prädiktoren nicht berücksichtigen.
Ein damit zusammenhängendes Problem der Unfähigkeit des Verfahrens, spezielles Wissen zu berücksichtigen, besteht darin, dass, wenn zwei Prädiktoren stark korreliert sind, das Verfahren nur einen der beiden Prädiktoren auswählen kann, obwohl beide wichtig sein können. Beispielsweise kann das Verfahren einen Prädiktor, der billig und einfach zu messen ist, zugunsten eines korrelierten Prädiktors entfernen, der schwer und teuer zu messen ist. Der Analyst müsste sein Wissen über die Daten nutzen, um Urteile über Kriterien zu fällen, die das Verfahren nicht berücksichtigen kann.
Ein weiteres Problem bei schrittweisen Verfahren besteht darin, dass die verschiedenen Modelle unterschiedliche Kriterien optimieren können. Das Modell mit dem höchsten angepassten R2-Wert muss z. B. nicht unbedingt das Modell mit dem höchsten R2-Testwert sein. Der Analyst muss die verschiedenen Kriterien berücksichtigen, um ein endgültiges Modell auszuwählen.
Um sicherzustellen, dass das Modell nicht nur an einen bestimmten Datensatz angepasst ist, sollten Sie das mit dem Auswahlverfahren gefundene Modell anhand eines neuen Datensatzes überprüfen. Sie können auch den ursprünglichen Datensatz nach dem Zufallsprinzip in zwei Teile unterteilen, auf einen Teil die Regression der besten Teilmengen anwenden, um ein Modell auszuwählen, und dann die Anpassung mit dem zweiten Teil überprüfen. Mit diesem Verfahren kann sichergestellt werden, dass das ausgewählte Modell auch für andere Datensätze gültig ist. Im Abschnitt über schrittweise Verfahren mit automatischer Validierung erfahren Sie mehr über Befehle, mit denen Sie Ihre Daten automatisch partitionieren und Validierungsstatistiken berechnen können.
Alle Analysen, die automatische schrittweise Prozeduren in Minitab enthalten, umfassen die folgenden Prozeduren. Mit den folgenden Methoden können Sie schnell eine große Anzahl verschiedener Modelle in Bezug auf ihre Modellauswertungsstatistiken für die Daten auswerten, die Sie zum Erstellen des Modells verwenden.
Das schrittweise Verfahren, das Minitab automatisch mit einem Testdatensatz ausführen kann, wird als Vorwärtsauswahl mit Validierung mit einem Testdatensatz bezeichnet. In diesem Verfahren ist das ursprüngliche Modell leer oder enthält Modellbegriffe, die Sie speziell auswählen. Anschließend fügt Minitab in jedem Schritt den nächsten potenziellen Term mit dem kleinsten p-Wert hinzu. Minitab berechnet den R2-Wert des Tests für das Modell bei jedem Schritt als R2-Wert für das Modell im Testdataset. Die von Minitab angezeigten Modellergebnisse beziehen sich auf das Modell mit dem Maximalwert des R2-Werts für den Test.
Für Regressionsmodell anpassen können Sie eine zweite Validierungstechnik auswählen, die mit der schrittweisen Auswahl ausgeführt werden soll, die als Vorwärtsauswahl mit k-facher Kreuzvalidierung bezeichnet wird. Bei der k-fachen Kreuzvalidierung unterteilt Minitab das Dataset in k Teilmengen. Diese Teilmengen werden als Falten bezeichnet. In den meisten Fällen wird bei der Validierung das 10-fache verwendet, aber auch andere Zahlen sind möglich. Die Falten haben eine möglichst gleiche Anzahl von Beobachtungen. Minitab führt k-mal eine Vorwärtsauswahl aus. Für jede Vorwärtsauswahl sind k-1 Folds der Trainingsdatensatz und die letzte Faltung ist der Testdatensatz. Wie bei anderen Vorwärtsauswahlverfahren ist das Anfangsmodell leer oder enthält Modellbegriffe, die Sie speziell auswählen. Anschließend fügt Minitab in jedem Schritt den nächsten potenziellen Term mit dem kleinsten p-Wert hinzu. Für jeden Schritt berechnet Minitab den k-fachen schrittweisen R2-Wert, indem die Informationen aus den verschiedenen schrittweisen Auswahlverfahren kombiniert werden.
Ein hierarchisches Modell ist ein Modell, in dem für jeden Term im Modell alle darin enthaltenen untergeordneten Terme ebenfalls im Modell enthalten sein müssen. Angenommen, Sie verfügen über ein Modell mit vier Faktoren: A, B, C und D. Wenn der Term A * B * C im Modell enthalten ist, müssen die Terme A, B, C, A*B, A*C und B*C ebenfalls im Modell enthalten sein, obwohl alle Terme mit D nicht im Modell enthalten sein müssen.
Die Terme, die in einem Schritt in ein Modell eintreten oder es verlassen, hängen von den Angaben für die Hierarchie ab. Standardmäßig erfordert Minitab Statistical Software bei jedem Schritt ein hierarchisches Modell, eine Hierarchie für alle Terme und lässt bei jedem Schritt nur einen Term in das Modell zu. Diese Einstellungen schränken die Begriffe ein, die Minitab bei jedem Schritt berücksichtigt. Beispielsweise kann eine bidirektionale Wechselwirkung nur dann in das Modell gelangen, wenn beide Terme niedrigerer Ordnung in der Wechselwirkung bereits im Modell vorhanden sind. Sie können diese Einstellungen anpassen, indem Sie klicken Hierarchie, wenn Sie eine schrittweise Methode auswählen.
Die Regression der besten Teilmengen ist ein automatisiertes Werkzeug, das in den explorativen Phasen der Modellerstellung verwendet wird, um eine nützliche Teilmenge von Prädiktoren zu identifizieren. Die Prozedur zeigt die Ergebnisse der Modellzusammenfassung für die Anzahl der Modelle an, die Sie für jede Größe anfordern: Modelle mit einem Prädiktor, Modelle mit zwei Prädiktoren usw. Die Modelle, die angezeigt werden, haben die höchsten Werte von R2 unter den möglichen Modellen dieser Größe. Um die Regression der besten Teilmengen in Minitab zu verwenden, wählen Sie aus .
Als automatisches Auswahlverfahren teilt die Regression der besten Teilmengen viele Probleme mit der schrittweisen Regression. Das Verfahren kann weder auf Spezialwissen eines Analysten zurückgreifen, noch gibt es eine Garantie dafür, dass unterschiedliche Kriterien dasselbe Modell identifizieren. Korrelationen zwischen den Prädiktoren können die Identifizierung der besten Modelle erschweren. Die Validierung des Modells mit neuen Daten erhöht das Vertrauen in die Leistung des Modells.
Optimale Teilmengen ist eine Analyse in der Minitab Statistical Software. Die schrittweise Regression ist eine Option in mehreren Analysen. Beide Techniken zur automatisierten Modellauswahl liefern Informationen über die Anpassung mehrerer verschiedener Modelle. Aus den verschiedenen Modellen können Sie alle Modelle identifizieren, die eine weitere Untersuchung verdienen.
Merkmal | Regression der besten Teilmengen | Schrittweise Regression |
---|---|---|
Berücksichtigte Modelle | Alle möglichen Modelle für die Prädiktoren. | Eine Abfolge von Modellen, die aufgrund der statistischen Signifikanz der Terme ausgewählt werden. |
Anzahl der zu berücksichtigenden Prädiktoren | Bis zu 31 kostenlose Prädiktoren sowie alle Prädiktoren, die Sie in jedem Modell benötigen. | Kein festgelegtes Limit. |
Arten von Prädiktoren | Numerische Spalten im Arbeitsblatt. | Text- oder numerische Spalten sowie Interaktionsbegriffe und andere Begriffe höherer Ordnung. |
Arten von Antwortvariablen | Eine numerische Spalte. | Mit verschiedenen Analysen in Minitab können verschiedene Arten von Antwortvariablen analysiert werden. Für die schrittweise Regression können Sie eine Analyse für eine kontinuierliche Antwortvariable, eine binäre Antwortvariable oder eine Poisson-Antwortvariable auswählen. |
Ergebnisse | Die Ergebnisse enthalten Modellzusammenfassungsstatistiken, die die Anpassung der Daten untersuchen. Um vollständige Regressionsergebnisse, wie z. B. Residuendiagramme, anzuzeigen, untersuchen Sie das ausgewählte Modell in einer Analyse wie Regressionsmodell anpassen. | Die Analyse zeigt die vollständigen Regressionsergebnisse für das optimale Modell gemäß einem von Ihnen ausgewählten Kriterium an. Sie können sich auch die Modellzusammenfassungsstatistiken für jeden Schritt der Prozedur ansehen. |