Verwenden der schrittweisen Regression und der Regression der besten Teilmengen

Was ist die schrittweise Regression?

Die schrittweise Regression ist ein automatisiertes Werkzeug, mit dem in den explorativen Phasen der Modellerstellung eine nützliche Teilmenge von Prädiktoren bestimmt wird. Bei jedem Schritt des Verfahrens wird systematisch die signifikanteste Variable hinzugefügt oder die am wenigsten signifikante Variable entfernt.

Beispielsweise erfasst ein auf dem Wohnungsmarkt tätiges Beratungsunternehmen Daten zu den Wohnungsverkäufen im zurückliegenden Jahr und möchte auf dieser Grundlage die zukünftigen Verkaufspreise prognostizieren. Bei mehr als 100 Prädiktorvariablen kann das Ermitteln eines Modells mit hohem Zeitaufwand verbunden sein. Die Funktion der schrittweisen Regression von Minitab identifiziert automatisch eine Folge in Betracht kommender Modelle. Statistiken wie AICc, BIC, Test R2, R2, angepasstes R2, vorhergesagtes R2, S und Mallows' Cp helfen Ihnen beim Vergleich von Modellen. Minitab zeigt für das Modell, das dem von Ihnen angewendeten Verfahren der schrittweisen Regression zufolge am besten geeignet ist, die vollständigen Ergebnisse an.

Mit den folgenden Analysen in Minitab kann automatisch eine schrittweise Auswahl durchgeführt werden, sodass Sie Modellauswertungsstatistiken für viele potenzielle Modelle in einer einzigen Ausgabe auswerten können.
  • Predictive Analytics-Modul > Lineare Regression
  • Statistik > Regression > Regression > Regressionsmodell anpassen
  • Predictive Analytics-Modul > Binäre logistische Regression
  • Statistik > Regression > Binäre logistische Regression > Binäres logistisches Modell anpassen
  • Statistik > Regression > Poisson-Regression > Poisson-Modell anpassen
  • Statistik > Varianzanalyse (ANOVA) > Allgemeines lineares Modell > Allgemeines lineares Modell anpassen
  • Statistik > Versuchsplanung (DOE) > Screening > Screening-Versuchsplan analysieren
  • Statistik > Versuchsplanung (DOE) > Screening > Binäre Antwort analysieren
  • Statistik > Versuchsplanung (DOE) > Faktoriell > Faktoriellen Versuchsplan analysieren
  • Statistik > Versuchsplanung (DOE) > Faktoriell > Binäre Antwort analysieren
  • Statistik > Versuchsplanung (DOE) > Wirkungsfläche > Wirkungsflächenversuchsplan analysieren
  • Statistik > Versuchsplanung (DOE) > Wirkungsfläche > Binäre Antwort analysieren

Probleme bei der schrittweisen Regression

Bei der Verwendung der Verfahren zur Variablenauswahl wie der Regression der besten Teilmengen und der schrittweisen Regression sollten Sie vorsichtig vorgehen. Ein Problem besteht darin, dass diese Verfahren das spezielle Wissen, das der Analyst über die Daten haben könnte, nicht berücksichtigen können. Das Verfahren kann die praktische Bedeutung eines der Prädiktoren nicht berücksichtigen.

Ein damit zusammenhängendes Problem der Unfähigkeit des Verfahrens, spezielles Wissen zu berücksichtigen, besteht darin, dass, wenn zwei Prädiktoren stark korreliert sind, das Verfahren nur einen der beiden Prädiktoren auswählen kann, obwohl beide wichtig sein können. Beispielsweise kann das Verfahren einen Prädiktor, der billig und einfach zu messen ist, zugunsten eines korrelierten Prädiktors entfernen, der schwer und teuer zu messen ist. Der Analyst müsste sein Wissen über die Daten nutzen, um Urteile über Kriterien zu fällen, die das Verfahren nicht berücksichtigen kann.

Ein weiteres Problem bei schrittweisen Verfahren besteht darin, dass die verschiedenen Modelle unterschiedliche Kriterien optimieren können. Das Modell mit dem höchsten angepassten R2-Wert muss z. B. nicht unbedingt das Modell mit dem höchsten R2-Testwert sein. Der Analyst muss die verschiedenen Kriterien berücksichtigen, um ein endgültiges Modell auszuwählen.

Darüber hinaus ist die Güte der Anpassung jedes Datenmodells auf zwei grundlegende Faktoren zurückzuführen:
  • Die zugrunde liegenden Struktur der Daten (eine Struktur, die auch für andere Datensätze gilt, die auf dieselbe Weise erfasst wurden).
  • Die Besonderheiten des Datensatzes, den Sie analysieren.

Um sicherzustellen, dass das Modell nicht nur an einen bestimmten Datensatz angepasst ist, sollten Sie das mit dem Auswahlverfahren gefundene Modell anhand eines neuen Datensatzes überprüfen. Sie können auch den ursprünglichen Datensatz nach dem Zufallsprinzip in zwei Teile unterteilen, auf einen Teil die Regression der besten Teilmengen anwenden, um ein Modell auszuwählen, und dann die Anpassung mit dem zweiten Teil überprüfen. Mit diesem Verfahren kann sichergestellt werden, dass das ausgewählte Modell auch für andere Datensätze gültig ist. Im Abschnitt über schrittweise Verfahren mit automatischer Validierung erfahren Sie mehr über Befehle, mit denen Sie Ihre Daten automatisch partitionieren und Validierungsstatistiken berechnen können.

Schrittweise Verfahren

Alle Analysen, die automatische schrittweise Prozeduren in Minitab enthalten, umfassen die folgenden Prozeduren. Mit den folgenden Methoden können Sie schnell eine große Anzahl verschiedener Modelle in Bezug auf ihre Modellauswertungsstatistiken für die Daten auswerten, die Sie zum Erstellen des Modells verwenden.

  • Bei der standardmäßigen schrittweisen Regression wird für jeden Schritt ein Prädiktor hinzugefügt oder entfernt. Minitab beendet das Verfahren, sobald alle Variablen, die nicht im Modell enthalten sind, p-Werte aufweisen, die größer als der angegebene Alpha-für-Aufnahme-Wert sind, und alle Variablen, die im Modell enthalten sind, p-Werte aufweisen, die kleiner oder gleich dem angegebenen Alpha-für-Ausschluss-Wert sind.
  • Beim Verfahren des vorwärts gerichteten Informationskriteriums wird dem Modell bei jedem Schritt der Term mit dem niedrigsten p-Wert hinzugefügt. Bei jedem Schritt können weitere Terme in das Modell aufgenommen werden, wenn die Einstellungen für die Analyse die Berücksichtigung nicht hierarchischer Terme zulassen, aber erfordern, dass alle Modelle hierarchisch sind. Minitab berechnet das Informationskriterium für jeden Schritt. In den meisten Fällen wird das Verfahren fortgesetzt, bis eine der folgenden Bedingungen eintritt:
    • Das Verfahren findet in acht aufeinander folgenden Schritten kein neues Minimum des Kriteriums.
    • Das Verfahren passt das vollständige Modell an.
    • Das Verfahren passt ein Modell an, das einen Freiheitsgrad für Fehler lässt.
    Wenn Sie Einstellungen für das Verfahren festlegen, nach denen bei jedem Schritt ein hierarchisches Modell erforderlich ist und jeweils nur ein Term aufgenommen werden darf, wird das Verfahren fortgesetzt, bis es entweder das vollständige Modell oder ein Modell anpasst, das einen Freiheitsgrad für Fehler lässt. Minitab zeigt die Ergebnisse für die Analyse des Modells mit dem kleinsten Wert für das ausgewählte Informationskriterium (AICc oder BIC) an.
  • Die Vorwärtsauswahl beginnt mit einem leeren Modell oder einem Modell mit Begriffen, die Sie angeben. Anschließend fügt Minitab in jedem Schritt den Term mit der größten Signifikanz hinzu. Minitab beendet das Verfahren, sobald alle Variablen, die nicht im Modell enthalten sind, p-Werte aufweisen, die größer als der angegebene Alpha-für-Aufnahme-Wert sind.
  • Bei der Rückwärtselimination sind anfangs alle Prädiktoren im Modell enthalten, und Minitab entfernt in jedem Schritt die am wenigsten signifikante Variable. Minitab beendet das Verfahren, sobald alle Variablen, die im Modell enthalten sind, p-Werte aufweisen, die kleiner oder gleich dem angegebenen Alpha-für-Ausschluss-Wert sind.

Schrittweise Regressionsverfahren mit automatischer Validierung

Für die folgenden Befehle kann die Analyse in Minitab sowohl eine automatische Validierungstechnik als auch ein schrittweises Verfahren umfassen. Die automatische Validierung spart Zeit für einen Analysten, der die Modellvalidierung nach einem schrittweisen Verfahren selbst durchführen würde. Mit den folgenden Befehlen können Sie Ihre Daten während des schrittweisen Verfahrens in ein Trainingsdataset und ein Testdataset unterteilen:

Das schrittweise Verfahren, das Minitab automatisch mit einem Testdatensatz ausführen kann, wird als Vorwärtsauswahl mit Validierung mit einem Testdatensatz bezeichnet. In diesem Verfahren ist das ursprüngliche Modell leer oder enthält Modellbegriffe, die Sie speziell auswählen. Anschließend fügt Minitab in jedem Schritt den nächsten potenziellen Term mit dem kleinsten p-Wert hinzu. Minitab berechnet den R2-Wert des Tests für das Modell bei jedem Schritt als R2-Wert für das Modell im Testdataset. Die von Minitab angezeigten Modellergebnisse beziehen sich auf das Modell mit dem Maximalwert des R2-Werts für den Test.

Für Regressionsmodell anpassen können Sie eine zweite Validierungstechnik auswählen, die mit der schrittweisen Auswahl ausgeführt werden soll, die als Vorwärtsauswahl mit k-facher Kreuzvalidierung bezeichnet wird. Bei der k-fachen Kreuzvalidierung unterteilt Minitab das Dataset in k Teilmengen. Diese Teilmengen werden als Falten bezeichnet. In den meisten Fällen wird bei der Validierung das 10-fache verwendet, aber auch andere Zahlen sind möglich. Die Falten haben eine möglichst gleiche Anzahl von Beobachtungen. Minitab führt k-mal eine Vorwärtsauswahl aus. Für jede Vorwärtsauswahl sind k-1 Folds der Trainingsdatensatz und die letzte Faltung ist der Testdatensatz. Wie bei anderen Vorwärtsauswahlverfahren ist das Anfangsmodell leer oder enthält Modellbegriffe, die Sie speziell auswählen. Anschließend fügt Minitab in jedem Schritt den nächsten potenziellen Term mit dem kleinsten p-Wert hinzu. Für jeden Schritt berechnet Minitab den k-fachen schrittweisen R2-Wert, indem die Informationen aus den verschiedenen schrittweisen Auswahlverfahren kombiniert werden.

Hierarchie

Ein hierarchisches Modell ist ein Modell, in dem für jeden Term im Modell alle darin enthaltenen untergeordneten Terme ebenfalls im Modell enthalten sein müssen. Angenommen, Sie verfügen über ein Modell mit vier Faktoren: A, B, C und D. Wenn der Term A * B * C im Modell enthalten ist, müssen die Terme A, B, C, A*B, A*C und B*C ebenfalls im Modell enthalten sein, obwohl alle Terme mit D nicht im Modell enthalten sein müssen.

Die Terme, die in einem Schritt in ein Modell eintreten oder es verlassen, hängen von den Angaben für die Hierarchie ab. Standardmäßig erfordert Minitab Statistical Software bei jedem Schritt ein hierarchisches Modell, eine Hierarchie für alle Terme und lässt bei jedem Schritt nur einen Term in das Modell zu. Diese Einstellungen schränken die Begriffe ein, die Minitab bei jedem Schritt berücksichtigt. Beispielsweise kann eine bidirektionale Wechselwirkung nur dann in das Modell gelangen, wenn beide Terme niedrigerer Ordnung in der Wechselwirkung bereits im Modell vorhanden sind. Sie können diese Einstellungen anpassen, indem Sie klicken Hierarchie, wenn Sie eine schrittweise Methode auswählen.

Was ist die Regression der besten Teilmengen?

Die Regression der besten Teilmengen ist ein automatisiertes Werkzeug, das in den explorativen Phasen der Modellerstellung verwendet wird, um eine nützliche Teilmenge von Prädiktoren zu identifizieren. Die Prozedur zeigt die Ergebnisse der Modellzusammenfassung für die Anzahl der Modelle an, die Sie für jede Größe anfordern: Modelle mit einem Prädiktor, Modelle mit zwei Prädiktoren usw. Die Modelle, die angezeigt werden, haben die höchsten Werte von R2 unter den möglichen Modellen dieser Größe. Um die Regression der besten Teilmengen in Minitab zu verwenden, wählen Sie aus Statistik > Regression > Regression > Beste Teilmengen.

Als automatisches Auswahlverfahren teilt die Regression der besten Teilmengen viele Probleme mit der schrittweisen Regression. Das Verfahren kann weder auf Spezialwissen eines Analysten zurückgreifen, noch gibt es eine Garantie dafür, dass unterschiedliche Kriterien dasselbe Modell identifizieren. Korrelationen zwischen den Prädiktoren können die Identifizierung der besten Modelle erschweren. Die Validierung des Modells mit neuen Daten erhöht das Vertrauen in die Leistung des Modells.

Vergleich der Regression der besten Teilmengen und der schrittweisen Regression

Optimale Teilmengen ist eine Analyse in der Minitab Statistical Software. Die schrittweise Regression ist eine Option in mehreren Analysen. Beide Techniken zur automatisierten Modellauswahl liefern Informationen über die Anpassung mehrerer verschiedener Modelle. Aus den verschiedenen Modellen können Sie alle Modelle identifizieren, die eine weitere Untersuchung verdienen.

Die Unterschiede zwischen den Techniken in Minitab können Ihnen bei der Entscheidung helfen, ob Sie eine Technik der anderen vorziehen oder beide Techniken verwenden sollten. Im Folgenden finden Sie einige allgemeine Punkte, die Sie beachten sollten:
Merkmal Regression der besten Teilmengen Schrittweise Regression
Berücksichtigte Modelle Alle möglichen Modelle für die Prädiktoren. Eine Abfolge von Modellen, die aufgrund der statistischen Signifikanz der Terme ausgewählt werden.
Anzahl der zu berücksichtigenden Prädiktoren Bis zu 31 kostenlose Prädiktoren sowie alle Prädiktoren, die Sie in jedem Modell benötigen. Kein festgelegtes Limit.
Arten von Prädiktoren Numerische Spalten im Arbeitsblatt. Text- oder numerische Spalten sowie Interaktionsbegriffe und andere Begriffe höherer Ordnung.
Arten von Antwortvariablen Eine numerische Spalte. Mit verschiedenen Analysen in Minitab können verschiedene Arten von Antwortvariablen analysiert werden. Für die schrittweise Regression können Sie eine Analyse für eine kontinuierliche Antwortvariable, eine binäre Antwortvariable oder eine Poisson-Antwortvariable auswählen.
Ergebnisse Die Ergebnisse enthalten Modellzusammenfassungsstatistiken, die die Anpassung der Daten untersuchen. Um vollständige Regressionsergebnisse, wie z. B. Residuendiagramme, anzuzeigen, untersuchen Sie das ausgewählte Modell in einer Analyse wie Regressionsmodell anpassen. Die Analyse zeigt die vollständigen Regressionsergebnisse für das optimale Modell gemäß einem von Ihnen ausgewählten Kriterium an. Sie können sich auch die Modellzusammenfassungsstatistiken für jeden Schritt der Prozedur ansehen.