Verwendung der Regression der besten Teilmengen und der schrittweisen Regression

Was ist die schrittweise Regression?

Die schrittweise Regression ist ein automatisiertes Werkzeug, mit dem in den explorativen Phasen der Modellerstellung eine nützliche Teilmenge von Prädiktoren bestimmt wird. Bei jedem Schritt des Verfahrens wird systematisch die signifikanteste Variable hinzugefügt oder die am wenigsten signifikante Variable entfernt.

Beispielsweise erfasst ein auf dem Wohnungsmarkt tätiges Beratungsunternehmen Daten zu den Wohnungsverkäufen im zurückliegenden Jahr und möchte auf dieser Grundlage die zukünftigen Verkaufspreise prognostizieren. Bei mehr als 100 Prädiktorvariablen kann das Ermitteln eines Modells mit hohem Zeitaufwand verbunden sein. Die Funktion der schrittweisen Regression von Minitab identifiziert automatisch eine Folge in Betracht kommender Modelle. Statistiken wie AICc, BIC, R2, korrigiertes R2, prognostiziertes R2, S und Mallows-Cp erleichtern Ihnen den Vergleich verschiedener Modelle. Minitab zeigt für das Modell, das dem von Ihnen angewendeten Verfahren der schrittweisen Regression zufolge am besten geeignet ist, die vollständigen Ergebnisse an.

Die folgenden Analysen in Minitab können automatisch schrittweise ausgewählt werden, sodass Sie Modellzusammenfassungsstatistiken für viele potenzielle Modelle in einem Ausgabesatz auswerten können.
  • Statistik > Regression > Regression > Regressionsmodell anpassen
  • Statistik > Regression > Binäre logistische Regression > Binäres logistisches Modell anpassen
  • Statistik > Regression > Poisson-Regression > Poisson-Modell anpassen
  • Statistik > Varianzanalyse (ANOVA) > Allgemeines lineares Modell > Allgemeines lineares Modell anpassen
  • Statistik > Versuchsplanung (DOE) > Screening > Screening-Versuchsplan analysieren
  • Statistik > Versuchsplanung (DOE) > Screening > Binäre Antwort analysieren
  • Statistik > Versuchsplanung (DOE) > Faktoriell > Faktoriellen Versuchsplan analysieren
  • Statistik > Versuchsplanung (DOE) > Faktoriell > Binäre Antwort analysieren
  • Statistik > Versuchsplanung (DOE) > Wirkungsfläche > Wirkungsflächenversuchsplan analysieren
  • Statistik > Versuchsplanung (DOE) > Wirkungsfläche > Binäre Antwort analysieren

Probleme bei der schrittweisen Regression

Bei der Verwendung der Verfahren zur Variablenauswahl wie der Regression der besten Teilmengen und der schrittweisen Regression sollten Sie vorsichtig vorgehen. Bei automatischen Verfahren kann vorhandenes Expertenwissen hinsichtlich der Daten nicht berücksichtigt werden. Das Verfahren kann nicht die praktische Bedeutung eines der Prädiktoren berücksichtigen.

Ein verwandtes Problem der Nichtberücksichtigung von Sonderkenntnissen durch das Verfahren besteht darin, dass das Verfahren, wenn zwei Prädiktoren stark korreliert sind, nur einen der beiden Prädiktoren auswählen kann, obwohl beides wichtig sein kann. Beispielsweise kann das Verfahren einen Prädiktor entfernen, der billig und einfach zu Gunsten eines korrelierten Prädiktors zu messen ist, der schwierig und teuer zu messen ist. Der Analytiker müsste sein Wissen über die Daten nutzen, um Über Kriterien zu beurteilen, die das Verfahren nicht berücksichtigen kann.

Ein weiteres Problem bei schrittweisen Verfahren ist, dass die verschiedenen Modelle unterschiedliche Kriterien optimieren können. Beispielsweise ist das Modell mit dem höchsten eingestellten R2-Wert nicht unbedingt das Modell mit dem höchsten Test-R2-Wert. Der Analytiker muss die verschiedenen Kriterien berücksichtigen, um ein endgültiges Modell auszuwählen.

Darüber hinaus ist die Güte der Anpassung jedes Datenmodells auf zwei grundlegende Faktoren zurückzuführen:
  • die zugrunde liegenden Struktur der Daten (eine Struktur, die auch für andere Datensätze gilt, die auf dieselbe Weise erfasst wurden)
  • Die Besonderheiten des Datensatzes, den Sie analysieren.

Um sicherzustellen, dass das Modell nicht nur an einen bestimmten Datensatz angepasst ist, sollten Sie das mit dem Auswahlverfahren gefundene Modell anhand eines neuen Datensatzes überprüfen. Sie können auch den ursprünglichen Datensatz nach dem Zufallsprinzip in zwei Teile unterteilen, auf einen Teil die Regression der besten Teilmengen anwenden, um ein Modell auszuwählen, und dann die Anpassung mit dem zweiten Teil überprüfen. Mit diesem Verfahren kann sichergestellt werden, dass das ausgewählte Modell auch für andere Datensätze gültig ist. Gehen Sie zum Abschnitt über schrittweise Prozeduren mit automatischer Validierung, um mehr über Befehle zu erfahren, die Ihre Daten automatisch partitionieren und Validierungsstatistiken berechnen können.

Schrittweise Verfahren

Alle Analysen, die automatische schrittweise Verfahren in Minitab enthalten, umfassen die folgenden Verfahren. Mit den folgenden Methoden können Sie schnell eine große Anzahl verschiedener Modelle in Bezug auf ihre Modellzusammenfassungsstatistiken für die Daten auswerten, die Sie zum Erstellen des Modells verwenden.

  • Die schrittweise Standardregression fügt einen Prädiktor für jeden Schritt hinzu oder entfernt ihn. Minitab beendet das Verfahren, sobald alle Variablen, die nicht im Modell enthalten sind, p-Werte aufweisen, die größer als der angegebene Alpha-für-Aufnahme-Wert sind, und alle Variablen, die im Modell enthalten sind, p-Werte aufweisen, die kleiner oder gleich dem angegebenen Alpha-für-Ausschluss-Wert sind.
  • Beim Verfahren des vorwärts gerichteten Informationskriteriums wird dem Modell bei jedem Schritt der Term mit dem niedrigsten p-Wert hinzugefügt. Weitere Terme können in einem Schritt in das Modell aufgenommen werden, wenn die Einstellungen für die Analyse die Berücksichtigung nicht-hierarchischer Terme zulassen, die einzelnen Modelle jedoch hierarchisch sein müssen. Minitab berechnet das Informationskriterium für jeden Schritt. In den meisten Fällen wird das Verfahren fortgesetzt, bis eine der folgenden Bedingungen eintritt:
    • Das Verfahren findet in acht aufeinander folgenden Schritten kein neues Minimum des Kriteriums.
    • Das Verfahren passt das vollständige Modell an.
    • Das Verfahren passt ein Modell an, das 1 Freiheitsgrad für Fehler übrig lässt.
    Wenn Sie Einstellungen für das Verfahren angeben, die bei jedem Schritt ein hierarchisches Modell erfordern und nur die Aufnahme jeweils eines Terms zulassen, wird das Verfahren fortgesetzt, bis entweder das vollständige Modell oder ein Modell angepasst wird, bei dem 1 Freiheitsgrad für Fehler übrig gelassen wird. Minitab zeigt die Ergebnisse für die Analyse des Modells mit dem kleinsten Wert für das ausgewählte Informationskriterium (AICc oder BIC) an.
  • Die Vorwärtsauswahl beginnt mit einem leeren Modell oder einem Modell mit von Ihnen angegebenen Begriffen. Anschließend fügt Minitab in jedem Schritt den Term mit der größten Signifikanz hinzu. Minitab beendet das Verfahren, sobald alle Variablen, die nicht im Modell enthalten sind, p-Werte aufweisen, die größer als der angegebene Alpha-für-Aufnahme-Wert sind.
  • Bei der Rückwärtselimination sind anfangs alle Prädiktoren im Modell enthalten, und Minitab entfernt in jedem Schritt die am wenigsten signifikante Variable. Minitab beendet das Verfahren, sobald alle Variablen, die im Modell enthalten sind, p-Werte aufweisen, die kleiner oder gleich dem angegebenen Alpha-für-Ausschluss-Wert sind.

Schrittweise Regressionsverfahren mit automatischer Validierung

Für die folgenden Befehle kann die Analyse in Minitab eine automatische Validierungstechnik sowie eine schrittweise Prozedur enthalten. Die automatische Validierung spart Zeit für einen Analytiker, der die Modellvalidierung nach einem schrittweisen Verfahren selbst durchführen würde. Die folgenden Befehle können Ihre Daten während des schrittweisen Verfahrens in einen Trainingsdatensatz und einen Testdatensatz unterteilen:

Die schrittweise Prozedur, die Minitab automatisch mit einem Testdatensatz ausführen kann, wird als Vorwärtsauswahl mit Validierung mit einem Testdatensatz bezeichnet. In diesem Verfahren ist das ursprüngliche Modell leer oder enthält Modellbegriffe, die Sie speziell auswählen. Dann fügt Minitab den nächsten potenziellen Begriff mit dem kleinsten p-Wert bei jedem Schritt hinzu. Minitab berechnet den Test R2 für das Modell bei jedem Schritt als R2-Wert für das Modell im Testdatensatz. Die Modellergebnisse, die Minitab präsentiert, beziehen sich auf das Modell mit dem maximalen Wert des Test-R2-Werts.

Für Regressionsmodell anpassenkönnen Sie eine zweite Validierungstechnik auswählen, die mit einer schrittweisen Auswahl, der so genannten Vorwärtsauswahl, mit k-fal-Kreuzvalidierung durchgeführt werden soll. In der k-falten-Kreuzvalidierung unterteilt Minitab das Dataset in k-Teilmengen. Die Teilmengen werden Faltungen genannt. Meistens verwendet die Validierung 10-fache, aber andere Zahlen sind möglich. Die Falten haben so nahe wie möglich eine möglichst große Anzahl von Beobachtungen. Minitab führt vorwärts Auswahl k-Zeiten. Für jede Vorwärtsauswahl sind k-1 Falten der Trainingsdatensatz und die letzte Falte der Testdatensatz. Wie bei anderen Forward-Auswahlverfahren ist das ursprüngliche Modell leer oder enthält Modellbegriffe, die Sie speziell auswählen. Dann fügt Minitab den nächsten potenziellen Begriff mit dem kleinsten p-Wert bei jedem Schritt hinzu. Für jeden Schritt berechnet Minitab den k-fachen R2-Wert, indem die Informationen aus den verschiedenen schrittweisen Auswahlverfahren kombiniert werden.

Hierarchie

Ein hierarchisches Modell ist ein Modell, in dem für jeden Term im Modell alle darin enthaltenen untergeordneten Terme ebenfalls im Modell enthalten sein müssen. Angenommen, Sie verfügen über ein Modell mit vier Faktoren: A, B, C und D. Wenn der Term A * B * C im Modell enthalten ist, müssen die Terme A B C A * B A * C B * C ebenfalls im Modell enthalten sein, auch wenn einige Terme von D sich nicht unbedingt im Modell befinden müssen.

Die Begriffe, die ein Modell in einem Schritt eingeben oder verlassen, hängen von den Spezifikationen für die Hierarchie ab. Standardmäßig erfordert Minitab Statistical Software bei jedem Schritt ein hierarchisches Modell, erfordert Hierarchie für alle Begriffe und lässt nur einen Begriff zu, um das Modell bei jedem Schritt einzugeben. Diese Einstellungen begrenzen die Begriffe, die Minitab bei jedem Schritt berücksichtigt. Beispielsweise kann eine zweiseitige Interaktion nicht in das Modell eingegeben werden, es sei denn, die beiden Begriffe niedrigerer Ordnung in der Interaktion befinden sich bereits im Modell. Sie können diese Einstellungen anpassen, indem Sie auf Hierarchie , wenn Sie eine stufenweise Methode auswählen.

Was ist die Regression der besten Teilmengen?

Die schrittweise Regression ist ein automatisiertes Werkzeug, mit dem in den explorativen Phasen der Modellerstellung eine nützliche Teilmenge von Prädiktoren bestimmt wird. Die Prozedur zeigt Modellzusammenfassungsergebnisse für die Anzahl der Modelle an, die Sie für jede Größe anfordern: Modelle mit einem Prädiktor, Modelle mit zwei Prädiktoren usw. Die angezeigten Modelle weisen die höchsten R2-Werte unter den möglichen Modellen dieser Größe auf. Um die Regression der besten Teilmengen in Minitab zu verwenden, wählen Sie Statistik > Regression > Regression > Beste Teilmengen.

Als automatisches Auswahlverfahren teilt die Regression der besten Teilmengen viele Probleme mit der schrittweisen Regression. Das Verfahren kann weder spezielles Wissen verwenden, das ein Analytiker hat, noch gibt es eine Garantie dafür, dass verschiedene Kriterien dasselbe Modell identifizieren. Korrelationen zwischen den Prädiktoren können die Identifizierung der besten Modelle erschweren. Die Validierung des Modells mit neuen Daten erhöht das Vertrauen, das Sie in die Leistung des Modells haben können.

Vergleich der Regression der besten Teilmengen und der schrittweisen Regression

Beste Teilmengen ist eine Analyse in Minitab Statistical Software. Die schrittweise Regression ist eine Option in mehreren Analysen. Beide automatisierten Modellauswahltechniken liefern Informationen über die Passform verschiedener Modelle. Anhand der verschiedenen Modelle können Sie alle Modelle identifizieren, die einer weiteren Erforschung bedürfen.

Die Unterschiede zwischen den Techniken in Minitab können Ihnen helfen, zu entscheiden, ob Sie eine Technik über die andere oder beide Techniken verwenden möchten. Im Folgenden sind einige allgemeine Punkte zu berücksichtigen:
Merkmal Regression der besten Teilmengen Schrittweise Regression
Modelle berücksichtigt Alle möglichen Modelle für die Prädiktoren. Eine Folge von Modellen, die durch die statistische Signifikanz der Begriffe ausgewählt wurden.
Anzahl der zu berücksichtigenden Prädiktoren Bis zu 31 kostenlose Prädiktoren sowie alle Prädiktoren, die Sie in jedem Modell benötigen. Kein festgelegtes Limit.
Status der Prädiktoren Ausblenden von Spalten im Arbeitsblatt Text- oder numerische Spalten sowie Interaktionsbegriffe und andere Begriffe höherer Ordnung.
Arten von Antwortvariablen Numerische Spalte. Verschiedene Analysen in Minitab können verschiedene Arten von Antwortvariablen analysieren. Für die schrittweise Regression können Sie eine Analyse für eine fortlaufende Antwortvariable, eine binäre Antwortvariable oder eine Poisson-Antwortvariable auswählen.
Ergebnisse Die Ergebnisse umfassen Modellzusammenfassungsstatistiken, die die Anpassung der Daten untersuchen. Um vollständige Regressionsergebnisse anzuzeigen, z. B. Residuendiagramme, untersuchen Sie das ausgewählte Modell in einer Analyse wie Regressionsmodell anpassen. Die Analyse zeigt die vollständigen Regressionsergebnisse für das optimale Modell nach einem ausgewählten Kriterium an. Sie können auch Modellzusammenfassungsstatistiken für jeden Schritt in der Prozedur anzeigen.