Führen Sie eine schrittweise Regression für Regressionsmodell anpassen und Lineare Regression durch

Statistik > Regression > Regression > Regressionsmodell anpassen > Schrittweise

Predictive Analytics-Modul > Lineare Regression > Schrittweise

In diesem Thema

Methode
Mögliche Terme
Alpha für Aufnahme und Ausschluss
Kriterium
Angeben der Validierung für Vorwärtsauswahl mit Validierung
Hierarchie
Tabelle mit Details zur Modellauswahl anzeigen
Grafik von R-Quadrat vs. Schritt anzeigen

Methode

Fügt dem Modell schrittweise Terme hinzu bzw. entfernt schrittweise Terme aus dem Modell, um eine nützliche Teilmenge von Termen zu ermitteln. Bei Auswahl eines schrittweisen Verfahrens sind die im Dialogfeld Modell angegebenen Terme potenzielle Terme für das endgültige Modell. Weitere Informationen finden Sie unter Verwenden der schrittweisen Regression und der Regression der besten Teilmengen.

Geben Sie die Methode an, mit der Minitab das Modell anpasst.

Keine: Das Modell wird mit allen Termen angepasst, die Sie im Dialogfeld Modell angeben.
Schrittweise: Bei dieser Methode wird von einem leeren Modell ausgegangen, oder es werden die Terme aufgenommen, die Sie für die Aufnahme in das Anfangsmodell oder jedes Modell angegeben haben. Anschließend wird von Minitab bei jedem Schritt ein Term hinzugefügt bzw. entfernt. Sie können Terme angeben, die in das Anfangsmodell aufgenommen oder in jedem Modell erzwungen werden sollen. Minitab beendet den Vorgang, wenn alle nicht im Modell enthaltenen Variablen p-Werte aufweisen, die größer als der angegebene Wert von Alpha für Aufnahme sind, und wenn alle im Modell enthaltenen Variablen p-Werte aufweisen, die kleiner oder gleich dem angegebenen Wert von Alpha für Ausschluss sind.
Vorwärtsauswahl: Bei dieser Methode wird von einem leeren Modell ausgegangen, oder es werden die Terme aufgenommen, die Sie für die Aufnahme in das Anfangsmodell oder jedes Modell angegeben haben. Dann fügt Minitab für jeden Schritt den signifikantesten Term hinzu. Minitab beendet den Vorgang, wenn alle nicht im Modell enthaltenen Variablen p-Werte aufweisen, die größer als der angegebene Wert von Alpha für Aufnahme sind.
Rückwärtselimination: Bei dieser Methode wird mit allen potenziellen Termen im Modell begonnen, und es wird in jedem Schritt der am wenigsten signifikante Term entfernt. Minitab beendet den Vorgang, wenn alle im Modell enthaltenen Variablen p-Werte aufweisen, die kleiner oder gleich dem angegebenen Wert von Alpha für Ausschluss sind.
Vorwärts-Informationskriterium: Beim Vorwärts-Informationskriterium wird dem Modell bei jedem Schritt der Term mit dem niedrigsten p-Wert hinzugefügt. Weitere Terme können in einem Schritt in das Modell aufgenommen werden, wenn die Einstellungen für die Analyse die Berücksichtigung nicht-hierarchischer Terme zulassen, die einzelnen Modelle jedoch hierarchisch sein müssen. Minitab berechnet das Informationskriterium für jeden Schritt. In den meisten Fällen wird das Verfahren fortgesetzt, bis eine der folgenden Bedingungen eintritt:
- Das Verfahren stellt in acht aufeinander folgenden Schritten keine Verbesserung des Kriteriums fest.
- Das Verfahren passt das vollständige Modell an.
- Das Verfahren passt ein Modell an, das 1 Freiheitsgrad für Fehler übrig lässt.
Wenn Sie Einstellungen für das Verfahren angeben, die bei jedem Schritt ein hierarchisches Modell erfordern und nur die Aufnahme jeweils eines Terms zulassen, wird das Verfahren fortgesetzt, bis entweder das vollständige Modell oder ein Modell angepasst wird, bei dem 1 Freiheitsgrad für Fehler übrig gelassen wird. Minitab zeigt die Ergebnisse der Analyse für das Modell mit dem minimalen Wert des ausgewählten Informationskriteriums (entweder AICc oder BIC) an.
Vorwärtsauswahl mit Validierung: Die Vorwärtsauswahl mit Validierung hängt von der Validierungsmethode ab. Bei Verwendung eines Testdatensatzes ähnelt das Verfahren der Vorwärtsauswahl. Am Ende jedes Schritts berechnet Minitab das R² für den Test. Am Ende des Verfahrens der Vorwärtsauswahl ist das Modell mit dem größten R² für den Test das endgültige Modell.
Bei der Kreuzvalidierung wird die Vorwärtsauswahl für jede Faltung wiederholt. Das Verfahren wertet in jedem Schritt alle Faltungen aus und identifiziert den Schritt mit dem besten R² für K Faltungen mit schrittweiser Methode. Abschließend wird im Verfahren eine Vorwärtsauswahl für den gesamten Datensatz durchgeführt, wobei bei dem besten Schritt aus den Auswahlen für die Faltungen angehalten wird.

Bei beiden Validierungstypen wird das Verfahren unter denselben Bedingungen wie beim Vorwärts-Informationskriterium beendet.

Hinweis

Die im endgültigen Modell enthaltenen Terme können von Hierarchieeinschränkungen für Modelle abhängen. Weitere Informationen finden Sie im untenstehenden Thema „Hierarchie“.

Mögliche Terme

Zeigt die Terme an, die mit der Prozedur ausgewertet werden. Indikatoren (E oder I) neben einem Term in der Liste zeigen an, wie die Prozedur den jeweiligen Term behandelt. Der ausgewählte Wert für Methode bestimmt die Anfangseinstellungen in der Liste. Mit den zwei Schaltflächen unten können Sie ändern, wie die Prozedur die Terme behandelt. Wenn Sie diese Schaltflächen nicht verwenden, kann die Prozedur den Term je nach seinem p-Wert in das Modell aufnehmen bzw. aus diesem entfernen.

E = Term in jedes Modell einbinden: Wählen Sie einen Term aus, und klicken Sie auf diese Schaltfläche, um die Aufnahme des Terms in jedem Modell unabhängig von seinem p-Wert zu erzwingen. Klicken Sie erneut auf die Schaltfläche, um diese Einstellung aufzuheben.
I = Term in Anfangsmodell einbinden: Wählen Sie einen Term aus, und klicken Sie auf diese Schaltfläche, um den Term in das Anfangsmodell aufzunehmen. Die Prozedur kann den betreffenden Term ausschließen, wenn sein p-Wert zu hoch ist. Klicken Sie erneut auf die Schaltfläche, um diese Einstellung aufzuheben. Diese Schaltfläche ist nur verfügbar, wenn Sie Schrittweise in Methode auswählen.

Alpha für Aufnahme und Ausschluss

Alpha für Aufnahme: Geben Sie den Alpha-Wert ein, mit dem Minitab bestimmt, ob ein Term in das Modell aufgenommen werden kann. Sie können diesen Wert festlegen, wenn Sie Schrittweise oder Vorwärtsauswahl in Methode auswählen.
Alpha für Ausschluss: Geben Sie den Alpha-Wert ein, mit dem Minitab bestimmt, ob ein Term aus dem Modell entfernt wird. Sie können diesen Wert festlegen, wenn Sie Schrittweise oder Rückwärtselimination in Methode auswählen.

Kriterium

Geben Sie an, welches Informationskriterium bei der Vorwärtsauswahl verwendet werden soll.

Sowohl AICc als auch BIC werten die Likelihood des Modells aus und wenden dann einen Abzug für das Hinzufügen von Termen zum Modell an. Durch den Abzug wird die Tendenz zur Überanpassung des Modells an die Stichprobendaten reduziert. Durch diese Reduzierung kann ein Modell zustande kommen, das insgesamt eine bessere Leistung erbringt.

Als Faustregel gilt: Wenn die Anzahl der Parameter im Verhältnis zum Stichprobenumfang klein ist, ist der Abzug für das Hinzufügen der einzelnen Parameter für BIC größer als für AICc. In diesen Fällen ist das Modell, bei dem BIC minimiert wird, tendenziell kleiner als das Modell, bei dem AICc minimiert wird.

In einigen gängigen Fällen, z. B. bei Screening-Versuchsplänen, ist die Anzahl der Parameter im Verhältnis zum Stichprobenumfang in der Regel groß. In diesen Fällen ist das Modell, bei dem AICc minimiert wird, tendenziell kleiner als das Modell, bei dem BIC minimiert wird. Bei einem definitiven Screening-Versuchsplan mit 13 Durchläufen ist beispielsweise in der Gruppe der Modelle mit 6 oder mehr Parametern das Modell, bei dem AICc minimiert wird, tendenziell kleiner als das Modell, bei dem BIC minimiert wird.

Weitere Informationen zum AICc und BIC finden Sie in Burnham und Anderson.¹

Angeben der Validierung für Vorwärtsauswahl mit Validierung

Hinweis

Einstellungen für die Validierung befinden sich auch im Unterdialogfeld Validierung. Wenn Sie die Einstellungen ändern, aktualisiert Minitab automatisch die Einstellungen an beiden Orten.

Wenn Sie die Option Vorwärtsauswahl mit Validierung aktivieren, wählen Sie die Validierungsmethode zum Testen Ihres Modells aus. Normalerweise ist bei kleineren Stichproben die Kreuzvalidierung mit K Faltungen geeignet. Bei größeren Stichproben können Sie die Daten in einen Trainingsdatensatz und einen Testdatensatz unterteilen.

Kreuzvalidierung mit K Faltungen

Führen Sie die folgenden Schritte aus, um die Kreuzvalidierung mit K Faltungen zu verwenden.

Wählen Sie in der Dropdown-Liste die Option Kreuzvalidierung mit K Faltungen aus.
Wählen Sie eine der folgenden Optionen aus, um anzugeben, ob die Faltungen nach dem Zufallsprinzip oder anhand einer ID-Spalte zugewiesen werden sollen.
- Zeilen für jede Faltung zufällig zuweisen: Wählen Sie diese Option aus, wenn Minitab die Zeilen für die einzelnen Faltungen nach dem Zufallsprinzip auswählen soll. Sie können die Anzahl der Faltungen angeben. In den meisten Fällen funktioniert der Standardwert 10 gut. Die Verwendung eines niedrigeren Werts von K kann eine stärkere Verzerrung bewirken. Größere Werte von K können jedoch zu einer stärkeren Streuung führen. Sie können auch eine Basis für den Zufallszahlengenerator festlegen.
- Zeilen für jede Faltung nach ID-Spalte zuweisen: Wählen Sie diese Option aus, um die Zeilen auszuwählen, die in die einzelnen Faltungen aufgenommen werden sollen. Geben Sie in ID-Spalte die Spalte ein, die die Faltungen identifiziert. Jede Zeile mit demselben Wert in der ID-Spalte ist in derselben Faltung enthalten.

Validierung mit einem Testdatensatz

Führen Sie die folgenden Schritte aus, um die Daten in einen Trainingsdatensatz und einen Testdatensatz zu unterteilen.

Wählen Sie in der Dropdown-Liste die Option Validierung mit einem Testdatensatz aus.
Wählen Sie eine der folgenden Optionen aus, um anzugeben, ob ein Teil der Zeilen nach dem Zufallsprinzip oder ein Teil der Zeilen anhand einer ID-Spalte ausgewählt werden soll.
- Zufallsfraktion der Zeilen als Testdatensatz auswählen: Wählen Sie diese Option aus, wenn Minitab den Testdatensatz nach dem Zufallsprinzip auswählen soll. Sie können angeben, wie viele Daten in den Testdatensatz aufgenommen werden sollen. In den meisten Fällen funktioniert der Standardwert 0,3 gut. Es empfiehlt sich, eine ausreichende Menge von Daten in den Testdatensatz aufzunehmen, um das Modell gut bewerten zu können. Wenn Sie hinsichtlich der Form des Modells nicht sicher sind, ermöglicht ein größerer Testdatensatz eine stärkere Validierung. Sie sollten auch eine ausreichende Menge von Daten in den Trainingsdatensatz aufnehmen, um das Modell gut zu schätzen. In der Regel benötigen Modelle mit mehr Prädiktoren für die Schätzung mehr Trainingsdaten.
- Trainings-/Test-Teilung nach ID-Spalte definieren: Wählen Sie diese Option aus, um selbst die Zeilen auszuwählen, die in den Testdatensatz aufgenommen werden sollen. Geben Sie in ID-Spalte die Spalte ein, die angibt, welche Zeilen für die Teststichprobe verwendet werden sollen. Die ID-Spalte darf nur zwei Werte enthalten. Wählen Sie in Stufe für Testdatensatz aus, welche Stufe als Teststichprobe verwendet werden soll.

Hierarchie

Sie können bestimmen, wie Minitab die Modellhierarchie während einer schrittweisen Regression erzwingt. Die Schaltfläche Hierarchie ist deaktiviert, wenn Sie im Dialogfeld Modell ein nicht hierarchisches Modell angeben.

In einem hierarchischen Modell sind alle Terme niedriger Ordnung, aus denen sich die Terme höherer Ordnung zusammensetzen, ebenfalls im Modell enthalten. Ein Modell, das den Wechselwirkungsterm A*B*C enthält, ist beispielsweise hierarchisch, wenn es diese Terme umfasst: A, B, C, A*B, A*C und B*C.

Die Modelle müssen nicht zwangsläufig hierarchisch sein. Im Allgemeinen können Sie Terme niedriger Ordnung entfernen, wenn sie nicht signifikant sind, es sei denn, Sie entscheiden aufgrund Ihrer Sachkenntnis, sie beizubehalten. Modelle mit zu vielen Termen können relativ unpräzise sein und die Fähigkeit mindern, die Werte neuer Beobachtungen zu prognostizieren.

Befolgen Sie die untenstehenden Tipps:

Passen Sie zuerst ein hierarchisches Modell an. Nicht signifikante Terme können Sie später entfernen.
Wenn Sie die stetigen Prädiktoren standardisieren, passen Sie ein hierarchisches Modell an, um eine Gleichung in nicht kodierten (oder natürlichen) Einheiten zu erstellen.
Wenn Ihr Modell kategoriale Variablen enthält, lassen sich die Ergebnisse einfacher interpretieren, wenn zumindest die kategorialen Terme hierarchisch sind.

Hierarchisches Modell

Wählen Sie aus, ob beim Verfahren für die schrittweise Regression ein hierarchisches Modell erstellt werden muss.

Bei jedem Schritt ist ein hierarchisches Modell erforderlich: Minitab kann nur Terme hinzufügen oder entfernen, mit denen die Hierarchie gewahrt bleibt.
Terme am Ende hinzufügen, damit das Modell hierarchisch wird: Zunächst folgt Minitab den Standardregeln des Verfahrens für die schrittweise Regression. Im letzten Schritt werden die Terme hinzugefügt, mit denen ein hierarchisches Modell erzeugt wird, selbst wenn deren p-Werte größer als der Wert von Alpha für Aufnahme sind. Wenn Sie diese Option auswählen, während Methode den Wert Vorwärts-Informationskriterium aufweist, zeigt Minitab einen Fehler an. Um ein hierarchisches Modell zu erhalten, für das das Kriterium bei den Modellen in den Schritten minimiert wird, wählen Sie Bei jedem Schritt ist ein hierarchisches Modell erforderlich aus.
Hierarchisches Modell ist nicht erforderlich: Das endgültige Modell muss nicht hierarchisch sein. Die Terme werden von Minitab ausschließlich gemäß den Regeln des Verfahrens der schrittweisen Regression hinzugefügt und entfernt.

Hierarchie für die folgenden Terme erforderlich

Wenn Sie ein hierarchisches Modell benötigen, wählen Sie die Typen von Termen aus, die hierarchisch sein müssen.

Alle Terme: Terme, die stetige und/oder kategoriale Variablen umfassen, müssen hierarchisch sein.
Terme mit kategorialen Prädikatoren: Nur Terme, die kategoriale Variablen umfassen, müssen hierarchisch sein.

Wie viele Terme können in jedem Schritt aufgenommen werden

Wenn bei jedem Schritt die Hierarchie gewahrt bleiben soll, wählen Sie die Anzahl der Terme aus, die Minitab pro Schritt hinzufügen kann, damit die Hierarchie erhalten bleibt.

In jedem Schritt kann höchstens ein Term aufgenommen werden: Ein Term höherer Ordnung kann nur in das Modell aufgenommen werden, wenn die Hierarchie beim Aufnehmen dieses einzelnen Terms erhalten bleibt. Sämtliche Terme niedriger Ordnung, die den Term höherer Ordnung bilden, müssen bereits im Modell vorhanden sein.
Zum Erhalten der Hierarchie können zusätzliche Terme aufgenommen werden: Ein Term höherer Ordnung kann dem Modell selbst dann hinzugefügt werden, wenn dadurch ein nicht hierarchisches Modell entsteht. Die zum Konstruieren eines hierarchischen Modells benötigten Terme werden jedoch auch dann hinzugefügt, wenn ihre p-Werte größer als der Wert von Alpha für Aufnahme sind.

Tabelle mit Details zur Modellauswahl anzeigen

Geben Sie an, welche Informationen zum schrittweisen Verfahren angezeigt werden sollen.

Details zur Methode: Es werden der Typ des schrittweisen Verfahrens und die Alpha-Werte für Aufnahme und/oder Ausschluss eines Prädiktors im Modell angezeigt.
Details für jeden Schritt einbeziehen: Es werden die Koeffizienten, p-Werte und Statistiken zur Zusammenfassung des Modells für jeden Schritt des Verfahrens angezeigt.

Grafik von R-Quadrat vs. Schritt anzeigen

Wenn Sie Vorwärtsauswahl mit Validierung auswählen, wird für jeden Schritt in der Vorwärtsauswahl ein Diagramm der R²-Werte für Training und Validierung angezeigt. In der Regel wird das Diagramm verwendet, um zu ermitteln, ob einfachere Modelle ähnliche Validierungswerte aufweisen.

¹ Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection. Sociological Methods & Research, 33(2), 261-304. doi:10.1177/0049124104268644