Analyse der Abweichungstabelle für Regressionsmodell anpassen und Lineare Regression

Hier finden Sie Definitionen und Anleitungen zur Interpretation für jede Statistik in der Tabelle der Varianzanalyse.

In diesem Thema

DF
Kor SS
Kor MS
Seq SS
Seq MS
Beitrag
F-Wert
p-Wert – Regression
p-Wert – Term
p-Wert – Fehlende Anpassung

DF

Die Gesamt-Freiheitsgrade (DF) entsprechen der Menge an Informationen in Ihren Daten. In der Analyse werden diese Informationen verwendet, um die Werte von unbekannten Parametern der Grundgesamtheit zu schätzen. Die Gesamt-Freiheitsgrade werden durch die Anzahl der Beobachtungen in der Stichprobe bestimmt. Die DF für einen Term geben an, wie viele Informationen von dem betreffenden Term genutzt werden. Wenn Sie die Stichprobe vergrößern, stehen Ihnen mehr Informationen über die Grundgesamtheit und somit auch mehr Gesamt-Freiheitsgrade zur Verfügung. Durch Vergrößern der Anzahl von Termen im Modell werden mehr Informationen genutzt, wodurch die verfügbaren DF zum Schätzen der Streuung der Parameterschätzwerte abnehmen.

Wenn zwei Bedingungen erfüllt sind, unterteilt Minitab die DF für Fehler. Die erste Bedingung ist, dass Terme vorhanden sein müssen, die auf die Daten passen, jedoch im aktuellen Modell nicht enthalten sind. Wenn Sie beispielsweise über einen stetigen Prädiktor mit mindestens drei eindeutigen Werten verfügen, können Sie für diesen einen quadratischen Term schätzen. Wenn das Modell den quadratischen Term nicht enthält, liegt kein Term im Modell vor, der auf die Daten passt, und diese Bedingung ist erfüllt.

Die zweite Bedingung ist, dass die Daten Replikationen enthalten. Replikationen sind Beobachtungen, bei denen jeder Prädiktor den gleichen Wert aufweist. Wenn beispielsweise drei Beobachtungen vorliegen, bei denen der Druck gleich 5 und die Temperatur gleich 25 ist, stellen diese drei Beobachtungen Replikationen dar.

Wenn die beiden Bedingungen erfüllt sind, setzt sich DF für Fehler aus den Komponenten für fehlende Anpassung und reine Fehler zusammen. DF für fehlende Anpassung ermöglicht einen Test, bei dem geprüft wird, ob die Form des Modells angemessen ist. Beim Test auf fehlende Anpassung werden die Freiheitsgrade für fehlende Anpassung verwendet. Je größer der Wert für DF reine Fehler, desto größer ist die Trennschärfe des Tests auf fehlende Anpassung.

Kor SS

Die korrigierten Summen der Quadrate sind Maße für die Streuung verschiedener Komponenten im Modell. Die Reihenfolge der Prädiktoren im Modell wirkt sich nicht auf die Berechnung der korrigierten Summe der Quadrate aus. In der Tabelle der Varianzanalyse verteilt Minitab die Summe der Quadrate auf verschiedene Komponenten, die die auf unterschiedliche Quellen zurückzuführende Streuung beschreiben.

Kor SS Term: Die korrigierte Summe der Quadrate für einen Term ist die Zunahme der Summe der Quadrate für die Regression im Vergleich mit einem Modell, das lediglich die anderen Terme enthält. Dieser Wert ist ein Maß für den Anteil der Streuung in den Daten der Antwortvariablen, der durch die einzelnen Terme im Modell erklärt wird.
Kor SS Fehler: Die Summe der Fehlerquadrate ist die Summe der quadrierten Residuen. Dieser Wert ist ein Maß für die Streuung in den Daten, die durch die Prädiktoren nicht erklärt wird.
Kor SS Gesamt: Die Gesamtsumme der Quadrate ist die Summe der Quadratsummen für die einzelnen Terme und der Summe der Fehlerquadrate. Sie quantifiziert die Gesamtstreuung in den Daten.

Interpretation

Minitab verwendet die korrigierten Summen der Quadrate, um den p-Wert für einen Term zu berechnen. Zudem verwendet Minitab die Summen der Quadrate, um das R² zu berechnen. Im Allgemeinen interpretieren Sie die p-Werte sowie das R² und nicht die Summen der Quadrate.

Kor MS

Mit dem korrigierten Mittel der Quadrate wird angegeben, wie viel der Streuung von einem Term oder einem Modell erklärt wird; hierbei wird angenommen, dass alle übrigen Terme im Modell enthalten sind, jedoch außer Acht gelassen, in welcher Reihenfolge diese in das Modell aufgenommen wurden. Im Unterschied zur korrigierten Summe der Quadrate werden beim korrigierten Mittel der Quadrate die Freiheitsgrade berücksichtigt.

Der korrigierte mittlere quadrierte Fehler (auch als MSE oder s² bezeichnet) ist die Varianz um die angepassten Werte.

Interpretation

Minitab verwendet das korrigierte Mittel der Quadrate, um den p-Wert für einen Term zu berechnen. Außerdem verwendet Minitab das korrigierte Mittel der Quadrate, um das korrigierte R² zu berechnen. Im Allgemeinen interpretieren Sie die p-Werte und das korrigierte R² und nicht das korrigierte Mittel der Quadrate.

Seq SS

Die sequenziellen Summen der Quadrate sind Maße für die Streuung verschiedener Komponenten im Modell. Im Unterschied zu den korrigierten Summen der Quadrate hängen die sequenziellen Summen der Quadrate von der Reihenfolge ab, in der die Terme in das Modell aufgenommen wurden. In der Tabelle der Varianzanalyse verteilt Minitab die sequenzielle Summe der Quadrate auf verschiedene Komponenten, die die auf unterschiedliche Quellen zurückzuführende Streuung beschreiben.

Seq SS Regression: Die Summe der Quadrate für die Regression ist die Summe der quadrierten Abweichungen der angepassten Werte der Antwortvariablen vom Mittelwert der Antwortvariablen. Dieser Wert ist ein Maß für den Anteil der Streuung in den Antwortdaten, der durch das Modell erklärt wird.
Seq SS Term: Die sequenzielle Summe der Quadrate für einen Term ist der eindeutige Anteil der Streuung, der durch einen Term erklärt wird, der jedoch nicht von den zuvor aufgenommenen Termen erklärt wird. Dieser Wert ist ein Maß für den Anteil der Streuung in den Daten der Antwortvariablen, der durch die einzelnen Terme erklärt wird, wenn diese sequenziell in das Modell aufgenommen werden.
Seq SS Fehler: Die Summe der Fehlerquadrate ist die Summe der quadrierten Residuen. Dieser Wert ist ein Maß für die Streuung in den Daten, die durch die Prädiktoren nicht erklärt wird.
Seq SS Gesamt: Die Gesamtsumme der Quadrate ist die Summe der sequenziellen Summen der Quadrate für die Terme sowie der Summe der Fehlerquadrate. Dieser Wert ist ein Maß für die Gesamtstreuung in den Daten.

Interpretation

Standardmäßig werden die korrigierten Summen der Quadrate verwendet, um den p-Wert für einen Term zu berechnen. Gegebenenfalls können Sie den p-Wert für einen Term auch aus der sequenziellen Summe der Quadrate berechnen. Im Allgemeinen interpretieren Sie die p-Werte und nicht die Summen der Quadrate.

Seq MS

Mit dem sequenziellen Mittel der Quadrate wird angeben, welcher Teil der Streuung durch einen Term oder ein Modell erklärt wird. Das sequenzielle Mittel der Quadrate hängt von der Reihenfolge ab, in der die Terme in das Modell aufgenommen wurden. Im Unterschied zur sequenziellen Summe der Quadrate werden beim sequenziellen Mittel der Quadrate die Freiheitsgrade berücksichtigt.

Der sequenzielle mittlere quadrierte Fehler (auch als MSE oder s² bezeichnet) ist die Varianz um die angepassten Werte.

Interpretation

Minitab verwendet das sequenzielle Mittel der Quadrate, um den p-Wert für einen Term zu berechnen. Außerdem verwendet Minitab das sequenzielle Mittel der Quadrate, um das korrigierte R² zu berechnen. Im Allgemeinen interpretieren Sie die p-Werte und das korrigierte R² und nicht das sequenzielle Mittel der Quadrate.

Beitrag

Mit dem Beitrag wird der prozentuale Beitrag jeder Quelle in der Tabelle der Varianzanalyse zur sequenziellen Gesamtsumme der Quadrate (Seq SS) angezeigt.

Interpretation

Höhere Prozentsätze zeigen an, dass die Quelle einen größeren Anteil zur Streuung der Antwortvariablen beiträgt.

F-Wert

Für jeden Term in der Tabelle der Varianzanalyse wird ein F-Wert angezeigt:

F-Wert für das Modell oder für die Terme: Der F-Wert ist die Teststatistik, anhand derer bestimmt wird, ob eine Assoziation zwischen dem Term und der Antwortvariablen besteht.
F-Wert für den Test auf fehlende Anpassung: Der F-Wert ist die Teststatistik, mit der bestimmt wird, ob im Modell Terme höherer Ordnung fehlen, einschließlich der Prädiktoren des aktuellen Modells.

Interpretation

Minitab verwendet den F-Wert zum Berechnen des p-Werts, anhand dessen Sie eine Entscheidung über die statistische Signifikanz der Terme und des Modells treffen können. Der p-Wert ist ein Wahrscheinlichkeitsmaß für die Anzeichen gegen die Annahme der Nullhypothese. Geringere Wahrscheinlichkeiten liefern stärkere Anzeichen dafür, dass die Nullhypothese nicht zutrifft.

Ein hinreichend großer F-Wert weist darauf hin, dass der Term oder das Modell signifikant ist.

Wenn Sie mit dem F-Wert feststellen möchten, ob die Nullhypothese zurückzuweisen ist, vergleichen Sie den F-Wert mit dem kritischen Wert. Sie können den kritischen Wert in Minitab berechnen oder diesen einer in den meisten Fachbüchern vorhandenen Tabelle für die F-Verteilung entnehmen. Weitere Informationen zum Berechnen des kritischen Werts mit Hilfe von Minitab finden Sie unter Verwenden der inversen kumulativen Verteilungsfunktion (ICDF); klicken Sie dort auf „Verwenden der ICDF zum Berechnen von kritischen Werten“.

p-Wert – Regression

Interpretation

Um zu bestimmen, ob das Modell die Streuung in der Antwortvariablen erklärt, vergleichen Sie den p-Wert für das Modell mit dem Signifikanzniveau, um die Nullhypothese auszuwerten. Die Nullhypothese für die Gesamtregression besagt, dass das Modell die Streuung in der Antwortvariablen nicht erklärt. In der Regel ist ein Signifikanzniveau (als α oder Alpha bezeichnet) von 0,05 gut geeignet. Ein Signifikanzniveau von 0,05 bedeutet ein Risiko der Schlussfolgerung, dass das Modell die Streuung in der Antwortvariablen erklärt, während dies tatsächlich nicht der Fall ist, von 5 %.

p-Wert ≤ α: Das Modell erklärt die Streuung in der Antwortvariablen.: Wenn der p-Wert kleiner oder gleich dem Signifikanzniveau ist, können Sie schlussfolgern, dass das Modell die Streuung in der Antwortvariablen erklärt.
p-Wert > α: Es liegen keine ausreichenden Anzeichen dafür vor, dass das Modell die Streuung in der Antwortvariablen erklärt.: Wenn der p-Wert größer als das Signifikanzniveau ist, können Sie nicht schlussfolgern, dass das Modell die Streuung in der Antwortvariablen erklärt. Es empfiehlt sich möglicherweise, ein neues Modell anzupassen.

p-Wert – Term

Interpretation

Um zu bestimmen, ob die Assoziation zwischen der Antwortvariablen und jedem Term im Modell statistisch signifikant ist, vergleichen Sie den p-Wert für den Term mit dem Signifikanzniveau, um die Nullhypothese auszuwerten. Die Nullhypothese besagt, dass keine Assoziation zwischen dem Term und der Antwortvariablen besteht. In der Regel ist ein Signifikanzniveau (als α oder Alpha bezeichnet) von 0,05 gut geeignet. Ein Signifikanzniveau von 0,05 bedeutet ein Risiko, dass auf eine vorhandene Assoziation geschlossen wird, während tatsächlich keine vorhanden ist, von 5 %.

p-Wert ≤ α: Die Assoziation ist statistisch signifikant: Wenn der p-Wert kleiner oder gleich dem Signifikanzniveau ist, können Sie schlussfolgern, dass eine statistisch signifikante Assoziation zwischen der Antwortvariablen und dem Term besteht.
p-Wert > α: Die Assoziation ist statistisch nicht signifikant: Wenn der p-Wert größer als das Signifikanzniveau ist, können Sie nicht schlussfolgern, dass eine statistisch signifikante Assoziation zwischen der Antwortvariablen und dem Term besteht. Es empfiehlt sich möglicherweise, dass Modell ohne den Term erneut anzupassen.; Wenn mehrere Prädiktoren ohne eine statistisch signifikante Assoziation mit der Antwortvariablen vorhanden sind, können Sie das Modell reduzieren, indem Sie Terme einzeln nacheinander entfernen. Weitere Informationen zum Entfernen von Termen aus dem Modell finden Sie unter Modellreduzierung.

Wenn ein Modellterm statistisch signifikant ist, hängt die Interpretation von der Art des Terms ab. Die Interpretationen lauten wie folgt:

Wenn ein stetiger Prädiktor signifikant ist, können Sie schlussfolgern, dass der Koeffizient für den Prädiktor nicht gleich null ist.
Wenn ein kategorialer Prädiktor signifikant ist, können Sie schlussfolgern, dass nicht alle Mittelwerte der Faktorstufen gleich sind.
Wenn ein Wechselwirkungsterm signifikant ist, können Sie schlussfolgern, dass die Beziehung zwischen einem Prädiktor und der Antwortvariablen von den anderen Prädiktoren im Term abhängt.
Wenn ein Polynomialterm statistisch signifikant ist, können Sie schlussfolgern, dass die Daten eine Krümmung aufweisen.

p-Wert – Fehlende Anpassung

Der p-Wert ist ein Wahrscheinlichkeitsmaß für die Anzeichen gegen die Annahme der Nullhypothese. Geringere Wahrscheinlichkeiten liefern stärkere Anzeichen dafür, dass die Nullhypothese nicht zutrifft. Minitab führt automatisch den Test auf fehlende Anpassung für reine Fehler aus, wenn die Daten Replikationen enthalten, bei denen es sich um mehrere Beobachtungen mit identischen x-Werten handelt. Replikationen stellen „reine Fehler“ dar, da Unterschiede zwischen den beobachteten Werten der Antwortvariablen nur durch zufällige Streuung verursacht werden können.

Interpretation

Um zu bestimmen, ob das Modell die Beziehung zwischen der Antwortvariablen und den Prädiktoren richtig wiedergibt, vergleichen Sie den p-Wert für den Test auf fehlende Anpassung mit dem Signifikanzniveau, um die Nullhypothese auszuwerten. Die Nullhypothese für den Test auf fehlende Anpassung besagt, dass das Modell die Beziehung zwischen der Antwortvariablen und den Prädiktoren richtig darstellt. In der Regel ist ein Signifikanzniveau (als α oder Alpha bezeichnet) von 0,05 gut geeignet. Ein Signifikanzniveau von 0,05 bedeutet ein Risiko der Schlussfolgerung, dass das Modell die Beziehung zwischen der Antwortvariablen und den Prädiktoren nicht richtig darstellt, während die Beziehung tatsächlich richtig angegeben wird, von 5 %.

p-Wert ≤ α: Die fehlende Anpassung ist statistisch signifikant: Wenn der p-Wert kleiner oder gleich dem Signifikanzniveau ist, können Sie schlussfolgern, dass das Modell die Beziehung nicht richtig widerspiegelt. Zum Verbessern des Modells müssen Sie möglicherweise Terme hinzufügen oder die Daten transformieren.
p-Wert > α: Die fehlende Anpassung ist statistisch nicht signifikant: Wenn der p-Wert größer als das Signifikanzniveau ist, wird mit dem Test keine fehlende Anpassung erkannt.