Die Summe der Quadrate stellt ein Maß der Streuung oder der Abweichung vom Mittelwert dar. Der Wert wird als Summe der Quadrate der Differenzen vom Mittelwert berechnet. Bei der Berechnung der Gesamtsumme der Quadrate werden sowohl die Summe der Quadrate der Faktoren als auch die Summe der Quadrate aus dem Zufallsrauschen bzw. Fehler berücksichtigt.
Bei der Varianzanalyse (ANOVA) trägt die Gesamtsumme der Quadrate dazu bei, die Gesamtstreuung auszudrücken, die auf verschiedene Faktoren zurückgeführt werden kann. Angenommen, Sie testen die Wirksamkeit dreier Waschmittel in einem Experiment.
Gesamtsumme der Quadrate = Summe der Quadrate der Behandlung (SST) + Summe der Quadrate der Residuenfehler (SSE)
Die Summe der Quadrate der Behandlung ist die Streuung, die auf die Waschmittel zurückgeführt werden kann bzw. im vorliegenden Fall zwischen den Waschmitteln vorliegt. Die Summe der Quadrate der Residuenfehler ist die Streuung, die auf den Fehler zurückzuführen ist.
Nach dem Umwandeln der Summe der Quadrate in das Mittel der Quadrate durch Division durch die Freiheitsgrade können Sie die Verhältnisse vergleichen und ermitteln, ob eine signifikante Differenz besteht, die auf die Waschmittel zurückzuführen ist. Je größer dieses Verhältnis ist, desto stärker wirken sich die Behandlungen auf das Ergebnis aus.
In der Regression kann mit der Gesamtsumme der Quadrate die Gesamtstreuung der y-Werte ausgedrückt werden. Angenommen, Sie erfassen Daten, um ein Modell aufzustellen, das den Gesamtumsatz als Funktion Ihres Werbebudgets erklärt.
Gesamtsumme der Quadrate = Summe der Quadrate der Regression (SSR) + Summe der Quadrate der Residuenfehler (SSE)
Die Summe der Quadrate der Regression ist die Streuung, die auf die Beziehung zwischen den x- und den y-Werten zurückzuführen ist, in diesem Fall zwischen dem Werbebudget und dem Umsatz. Die Summe der Quadrate der Residuenfehler ist die Streuung, die auf den Fehler zurückzuführen ist.
Durch den Vergleich der Summe der Quadrate der Regression mit der Gesamtsumme der Quadrate können Sie den Anteil der Gesamtstreuung ermitteln, die durch das Regressionsmodell (R2, der Determinationskoeffizient) erklärt wird. Je größer der Wert ist, desto besser erklärt die Beziehung den Umsatz als Funktion des Werbebudgets.
Die sequenziellen Summen der Quadrate hängen von der Reihenfolge ab, in der die Faktoren in das Modell aufgenommen wurden. Es handelt sich um den eindeutigen Anteil der Summe der Quadrate der Regression, die durch einen Faktor erklärt wird, nachdem alle zuvor aufgenommenen Faktoren erklärt wurden.
Wenn beispielsweise ein Modell mit den drei Faktoren x1, x2 und x3 vorhanden ist, zeigt die sequenzielle Summe der Quadrate für x2, wie viel der verbleibenden Streuung durch x2 erklärt wird, nachdem x1 bereits in das Modell aufgenommen wurde. Wenn Sie eine andere Sequenz der Faktoren erhalten möchten, müssen Sie die Regression wiederholen und dabei die Faktoren in einer anderen Reihenfolge aufnehmen.
Die korrigierten Summen der Quadrate hängen nicht von der Reihenfolge ab, in der die Faktoren in das Modell aufgenommen wurden. Es handelt sich um den eindeutigen Anteil der Summe der Quadrate der Regression, der durch einen Faktor erklärt wird, sofern alle anderen Faktoren im Modell enthalten sind, und zwar unabhängig von der Reihenfolge, in der sie in das Modell aufgenommen wurden.
Wenn beispielsweise ein Modell mit den drei Faktoren x1, x2 und x3 vorliegt, zeigt die korrigierte Summe der Quadrate für x2, wie viel der verbleibenden Streuung durch x2 erklärt wird, sofern x1 und x3 bereits im Modell enthalten sind.
Die sequenzielle Summe der Quadrate und die korrigierte Summe der Quadrate sind für den letzten Term im Modell immer gleich. Wenn Ihr Modell beispielsweise die Terme A, B und C (in dieser Reihenfolge) enthält, stellen beide Summen der Quadrate für C die Abnahme der Summe der Quadrate der Residuenfehler dar, die auftritt, wenn C einem Modell hinzugefügt wird, das sowohl A als auch B enthält.
Die sequenzielle Summe der Quadrate und die korrigierte Summe der Quadrate sind für alle Terme gleich, wenn die Designmatrix orthogonal ist. Am häufigsten tritt dies in faktoriellen und teilfaktoriellen Designs (ohne Kovariaten) auf, wenn diese in kodierten Einheiten analysiert werden. In diesen Designs sind die Spalten in der Designmatrix für alle Haupteffekte und Wechselwirkungen in Bezug aufeinander orthogonal. Plackett-Burman-Versuchspläne weisen orthogonale Spalten für Haupteffekte auf (normalerweise sind dies die einzigen Terme im Modell), Wechselwirkungsterme – sofern vorhanden – können jedoch teilweise mit anderen Termen vermengt (d h. nicht orthogonal) sein. In Wirkungsflächenversuchsplänen sind die Spalten für quadrierte Terme in Bezug aufeinander nicht orthogonal.
Für jedes Design gilt Folgendes: Wenn die Designmatrix in nicht kodierten Einheiten vorliegt, können nicht orthogonale Spalten vorhanden sein, es sei denn, die Faktorstufen weisen immer noch das Zentrum null auf.
Die korrigierten Summen der Quadrate können kleiner, gleich oder größer als die sequenziellen Summen der Quadrate sein.
Angenommen, Sie passen ein Modell mit den Termen A, B, C und A*B an. Sei SS (A, B, C, A*B) die Summe der Quadrate, wenn A, B, C und A*B im Modell enthalten sind. Sei SS (A, B, C) die Summe der Quadrate, wenn A, B und C im Modell eingebunden sind. Die korrigierte Summe der Quadrate für A*B ist dann:
SS(A, B, C, A*B) – SS(A, B, C)
Mit den gleichen Termen A, B, C, A*B im Modell hängt die sequenzielle Summe der Quadrate für A*B jedoch von der Reihenfolge ab, in der die Terme im Modell angegeben sind.
Bei Verwendung einer ähnlichen Notation ist die sequenzielle Summe der Quadrate für A*B bei der Reihenfolge A, B, A*B, C gleich:
SS(A, B, A*B) – SS(A, B)
Hierbei wird jeder Wert der Spalte quadriert und die Summe der quadrierten Werte berechnet. Wenn also die Spalte x1, x2, ... , xn enthält, errechnet sich die Summe der Quadrate als (x12 + x22+ ... + xn2). Anders als die korrigierte Summe der Quadrate umfasst die unkorrigierte Summe der Quadrate Fehler. Die Datenwerte werden quadriert, ohne vorher den Mittelwert zu subtrahieren.
In Minitab können Sie mit der deskriptiven Statistik die unkorrigierte Summe der Quadrate abrufen. Sie können auch die Funktion „Summe der Quadrate“ (SSQ) im Rechner nutzen, um die unkorrigierte Summe der Quadrate für eine Spalte oder Zeile zu berechnen. Angenommen, Sie berechnen eine Formel manuell und möchten die Summe der Quadrate für eine bestimmte Gruppe von Werten der Antwortvariablen (y) ermitteln.
Geben Sie im Rechner den folgenden Ausdruck ein: SSQ (C1)
Speichern Sie die Ergebnisse in C2, um die unkorrigierte Summe der Quadrate zu betrachten. Im folgenden Arbeitsblatt wird das Ergebnis der Berechnung der Summe der Quadrate für die Spalte y mit Hilfe des Rechners veranschaulicht.
C1 | C2 |
---|---|
y | Summe der Quadrate |
2,40 | 41,5304 |
4,60 | |
2,50 | |
1,60 | |
2,20 | |
0,98 |
Minitab lässt fehlende Werte bei der Berechnung dieser Funktion aus.