Was sind Freiheitsgrade?

Freiheitsgrade (DF) bezeichnen die Menge der von den Daten gelieferten Informationen, die Sie „verbrauchen“ können, um die Werte der unbekannten Parameter der Grundgesamtheit zu schätzen und die Streuung dieser Schätzwerte zu berechnen. Dieser Wert wird durch die Anzahl der Beobachtungen in der Stichprobe und die Anzahl der Parameter im Modell bestimmt.

Wenn Sie die Stichprobe vergrößern, stehen Ihnen mehr Informationen über die Grundgesamtheit und somit auch mehr Freiheitsgrade in den Daten zur Verfügung. Fügen Sie dem Modell hingegen Parameter hinzu, indem Sie z. B. die Anzahl der Terme in einer Regressionsgleichung erhöhen, „verbrauchen“ Sie Informationen aus den Daten und somit die Freiheitsgrade, anhand derer Sie die Streuung der Parameterschätzwerte schätzen können.

Freiheitsgrade werden auch zum Charakterisieren einer bestimmten Verteilung verwendet. Bei verschiedenen Familien von Verteilungen, beispielsweise t, F und Chi-Quadrat, wird mit Hilfe von Freiheitsgraden angegeben, welche spezifische t-, F- oder Chi-Quadrat-Verteilung sich für verschiedene Stichprobenumfänge und verschiedene Anzahlen von Modellparametern eignet. In der folgenden Abbildung werden beispielsweise die Unterschiede zwischen Chi-Quadrat-Verteilungen mit unterschiedlichen Freiheitsgraden dargestellt.

Chi-Quadrat-Verteilungen mit unterschiedlichen Freiheitsgraden

Die Verteilung mit der durchgezogenen Linie enthält 3 Freiheitsgrade. Die Verteilung mit der gestrichelten Linie enthält 15 Freiheitsgrade.

Beispiele

Mit einem t-Test bei einer Stichprobe wird beispielsweise nur ein einziger Parameter geschätzt: der Mittelwert der Grundgesamtheit. Der Stichprobenumfang n stellt n Informationselemente zum Schätzen des Mittelwerts der Grundgesamtheit und seiner Streuung dar. Ein Freiheitsgrad wird zum Schätzen des Mittelwerts benötigt, und anhand der verbleibenden n-1 Freiheitsgrade wird die Streuung geschätzt. Bei einem t-test bei einer Stichprobe wird daher eine t-Verteilung mit n-1 Freiheitsgraden verwendet.

Bei einer multiplen linearen Regression muss hingegen ein Parameter für jeden in das Modell eingebundenen Term geschätzt werden, wobei jeder einen Freiheitsgrad verbraucht. Wenn Sie in ein Modell mit einer multiplen linearen Regression eine übermäßig hohe Anzahl von Termen einbinden, vermindert sich daher die Anzahl der Freiheitsgrade, die zum Schätzen der Streuung der Parameter verfügbar ist, so dass die Schätzung unter Umständen weniger zuverlässig ist.