Kodierungsschemas für kategoriale Prädiktoren

Wenn Sie eine Regressionsanalyse mit kategorialen Prädiktoren durchführen, erstellt Minitab mit Hilfe eines Kodierungsschemas Indikatorvariablen aus dem kategorialen Prädiktor. Bei komplexeren Modellen sind die Interpretationen ähnlich. Wenn Sie jedoch eine Kovariate hinzufügen oder die Stichprobenumfänge in den einzelnen Gruppen ungleich sind, werden den Koeffizienten die gewichteten Mittelwerte für die einzelnen Faktorstufen und nicht der arithmetische Mittelwert (Summe der Beobachtungen dividiert durch n) zugrunde gelegt. Die Interpretation ist in der Regel die gleiche, jedoch ist Folgendes zu beachten:
  • Bei der (1, 0)-Kodierung stellen die Koeffizienten die Distanz zwischen den Faktorstufen und ihrer Basisstufe dar.
  • Bei der (–1, 0, 1)-Kodierung stellen die Koeffizienten die Distanz zwischen den Faktorstufen und dem Gesamtmittelwert dar.

Standardmäßig verwendet Minitab für die Regression das (1, 0)-Kodierungsschema, Sie können dieses jedoch im Unterdialogfeld Kodierung in das (–1, 0, +1)-Kodierungsschema ändern. Weitere Informationen finden Sie unter Kodierungsschemas für kategoriale Prädiktoren.

Interpretieren von Kodierungsschemas für Modelle mit einem Faktor

Daten für die Beispiele mit einem Faktor

Betrachten Sie zunächst ein balanciertes Design mit einem Faktor und drei Faktorstufen.

C1 C2-T
Antwort Faktor
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

Deskriptive Statistik für die Beispiele mit einem Faktor

Untersuchen Sie die deskriptive Statistik, und achten Sie auf die Mittelwerte.

Deskriptive Statistik: Antwort

Statistik Anzahl Variable gesamt Mittelwert Antwort 12 5,000

Deskriptive Statistik: Antwort

Statistik Anzahl Variable Faktor gesamt Mittelwert Antwort A 4 2,000 B 4 4,500 C 4 8,500

Beispiel für die Interpretation des Kodierungsschemas für ein (0, 1)-Zellmittelwert-Modell mit einem Faktor

Gehen Sie wie folgt vor, um die Ausgabe zu erzeugen:
  1. Wählen Sie Statistik > Regression > Regression > Regressionsmodell anpassen aus.
  2. Geben Sie im Feld Antworten die Spalte Antwort ein.
  3. Geben Sie im Feld Kategoriale Prädiktoren die Spalte Faktor ein.
  4. Klicken Sie auf Kodierung. Wählen Sie unter Referenzstufe die Option C aus.
  5. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Regressionsanalyse: Antwort vs. Faktor

Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante 8,500 0,577 14,72 0,000 Faktor A -6,500 0,816 -7,96 0,000 1,33 B -4,000 0,816 -4,90 0,001 1,33
Varianzanalyse Quelle DF Kor SS Kor MS F-Wert p-Wert Regression 2 86,00 43,000 32,25 0,000 Faktor 2 86,00 43,000 32,25 0,000 Fehler 9 12,00 1,333 Gesamt 11 98,00
Erinnern Sie sich, dass die Mittelwerte der Faktorstufen wie folgt lauten:
  • A = 2,0
  • B = 4,5
  • C = 8,5

Die geschätzte Regressionsgleichung lautet:

Regressionsanalyse: Antwort vs. Faktor

Regressionsgleichung Antwort = 8,500 - 6,500 Faktor_A - 4,000 Faktor_B + 0,0 Faktor_C

Stufe C ist die Basisstufe und weist daher den Koeffizienten 0 auf. Wenn nur ein Faktor vorhanden ist, ist der Schnittpunkt mit der y-Achse gleich dem Mittelwert der Basisstufe.

Der Koeffizient für Stufe A lautet -6,5. Dies ist die Differenz von Stufe A zur Basisstufe. Wenn Sie den Koeffizienten für A und den Schnittpunkt mit der y-Achse (oder den Mittelwert der Basisstufe) addieren, erhalten Sie den Mittelwert für Stufe A: -6,5 + 8,5 = 2,0

Entsprechend lautet der Koeffizient für Stufe B -4,0. Dies ist die Differenz von Stufe B zur Basisstufe. Wenn Sie den Koeffizienten für B und den Schnittpunkt mit der y-Achse addieren, erhalten Sie den Mittelwert für Stufe B: -4,0 + 8,5 = 4,5

Beispiel für die Interpretation des Kodierungsschemas für ein (–1, 0, +1)-Faktoreffekte-Modell mit einem Faktor

So erhalten Sie die folgende Ausgabe:
  1. Wählen Sie Statistik > Regression > Regression > Regressionsmodell anpassen aus.
  2. Geben Sie im Feld Antworten die Spalte Antwort ein.
  3. Geben Sie im Feld Kategoriale Prädiktoren die Spalte Faktor ein.
  4. Klicken Sie auf Kodierung. Wählen Sie unter Kodierung für kategoriale Prädiktoren die Option (-1, 0, +1) aus.
  5. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Regressionsanalyse: Antwort vs. Faktor

Varianzanalyse Quelle DF Kor SS Kor MS F-Wert p-Wert Regression 2 86,00 43,000 32,25 0,000 Faktor 2 86,00 43,000 32,25 0,000 Fehler 9 12,00 1,333 Gesamt 11 98,00
Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante 5,000 0,333 15,00 0,000 Faktor A -3,000 0,471 -6,36 0,000 1,33 B -0,500 0,471 -1,06 0,316 1,33
Erinnern Sie sich an den Gesamtmittelwert und die Mittelwerte der Faktorstufen:
  • Gesamtmittelwert = 5,0
  • A = 2,0
  • B = 4,5
  • C = 8,5

Die Regressionsgleichung lautet:

Regressionsanalyse: Antwort vs. Faktor

Regressionsgleichung Antwort = 5,000 - 3,000 Faktor_A - 0,500 Faktor_B + 3,500 Faktor_C
Der Effekt für jede Faktorstufe entspricht dem Stufenmittelwert abzüglich des Gesamtmittelwerts. Folglich ist:
  • Effekt von Stufe A = 2,0 – 5,0 = –3,0
  • Effekt von Stufe B = 4,5 – 5,0 = –0,5
  • Effekt von Stufe C = 8,5 – 5,0 = 3,5

Der Schnittpunkt mit der y-Achse ist der Gesamtmittelwert.

Der Koeffizient für A ist der Effekt für Faktorstufe A. Dies ist die Differenz zwischen dem Mittelwert für Stufe A und dem Gesamtmittelwert.

Der Koeffizient für B ist der Effekt für Faktorstufe B. Dies ist die Differenz zwischen dem Mittelwert für Stufe B und dem Gesamtmittelwert.

Sie berechnen die Effektgröße für Stufe C, indem Sie alle Koeffizienten (ohne den Schnittpunkt mit der y-Achse) addieren und mit –1 multiplizieren: –1 * [(–3,0) + (–0,5)] = 3,5

Sie berechnen die Stufenmittelwerte, indem Sie die Effektgröße und den Gesamtmittelwert addieren:
  • Mittelwert für Stufe A = Koeffizient für A + Schnittpunkt mit y-Achse = –3,0 + 5,0 = 2,0
  • Mittelwert für Stufe B = Koeffizient für B + Schnittpunkt mit y-Achse = –0,5 + 5,0 = 4,5
  • Mittelwert für Stufe C = Schnittpunkt mit y-Achse – Koeffizient für A – Koeffizient für B = 5,0 – (–3,0) – (–0,5) = 5,0 + 3,0 + 0,5 = 8,5

Interpretieren von Kodierungsschemas für Modelle mit zwei Faktoren

Daten für die Beispiele mit zwei Faktoren

Betrachten Sie jetzt ein balanciertes Design mit zwei Faktoren und drei Stufen für den ersten Faktor sowie zwei Stufen für den zweiten Faktor.

C1 C2-T C3-T
Antwort Faktor 1 Faktor 2
1 A Hoch
3 A Niedrig
2 A Hoch
2 A Niedrig
4 B Hoch
6 B Niedrig
3 B Hoch
5 B Niedrig
8 C Hoch
9 C Niedrig
7 C Hoch
10 C Niedrig

Deskriptive Statistik für die Beispiele mit zwei Faktoren

Untersuchen Sie die deskriptive Statistik, und achten Sie auf die Mittelwerte.

Tabelle der Statistiken: Faktor 1; Faktor 2

Zeilen: Faktor 1 Spalten: Faktor 2 Hoch Niedrig Alle A 1,500 2,500 2,000 B 3,500 5,500 4,500 C 7,500 9,500 8,500 Alle 4,167 5,833 5,000 Zellinhalte Antwort : Mittelwert

Beispiel für die Interpretation des Kodierungsschemas für ein (0, 1)-Zellmittelwert-Modell mit zwei Faktoren

So erhalten Sie die folgende Ausgabe:
  1. Wählen Sie Statistik > Regression > Regression > Regressionsmodell anpassen aus.
  2. Geben Sie im Feld Antworten die Spalte Antwort ein.
  3. Geben Sie im Feld Kategoriale Prädiktoren die Spalten Faktor 1 und Faktor 2 ein.
  4. Klicken Sie auf Kodierung. Wählen Sie unter Kodierung für kategoriale Prädiktoren die Option (1, 0) aus.
  5. Wählen Sie unter „Referenzstufe“ C für Faktor 1 und Niedrig für Faktor 2 aus.
  6. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Regressionsanalyse: Antwort vs. Faktor 1; Faktor 2

Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante 9,333 0,391 23,88 0,000 Faktor 1 A -6,500 0,479 -13,58 0,000 1,33 B -4,000 0,479 -8,36 0,000 1,33 Faktor 2 Hoch -1,667 0,391 -4,26 0,003 1,00
Varianzanalyse Quelle DF Kor SS Kor MS F-Wert p-Wert Regression 3 94,3333 31,4444 68,61 0,000 Faktor 1 2 86,0000 43,0000 93,82 0,000 Faktor 2 1 8,3333 8,3333 18,18 0,003 Fehler 8 3,6667 0,4583 Fehlende Anpassung 2 0,6667 0,3333 0,67 0,548 Reiner Fehler 6 3,0000 0,5000 Gesamt 11 98,0000
Erinnern Sie sich, dass die Mittelwerte der Faktorstufen wie folgt lauten:
  • A = 2,0
  • B = 4,5
  • C = 8,5

Die geschätzte Regressionsgleichung lautet:

Regressionsanalyse: Antwort vs. Faktor 1; Faktor 2

Regressionsgleichung Antwort = 9,333 - 6,500 Faktor 1_A - 4,000 Faktor 1_B + 0,0 Faktor 1_C - 1,667 Faktor 2_Hoch + 0,0 Faktor 2_Niedrig

Auch hier lautet der Koeffizient für Stufe A –6,5. Dies ist wieder die Distanz von Stufe A zur Basisstufe (Stufe C). Wenn Sie den Mittelwert für Stufe A vom Mittelwert für die Basisstufe subtrahieren, erhalten Sie den Koeffizienten: 2 – 8,5 = –6,5.

Entsprechend lautet der Koeffizient für Stufe B wieder –4,0. Dies ist die Distanz von Stufe B zur Basisstufe für Faktor 1. Wenn Sie vom Mittelwert für Stufe B den Mittelwert für die Basisstufe subtrahieren, erhalten Sie den Koeffizienten: 4,5 – 8,5 = –4,0.

Schließlich ist der Koeffizient für die Stufe „Hoch“ von Faktor 2 die Distanz zwischen „Hoch“ und der Basisstufe für Faktor 2 („Tief“). Wenn Sie vom Mittelwert für die Stufe „Hoch“ von Faktor 2 den Mittelwert für die Basisstufe für Faktor 2 subtrahieren, erhalten Sie den Koeffizienten: 4,1667 – 5,8333 = –1,667.

Beispiel für die Interpretation des Kodierungsschemas für ein (–1, 0, +1)-Faktoreffekte-Modell mit zwei Faktoren

So erhalten Sie die folgende Ausgabe:
  1. Wählen Sie Statistik > Regression > Regression > Regressionsmodell anpassen aus.
  2. Geben Sie im Feld Antworten die Spalte Antwort ein.
  3. Geben Sie im Feld Kategoriale Prädiktoren die Spalten Faktor 1 und Faktor 2 ein.
  4. Klicken Sie auf Kodierung. Wählen Sie unter Kodierung für kategoriale Prädiktoren die Option (-1, 0, +1) aus.
  5. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Regressionsanalyse: Antwort vs. Faktor 1

Varianzanalyse Quelle DF Kor SS Kor MS F-Wert p-Wert Regression 2 86,00 43,000 32,25 0,000 Faktor 1 2 86,00 43,000 32,25 0,000 Fehler 9 12,00 1,333 Gesamt 11 98,00
Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante 5,000 0,333 15,00 0,000 Faktor 1 A -3,000 0,471 -6,36 0,000 1,33 B -0,500 0,471 -1,06 0,316 1,33

Beachten Sie, dass die Koeffizienten bei diesem Kodierungsschema dem Modell mit einem Faktor entsprechen. Jetzt ist ein zusätzlicher Koeffizient für den zweiten Faktor vorhanden.

Betrachten Sie jetzt den Gesamtmittelwert und die Mittelwerte der Faktorstufen:
  • Gesamtmittelwert = 5,0
  • A = 2,0
  • B = 4,5
  • C = 8,5
  • Hoch = 4,1667
  • Tief = 5,8333

Die Regressionsgleichung lautet:

Regressionsanalyse: Antwort vs. Faktor 1

Regressionsgleichung Antwort = 5,000 - 3,000 Faktor 1_A - 0,500 Faktor 1_B + 3,500 Faktor 1_C
Der Effekt für jede Faktorstufe entspricht dem Stufenmittelwert abzüglich des Gesamtmittelwerts. Folglich ist:
  • Effekt von Stufe A = 2,0 – 5,0 = –3,0
  • Effekt von Stufe B = 4,5 – 5,0 = –0,5
  • Effekt von Stufe C = 8,5 – 5,0 = 3,5
  • Effekt von Stufe „Hoch“ = 4,1667 – 5,0 = –0,883
  • Effekt von Stufe „Tief“ = 5,8333 – 5,0 = 0,883
Hinweis

Wenn nur zwei Stufen und gleiche Stichprobenumfänge vorliegen, weist der Stufeneffekt die gleiche Größe auf, da der Mittelwert genau in der Mitte liegt.

Der Schnittpunkt mit der y-Achse ist der Gesamtmittelwert.

Die Koeffizienten sind die Effekte für die einzelnen Faktorstufen. Sie stellen die Differenz zwischen dem Mittelwert für die betreffende Stufe und dem Gesamtmittelwert dar.