Was sind Kodierungsschemas für kategoriale Prädiktoren?

Wenn Sie eine Regression kleinster Quadrate, eine logistische Regression oder eine Poisson-Regressionsanalyse mit kategorialen Prädiktoren durchführen, erstellt Minitab mit Hilfe eines Kodierungsschemas Indikatorvariablen aus dem kategorialen Prädiktor. In Regressionsanalysen wird häufig das Standardkodierungsschema (1, 0) verwendet, das auch als binäre oder Dummy-Kodierung bezeichnet wird.
  • Bei der (1, 0)-Kodierung stellen die Koeffizienten die Distanz zwischen den Faktorstufen und der Referenzstufe dar.
  • Bei der (–1, 0, 1)-Kodierung stellen die Koeffizienten die Distanz zwischen den Faktorstufen und dem Gesamtmittelwert dar.
Für Prädiktoren mit (1, 0)-Kodierung legt Minitab standardmäßig folgende Referenzstufen auf der Grundlage des Datentyps fest:
  • Für kategoriale numerische Prädiktoren ist die Referenzstufe die Stufe mit dem kleinsten numerischen Wert.
  • Für kategoriale Datums-/Uhrzeitprädiktoren ist die Referenzstufe die Stufe mit dem frühesten Datums-/Uhrzeitwert.
  • Für kategoriale Textprädiktoren ist die Referenzstufe die Stufe, die an erster Stelle in der Wertereihenfolge steht, bei der es sich standardmäßig um die alphabetische Reihenfolge handelt.
Für Prädiktoren mit (–1, 0, 1)-Kodierung legt Minitab standardmäßig folgende Referenzstufen auf der Grundlage des Datentyps fest:
  • Für kategoriale numerische Prädiktoren ist die Referenzstufe die Stufe mit dem größten numerischen Wert.
  • Für kategoriale Datums-/Uhrzeitprädiktoren ist die Referenzstufe die Stufe mit dem spätesten Datums-/Uhrzeitwert.
  • Für kategoriale Textprädiktoren ist die Referenzstufe die letzte Stufe in alphabetischer Reihenfolge.

So ändern Sie das Kodierungsschema

In Regressionsanalysen, darunter Regressionsmodell anpassen und Binäres logistisches Modell anpassen, verwendet Minitab standardmäßig die (1, 0)-Kodierung. Wenn Sie das Kodierungsschema in (–1, 0, 1) ändern möchten, rufen Sie das Unterdialogfeld Kodierung auf. Für Regression der partiellen kleinsten Quadrate können Sie die Referenzstufe im Unterdialogfeld Optionen ändern.

Wie funktionieren Kodierungsschemas?

Zum Einbinden von kategorialen Prädiktoren im allgemeinen Regressionsmodell kodiert Minitab die Kategorien, so dass sie in die Regressionsgleichung eingebunden werden können. Im Rahmen der Regression werden automatisch Spalten für die kategorialen Prädiktoren entsprechend dem verwendeten Kodierungsschema erstellt. Für jede Faktorstufe mit Ausnahme der Referenzstufe wird eine Spalte mit Kodes erstellt. Minitab erstellt Spalten und weist eine 1 zu, wenn eine Zeile zu der Spaltengruppe gehört. Für die Referenzstufe wird keine Spalte erstellt. Weitere Informationen zum Kodierungsschema und zur Designmatrix finden Sie unter So verwendet Minitab die Designmatrix für die Regression.

Die folgenden Beispiele zeigen, wie Kodierungsschemas für einen kategorialen Prädiktor für „Ort“ mit drei Stufen (Hongkong, London und New York) funktionieren. Wenn das Kodierungsschema (–1, 0, 1) ist, ist die Standardreferenzstufe New York. Für New York wird keine Spalte erstellt, und in der Koeffiziententabelle in der Ausgabe wird kein Koeffizient für New York gezeigt. Für Hongkong und London wird eine Spalte erstellt, und wenn die Zeile irgendeiner Spalte „New York“ (die Referenzstufe) enthält, wird ihr der Wert –1 zugewiesen.

Wenn der Ort folgendem Wert entspricht Hongkong London
Hongkong 1 0
London 0 1
New York -1 -1

Wenn das Kodierungsschema (1, 0) ist, ist die Standardreferenzstufe Hongkong, da Hongkong in der alphabetischen Reihenfolge an erster Stelle steht. Für Hongkong wird keine Spalte erstellt, und in der Koeffiziententabelle in der Ausgabe wird kein Koeffizient für Hongkong gezeigt. Für London und New York wird eine Spalte erstellt.

Wenn der Ort folgendem Wert entspricht London New York
Hongkong 0 0
London 1 0
New York 0 1

Weitere Informationen zur Interpretation der Koeffizienten aus „Regressionsmodell anpassen“ finden Sie unter Interpretieren von kategorialen Prädiktoren.

Weitere Informationen zur Interpretation der Koeffizienten aus „Binäre logistische Regression anpassen“ finden Sie unter Interpretieren der geschätzten Koeffizienten in der binären logistischen Regression.