カテゴリ予測変数のコード化方式

このトピックの内容

カテゴリ予測変数のコード化方式とは
コード化方式の変更方法
コード化方式の仕組み

カテゴリ予測変数のコード化方式とは

カテゴリ予測変数で最小二乗回帰、ロジスティック回帰、ポアソン回帰の分析の実行時、コード化方式を使用して、カテゴリ予測変数から指標変数を作成します。デフォルトのコード化方式は1,0で（バイナリコード化またはダミーコード化とも呼ばれる）は、一般に回帰分析で使用されます。

1,0のコード化を使用すると、係数は因子水準と参照水準の間の距離を表します。
1,0,-1のコード化を使うと、係数は因子水準と全体平均の間の距離を表します。

デフォルトで1, 0コーディングの値をもつ予測変数の場合、データ型に基づいて以下の参照水準を設定します。

数値カテゴリ予測変数の場合、参照水準は最小の数値が設定された水準です。
日付・時刻カテゴリ予測変数の場合、参照水準は最も早い日付か時刻に設定された水準です。
テキストカテゴリ予測変数の場合、参照水準は、デフォルトのアルファベット順で最初になる水準です。

デフォルトで-1、0、1コーディングの値をもつ予測変数の場合、データ型に基づいて以下の参照水準を設定します。

数値カテゴリ予測変数の場合、参照水準は最大の数値が設定された水準です。
日付・時刻カテゴリ予測変数の場合、参照水準は最新の日付か時刻に設定された水準です。
カテゴリ予測変数がテキストの場合、参照水準はアルファベット順で最後になる水準です。

コード化方式の変更方法

回帰モデルの適合や2値ロジスティックモデルの当てはめなどの回帰分析では、デフォルトで1,0コード化を使用します。コード化方式を-1,0,1に変更したい場合は、コード化サブダイアログボックスに移動します。偏最小二乗回帰では、オプションサブダイアログボックスで参照水準を変更できます。

コード化方式の仕組み

一般回帰モデルにカテゴリ予測変数を含めるには、カテゴリをコード化して回帰式に含めます。回帰ではこれを自動的に実行し、使用するコード化方式に基いてカテゴリ予測変数の列を作成します。各因子水準（参照水準を除く）に対してコード列が1つ作成されます。列が作成され、その列グループに属す行があると1が割り当てられます。参照水準の列は作成されません。コード化方式と計画行列についての詳細は、Minitabによる回帰での計画行列の使用方法を参照してください。

次の例では、香港、ロンドン、ニューヨークの3つの水準を持つ位置のカテゴリ予測変数にコード化方式がどのように作用するかを示しています。コード化方式が-1,0,1の場合、デフォルトの参照水準はニューヨークです。ニューヨークに対して作成された列はなく、ニューヨークに関する係数が出力の係数表に表示されています。香港とロンドンに対して1つの列が作成され、列の行がニューヨーク（参照水準）に対応する場合、-1が割り当てられます。

位置が以下の場合	香港	ロンドン
香港	1	0
ロンドン	0	1
ニューヨーク	-1	-1

コード化方式が1,0の場合、デフォルトの参照水準は、アルファベット順の最初のものなので、香港になります。香港に対して作成された列はなく、香港に関する係数が出力の係数表に表示されています。ロンドンとニューヨークに対して1つの列が作成されます。

位置が以下の場合	ロンドン	ニューヨーク
香港	0	0
ロンドン	1	0
ニューヨーク	0	1

適合回帰モデルの係数の解釈に関する詳細はカテゴリ予測変数の解釈を参照してください。

2値ロジスティック回帰モデルの係数の解釈に関する詳細は2値ロジスティック回帰で推定された係数の解釈を参照してください。