回帰モデルの適合のステップワイズ回帰の実行

統計 > 回帰 > 回帰 > 回帰モデルの適合 > ステップワイズ

方法

ステップワイズは、項の有用なサブセットを識別するために、項を削除したりモデルに追加したりします。ステップワイズ手順を選択した場合、モデルダイアログボックスで指定する項が最終モデルの候補になります。詳細については、ベストサブセット回帰とステップワイズ回帰の使用を参照してください。

モデルの適合に使用する方法を指定します。
  • なし:モデル ダイアログボックスで指定するすべての項を使ってモデルを適合します。
  • ステップワイズ:この方法は、空のモデルか、最初のモデルまたは全モデルに含むように指定した項を含んだ状態から開始します。その後、ステップごとに項が追加または削除されます。最初のモデルに含める項や、すべてのモデルに強制的に含める項を指定することができます。Minitabは、モデルに含まれていないすべての変数のp値が指定された変数追加時のα値より大きくなったとき、およびモデルに含まれるすべての変数のp値が指定された変数削除時のα値以下になったときに停止します。
  • 前方選択:この方法は、空のモデルか、最初のモデルまたは全モデルに含むように指定した項を含んだ状態から開始します。その後、ステップごとに最も有意な項が追加されます。MInitabは、モデルに含まれていないすべての変数のp値が指定された変数追加時のα値より大きくなると停止します。
  • 後方削除:この方法は、モデル内のすべての潜在的な項から開始し、ステップごとに最も有意性の低い項を削除します。Minitabは、モデル内のすべての変数のp値が指定された変数削除時のα値以下になると停止します。
  • 前方情報基準:前方情報基準法では、ステップごとにp値が最も小さい項がモデルに追加されます。分析の設定で非階層の項を考慮できるものの、各モデルを階層化する必要がある場合は、ステップ1で追加の項を入力できます。各ステップの情報基準が計算されます。ほとんどの場合、次のいずれかの条件が生じるまで手順が続行されます。
    • 手順では、8つの連続ステップに対する基準の改善は見つかりません。
    • 手順は完全なモデルに適合します。
    • 手順は、誤差の自由度を1つ残すモデルに適合します。
    各ステップで階層モデルを必要とする手順の設定を指定し、一度に 1 つの項のみを入力できるようにする場合、この手順は、完全なモデルに適合するか、誤差の自由度が 1つ残るモデルに適合するまで続行されます。選択された情報基準(AICcまたはBIC)の最小値をもつモデルの分析結果が表示されます。
  • 検証のある前方選択:検証のある前方選択の手順は、検証法によって異なります。テストデータセットを使用する場合、手順は前方選択に似ています。各ステップの最後に、テストR2統計量が計算されます。前方選択手順の最後に、最大のテストの R2値をもつモデルが最終モデルになります。

    交差検証では、手順は各分割で前方選択を繰り返します。この手順では、各ステップですべての分割を評価し、最適なK分割ステップワイズのR2値のステップを識別します。手順の最後の部分では、データセット全体に対して前方選択を実行し、分割の選択から最適なステップで停止します。

    どちらの種類の検証でも、前方情報基準法と同じ条件で手順が停止します。

最終モデルに含まれる項は、モデルの階層の制限によって異なる場合があります。詳細については、以下の階層に関するトピックを参照してください。

ポテンシャル項

手順により評価される項のセットを表示します。リストの項の横にある指標(EまたはI)は、手順によって項がどのように扱われるかを指定します。選択した方法がこのリストの初期設定を決定します。手順による項の扱いは、下の2つのボタンで変更することができます。ボタンを使用しない場合、手順ではモデルに対し、そのp値に基づいて項の追加や削除が行われます。
  • E = すべてのモデルに項を含める:を選択してこのボタンをクリックすると、p値にかかわらず全てのモデルに強制的に項が追加されます。再度クリックすると、この設定を解除することができます。
  • I = 最初のモデルに項を含める:項を選択してこのボタンをクリックすると、最初のモデルにその項が含まれます。手順では、p値が高すぎる場合はその項の削除が可能です。再度クリックすると、この設定を解除することができます。このボタンは方法ステップワイズを選択した場合のみ有効です。

変数追加時のαと削除

変数追加時のα
モデルに項を追加できるかどうかをMinitabが判断するためのα値を入力します。方法ステップワイズまたは前方選択を選択した場合にこの値を設定できます。
変数削除時のα
モデルから項が削除されたかどうかをMinitabが判断するためのα値を入力します。方法ステップワイズまたは後方削除を選択した場合にこの値を設定できます。

基準

前方選択で使用する情報基準を指定します。

AICcとBICは両方とも、モデルの尤度を評価し、モデルに項を追加したときにペナルティを適用します。このペナルティにより、モデルがサンプルデータに過剰適合する傾向を減少させます。こうした減少により、通常のモデルのパフォーマンスを改善できます。

一般的なガイドラインとして、パラメーター数がサンプルサイズよりも少ない場合、BICにおける各パラメーターの追加に対するペナルティはAICcよりも大きくなります。これらのケースでは、BICを最小化するモデルは、AICcを最小化するモデルよりも小さくなる傾向があります。

スクリーニング計画などのよくある一部のケースでは、一般的に、パラメーター数はサンプルサイズよりも多くなります。これらのケースでは、AICcを最小化するモデルは、BICを最小化するモデルよりも小さくなる傾向があります。たとえば、実行数が13の決定的スクリーニング計画では、AICcを最小化するモデルは、6個以上のパラメーターを持つ1組のモデル内ではBICを最小化するモデルよりも小さくなる傾向があります。

AICcとBICに関する詳細は、Burnham and Anderson(1を参照してください。

検証のある前方選択の検証の指定

検証の設定は、 検証サブダイアログボックスにも表示されます。設定を変更すると、両方の箇所で設定が自動的に更新されます。

検証のある前方選択を選択する場合、モデルをテストする検証法を選びます。通常、サンプルが小さい場合は、K分割公差検証法が適しています。サンプルが大きい場合は、データをトレーニングデータセットとテストデータセットに分割できます。

K分割交差検証

次の手順を実行して、K分割交差検証を使用します。

  1. ドロップダウンリストから、K分割交差検証を選択します。
  2. 次のいずれかを選択して、分割をランダムに割り当てるか、ID列で割り当てるかを指定します。
    • 各分割の行をランダムに割り当てる:各分割に関して行をランダムに選択するには、このオプションを選択します。分割の数を指定できます。ほとんどの場合、デフォルト値の10が良好に機能します。Kの値を小さくすると、より大きな偏りが生じる可能性があります。しかし、Kの値が大きいほど、変動性が大きくなる可能性があります。乱数生成器の初期値を設定することもできます。
    • ID列ごとに各分割の行を割り当てる:各分割に含める行を選択するには、このオプションを選択します。ID列に、分割を識別する列を入力します。ID列に同じ値をもつ各行が、同じ分割になります。

テストセットによる検証

データをトレーニングデータセットとテストデータセットに分割するには、以下のステップを実行します。

  1. ドロップダウンリストからテストセットによる検証を選択します。
  2. 次のいずれかを選択して、行のある割合をランダムに選択するか、ID列で行のある割合を選択するかを指定します。
    • テストセットとして行のある割合をランダムに選択する:テストデータセットをランダムに選択するには、このオプションを選択します。テストデータセットで使用するデータの量を指定できます。ほとんどの場合、デフォルト値の0.3が良好に機能します。モデルを良好に評価するために、テストデータセットに十分なデータを含める必要があります。モデルの形式が不明な場合は、テストデータセットを大きくすると、より強力な検証が提供されます。また、モデルを良好に推定するために、トレーニングデータセットにも十分なデータを含める必要があります。通常、より多くの予測変数をもつモデルは、推定のためにより多くのトレーニングデータを必要とします。
    • ID列でのトレーニング/テスト分割を定義する:テストデータセットに含める行を自分で選択するには、このオプションを選択します。 ID列に、テストサンプルに使用する行を示す列を入力します。ID列には2つの値のみを含める必要があります。テストセットのレベルで、テスト サンプルとして使用する水準を選択します。

階層

ステップワイズの手順中に、どのようにモデルの階層を組み込むかを決めることができます。モデルダイアログボックスに非階層モデルを指定した場合、階層ボタンは無効になります。

階層モデルでは、高次の項を構成するすべての低次の項もモデルに組み込まれています。たとえば、交互作用項A*B*Cを含むモデルがA、B、C、A*B、A*C、B*Cを含む場合、このモデルは階層的です。

モデルは非階層になることもあります。一般的に、低次項が有意でなければ、対象分野の知識から含める方が良いと考えられる場合を除き、その低次項を削除できます。項が多すぎるモデルは、相対的に精度が下がる可能性があり、新しい観測値の予測能力を低下させることがあります。

以下の情報を考慮に入れて下さい。
  • まず階層モデルを適合させます。有意でない項は後で削除できます。
  • 連続予測変数を標準化する場合、階層モデルを適合させて非コード化(または通常の)単位の式を作成します。
  • モデルにカテゴリ変数が含まれている場合、少なくともカテゴリ項が階層化されていれば、結果の解釈が容易になります。
階層型モデル
ステップワイズの手順で階層モデルの生成が必須かどうかを選択します。
  • 各ステップで階層型モデルを必須とする:階層を維持する項のみ追加、削除することができます。
  • モデルを階層型にするために項を最後に追加:最初のステップでは、Minitabはステップワイズ手順の標準規則に従います。最終ステップで、p値が変数追加時のαよりも大きい場合でも、階層モデルを生成する項を追加します。方法前方情報基準のときにこのオプションを選択した場合、誤差が表示されます。モデル内の基準を各ステップで最小化する階層モデルを取得するには、各ステップで階層型モデルを必須とするを選択します。
  • 階層型モデルを必須しない:最終モデルは非階層型でも可とします。Minitabはステップワイズ手順の規則に従ってのみ、項の追加や削除を行います。
次の項では階層が必須
階層モデルを必要とする場合、選択する項の種類は階層型でなければなりません。
  • すべての項:連続変数・カテゴリ変数を含む項は階層型である必要があります。
  • カテゴリ予測変数の項:カテゴリ変数を含む項のみ、階層型である必要があります。
各ステップで入力できる項数
各ステップで階層が必要な場合、階層を維持するために各ステップでMinitabに追加を許可する項の数を選択します。
  • 各ステップで項を1つだけ入力できます:高次の項を1つ追加しても階層が維持される場合のみ、高次の項を追加できます。高次の項を構成するすべての低次の項は、すでにモデルに取り込まれている必要があります。
  • 階層を維持するには、余分な項を入力します:その高次の項を追加することによって非階層型モデルを生成するとしても、高次の項を追加します。ただし、階層モデルを生成するのに必須の項も、そのp値が変数追加時のα値より大きくても追加されます。

モデル選択詳細の表を表示する

表示するステップワイズの手順の情報を指定します。
  • この方法の詳細:ステップワイズ手順のタイプと、モデルに対し予測変数を追加・削除するためのα値を表示します。
  • 各項目で詳細を含める: 手順の各ステップの係数、p値、モデルの要約統計量を表示します。

R二乗対ステップのグラフを表示する

検証のある前方選択を選択すると、トレーニングのプロットと、前方選択の各ステップの検証R2値を表示します。通常、このプロットを使用して、より単純なモデルに類似した検証値があるかどうかを判断します。

1 Burnham, K. P., & Anderson, D. R.(2004年)「Multimodel inference: Understanding AIC and BIC in model selection.」、Sociological Methods & Research第33(2)巻、261~304ページ、doi:10.1177/0049124104268644