ステップワイズ回帰とベストサブセット回帰の使用

ステップワイズ回帰とは

ステップワイズ回帰は、予測変数の有用なサブセットを識別するために、モデル構築の探索段階で使用される自動化ツールです。この手順では、系統的に最も有意な変数を追加したり、各ステップで有意性が最も低い変数を削除したりします。

たとえば、住宅市場のコンサルティング会社が将来的な販売価格を予測する目的で、前年の住宅販売に関するデータを収集するとします。100以上の予測変数を使用すると、モデルを見つけるのに相当の時間がかかります。Minitabのステップワイズ回帰機能では、検討するモデルの順位を特定します。AICc、BIC、検定 R2、R2、調整済み R2、予測 R2、S、マローズの Cp などの統計量は、モデルの比較に役立ちます。使用するステップワイズ法に合わせて最適なモデルの結果の詳細が表示されます。

Minitabの次の分析では、ステップワイズ選択を自動的に実行できるため、1つの出力セットで多くの潜在的なモデルのモデル要約統計量を評価できます。
  • 予測分析モジュール > 線形回帰
  • 統計 > 回帰 > 回帰 > 回帰モデルの適合
  • 予測分析モジュール > 2値ロジスティック回帰
  • 統計 > 回帰 > 2値ロジスティック回帰 > 2値ロジスティックモデルの適合
  • 統計 > 回帰 > ポアソン回帰 > ポアソンモデルの適合
  • 統計 > 分散分析 > 一般線形モデル > 一般線形モデルの適合
  • 統計 > 実験計画法(DOE) > スクリーニング > スクリーニング計画の分析
  • 統計 > 実験計画法(DOE) > スクリーニング > 2値応答の分析
  • 統計 > 実験計画法(DOE) > 要因計画 > 要因計画の分析
  • 統計 > 実験計画法(DOE) > 要因計画 > 2値応答の分析
  • 統計 > 実験計画法(DOE) > 応答曲面 > 応答曲面計画を分析
  • 統計 > 実験計画法(DOE) > 応答曲面 > 2値応答の分析

ステップワイズ回帰の問題

ベストサブセット(およびステップワイズ回帰)などの変数の選択分析手順を使用する際には、注意が必要です。問題の 1 つは、これらの手順では、アナリストがデータについて持っている可能性のある特別な知識を考慮できないことです。この手順では、予測変数の実際的な重要性を考慮できません。

プロシージャが特別な知識を考慮できないことに関連する問題は、2 つの予測変数が高度に相関している場合、プロシージャは 2 つの予測変数のうち 1 つしか選択できないということです。たとえば、この手順では、安価で測定が容易な予測子を削除して、測定が困難で費用のかかる相関予測子を優先できます。アナリストは、データに関する知識を使用して、手順では考慮できない基準について判断を下す必要があります。

ステップワイズ手順の別の問題は、モデルが異なると異なる基準を最適化できることです。たとえば、調整済み R2 値が最も高いモデルが、必ずしもテスト R2 値が最も高いモデルであるとは限りません。アナリストは、最終的なモデルを選択するために、さまざまな基準を考慮する必要があります。

また、モデルをデータに適合させる場合、適合度はいつでも以下の2つの基本ソースに起因します。
  • データに潜む構造(同じ方法で集められたデータセットに現れる構造)。
  • 分析するデータセットの特性。

モデルが特定のデータセットに適合しないことを確認するには、新しいデータセットに対する選択方法によって見つかるモデルを検証する必要があります。元のデータセットをランダムに2つの部分に分け、そのうちの1部分を使用してモデルを選択して、もう一方の部分の適合度を検証することもできます。この手順により、選択したモデルが他のデータセットに確実に適用されます。自動検証を使用した段階的な手順のセクションに移動して、データを自動的に分割し、検証統計を計算できるコマンドについて学習します。

ステップワイズ手順

Minitabの自動ステップワイズ手順を含むすべての分析には、次の手順が含まれます。次の方法を使用すると、モデルの構築に使用するデータのモデル要約統計量の観点から、多数の異なるモデルをすばやく評価できます。

  • 標準のステップワイズ回帰では、各ステップの予測子が追加または削除されます。Minitabは、モデルに含まれていないすべての変数のp値が指定した[追加するためのα]値より大きくなったとき、およびモデルに含まれるすべての変数のp値が[削除するためのα]値以下になったときに停止します。
  • 前方情報基準法では、各ステップのモデルに最小のp値を持つ項を追加します。分析の設定で非階層の項を考慮することが許可されているものの、各モデルの階層化が必須な場合、追加する項はステップ1のモデルに入力できます。Minitabではステップごとの情報基準を計算します。ほとんどの場合、次のいずれかの条件が生じるまで手順が続行されます。
    • 手順では、8つの連続ステップに対する、基準の新しい最小値は見つかりません。
    • 手順は完全なモデルに適合します。
    • 手順は、誤差に対して1つの自由度を残すモデルに適合します。
    各ステップで階層モデルを要求し、一度に1つの項しか入力できないように手順を指定した場合、手順は、完全なモデルに適合するか、または誤差自由度が1つあるモデルに適合するまで、続きます。選択された情報基準(AICcまたはBIC)の最小値をもつモデルの分析結果が表示されます。
  • 前方選択は、空のモデルまたは指定した項を持つモデルから開始します。その後、Minitabによって各ステップにおいて最も有意な項が追加されます。Minitabは、モデルに含まれていないすべての変数のp値が指定された[追加するためのα]値より大きくなると停止します。
  • 後方削除はモデル内のすべての予測変数で開始され、Minitabはステップごとに有意性の最も低い変数を削除します。Minitabは、モデルに含まれるすべての変数のp値が指定された[削除するためのα]値以下になると停止します。

自動検証によるステップワイズ回帰手順

次のコマンドでは、Minitabの分析に自動検証手法とステップワイズ手順を含めることができます。自動検証により、段階的な手順の後に自分でモデル検証を行うアナリストの時間を節約できます。次のコマンドは、ステップワイズ手順でデータをトレーニングデータセットとテストデータセットに分割できます。

Minitabがテストデータセットで自動的に実行できるステップワイズ手順は、テストデータセットによる検証による前方選択と呼ばれます。この手順では、初期モデルが空であるか、特に選択したモデル項が含まれています。次に、各ステップで最小のp値を持つ次の潜在的な項が追加されます。Minitabでは、各ステップにおけるモデルのテストR2 が、テストデータセットのモデルのR2 値として計算されます。Minitabで表示されるモデル結果は、テストR2 値の最大値を持つモデルに対するものです。

では 回帰モデルの適合、k分割交差検証による前方選択と呼ばれる段階的選択で実行する 2 番目の検証手法を選択できます。K分割交差検証では、データセットはk個のサブセットに分割されます。これらのサブセットはフォールドと呼ばれます。ほとんどの場合、検証では 10 フォールドが使用されますが、他の数値も可能です。折り目には、可能な限り等しい観測数があります。Minitabでは、前方選択をk回実行します。各前方選択について、k–1 フォールドはトレーニング データ セットで、最後のフォールドはテスト データ セットです。他の前方選択手順と同様に、初期モデルは空であるか、特に選択したモデル項が含まれています。次に、各ステップで最小のp値を持つ次の潜在的な項が追加されます。Minitabでは、各ステップについて、さまざまなステップワイズ選択手順からの情報を組み合わせて、K分割ステップワイズR2 値を計算します。

階層

階層モデルは、モデル内の項ごとに、すべての低次の項も含まれているモデルです。たとえば、次の 4 つの因子を持つモデルがあるとします。A、B、C、D。項 A * B * C がモデル内にある場合、項 A、B、C、A*B、A*C、B*C もモデルに含まれている必要がありますが、D の項はモデルに含まれている必要はありません。

ステップでモデルに出入りする項は、階層の仕様によって異なります。デフォルトでは、Minitab Statistical Softwareでは、各ステップで階層モデルが必要であり、すべての項に階層が必要であり、各ステップでモデルに入力できる項は1つだけです。これらの設定により、Minitabが各ステップで考慮する項が制限されます。たとえば、二元交互作用は、交互作用の下位項の両方がすでにモデル内に存在しない限り、モデルに入力できません。これらの設定は、段階的な方法を選択するときにクリック 階層 することで調整できます。

ベストサブセット回帰とは?

ベスト サブセット回帰は、モデル構築の探索的ステージで、予測変数の有用なサブセットを特定するために使用される自動化ツールです。このプロシージャーは、各サイズに対して要求したモデルの数 (1 つの予測子を持つモデル、2 つの予測子を持つモデルなど) のモデル要約結果を表示します。表示されるモデルは、そのサイズの可能なモデルの中でR2 の最大値を持っています。Minitabで最適サブセット回帰を使用するには、を選択します 統計 > 回帰 > 回帰 > ベストサブセット

自動選択手順として、ベストサブセット回帰はステップワイズ回帰と多くの問題を共有します。この手順では、アナリストが持っている専門知識を使用することはできず、異なる基準で同じモデルが識別される保証もありません。予測変数間の相関関係により、最適なモデルの特定が難しくなる可能性があります。新しいデータでモデルを検証すると、モデルのパフォーマンスに対する信頼性が向上します。

ベストサブセット回帰とステップワイズ回帰の比較

最良のサブセットは、Minitab Statistical Softwareでの分析です。ステップワイズ回帰は、いくつかの分析のオプションです。これらの自動モデル選択手法はどちらも、いくつかの異なるモデルの適合に関する情報を提供します。さまざまなモデルから、さらに調査する価値のあるモデルを特定できます。

Minitabの手法の違いは、一方の手法を他方の手法よりも使用するか、両方の手法を使用するかを決定するのに役立ちます。以下は、考慮すべき一般的なポイントです。
特性 ベストサブセット回帰 ステップワイズ回帰
考慮されるモデル 予測子のすべての可能なモデル。 項の統計的有意性によって選択されたモデルのシーケンス。
考慮すべき予測変数の数 最大 31 個の無料予測子と、すべてのモデルで必要な予測子。 制限はありません。
予測変数の種類 ワークシートの数値列。 テキスト列または数値列に加えて、交互作用項およびその他の高次項。
応答変数の種類 1 つの数値列。 Minitabの異なる分析では、異なるタイプの応答変数を分析できます。ステップワイズ回帰では、連続応答変数、2値応答変数、またはポアソン応答変数の分析を選択できます。
結果 結果には、データの適合度を調査するモデルの要約統計量が含まれます。残差プロットなどの完全な回帰結果を表示するには、次のような 回帰モデルの適合分析で選択したモデルを調べます。 分析では、選択した基準に従って、最適なモデルの完全な回帰結果が表示されます。また、プロシージャの各ステップのモデル要約統計量を調べるように選択することもできます。