ステップワイズ回帰は、予測変数の有用なサブセットを識別するために、モデル構築の探索段階で使用される自動化ツールです。この手順では、系統的に最も有意な変数を追加したり、各ステップで有意性が最も低い変数を削除したりします。
たとえば、住宅市場のコンサルティング会社が将来的な販売価格を予測する目的で、前年の住宅販売に関するデータを収集するとします。100以上の予測変数を使用すると、モデルを見つけるのに相当の時間がかかります。Minitabのステップワイズ回帰機能では、検討するモデルの順位を特定します。AICc、BIC、検定 R2、R2、調整済み R2、予測 R2、S、マローズの Cp などの統計量は、モデルの比較に役立ちます。使用するステップワイズ法に合わせて最適なモデルの結果の詳細が表示されます。
ベストサブセット(およびステップワイズ回帰)などの変数の選択分析手順を使用する際には、注意が必要です。問題の 1 つは、これらの手順では、アナリストがデータについて持っている可能性のある特別な知識を考慮できないことです。この手順では、予測変数の実際的な重要性を考慮できません。
プロシージャが特別な知識を考慮できないことに関連する問題は、2 つの予測変数が高度に相関している場合、プロシージャは 2 つの予測変数のうち 1 つしか選択できないということです。たとえば、この手順では、安価で測定が容易な予測子を削除して、測定が困難で費用のかかる相関予測子を優先できます。アナリストは、データに関する知識を使用して、手順では考慮できない基準について判断を下す必要があります。
ステップワイズ手順の別の問題は、モデルが異なると異なる基準を最適化できることです。たとえば、調整済み R2 値が最も高いモデルが、必ずしもテスト R2 値が最も高いモデルであるとは限りません。アナリストは、最終的なモデルを選択するために、さまざまな基準を考慮する必要があります。
モデルが特定のデータセットに適合しないことを確認するには、新しいデータセットに対する選択方法によって見つかるモデルを検証する必要があります。元のデータセットをランダムに2つの部分に分け、そのうちの1部分を使用してモデルを選択して、もう一方の部分の適合度を検証することもできます。この手順により、選択したモデルが他のデータセットに確実に適用されます。自動検証を使用した段階的な手順のセクションに移動して、データを自動的に分割し、検証統計を計算できるコマンドについて学習します。
Minitabの自動ステップワイズ手順を含むすべての分析には、次の手順が含まれます。次の方法を使用すると、モデルの構築に使用するデータのモデル要約統計量の観点から、多数の異なるモデルをすばやく評価できます。
Minitabがテストデータセットで自動的に実行できるステップワイズ手順は、テストデータセットによる検証による前方選択と呼ばれます。この手順では、初期モデルが空であるか、特に選択したモデル項が含まれています。次に、各ステップで最小のp値を持つ次の潜在的な項が追加されます。Minitabでは、各ステップにおけるモデルのテストR2 が、テストデータセットのモデルのR2 値として計算されます。Minitabで表示されるモデル結果は、テストR2 値の最大値を持つモデルに対するものです。
では 回帰モデルの適合、k分割交差検証による前方選択と呼ばれる段階的選択で実行する 2 番目の検証手法を選択できます。K分割交差検証では、データセットはk個のサブセットに分割されます。これらのサブセットはフォールドと呼ばれます。ほとんどの場合、検証では 10 フォールドが使用されますが、他の数値も可能です。折り目には、可能な限り等しい観測数があります。Minitabでは、前方選択をk回実行します。各前方選択について、k–1 フォールドはトレーニング データ セットで、最後のフォールドはテスト データ セットです。他の前方選択手順と同様に、初期モデルは空であるか、特に選択したモデル項が含まれています。次に、各ステップで最小のp値を持つ次の潜在的な項が追加されます。Minitabでは、各ステップについて、さまざまなステップワイズ選択手順からの情報を組み合わせて、K分割ステップワイズR2 値を計算します。
階層モデルは、モデル内の項ごとに、すべての低次の項も含まれているモデルです。たとえば、次の 4 つの因子を持つモデルがあるとします。A、B、C、D。項 A * B * C がモデル内にある場合、項 A、B、C、A*B、A*C、B*C もモデルに含まれている必要がありますが、D の項はモデルに含まれている必要はありません。
ステップでモデルに出入りする項は、階層の仕様によって異なります。デフォルトでは、Minitab Statistical Softwareでは、各ステップで階層モデルが必要であり、すべての項に階層が必要であり、各ステップでモデルに入力できる項は1つだけです。これらの設定により、Minitabが各ステップで考慮する項が制限されます。たとえば、二元交互作用は、交互作用の下位項の両方がすでにモデル内に存在しない限り、モデルに入力できません。これらの設定は、段階的な方法を選択するときにクリック 階層 することで調整できます。
ベスト サブセット回帰は、モデル構築の探索的ステージで、予測変数の有用なサブセットを特定するために使用される自動化ツールです。このプロシージャーは、各サイズに対して要求したモデルの数 (1 つの予測子を持つモデル、2 つの予測子を持つモデルなど) のモデル要約結果を表示します。表示されるモデルは、そのサイズの可能なモデルの中でR2 の最大値を持っています。Minitabで最適サブセット回帰を使用するには、を選択します 。
自動選択手順として、ベストサブセット回帰はステップワイズ回帰と多くの問題を共有します。この手順では、アナリストが持っている専門知識を使用することはできず、異なる基準で同じモデルが識別される保証もありません。予測変数間の相関関係により、最適なモデルの特定が難しくなる可能性があります。新しいデータでモデルを検証すると、モデルのパフォーマンスに対する信頼性が向上します。
最良のサブセットは、Minitab Statistical Softwareでの分析です。ステップワイズ回帰は、いくつかの分析のオプションです。これらの自動モデル選択手法はどちらも、いくつかの異なるモデルの適合に関する情報を提供します。さまざまなモデルから、さらに調査する価値のあるモデルを特定できます。
特性 | ベストサブセット回帰 | ステップワイズ回帰 |
---|---|---|
考慮されるモデル | 予測子のすべての可能なモデル。 | 項の統計的有意性によって選択されたモデルのシーケンス。 |
考慮すべき予測変数の数 | 最大 31 個の無料予測子と、すべてのモデルで必要な予測子。 | 制限はありません。 |
予測変数の種類 | ワークシートの数値列。 | テキスト列または数値列に加えて、交互作用項およびその他の高次項。 |
応答変数の種類 | 1 つの数値列。 | Minitabの異なる分析では、異なるタイプの応答変数を分析できます。ステップワイズ回帰では、連続応答変数、2値応答変数、またはポアソン応答変数の分析を選択できます。 |
結果 | 結果には、データの適合度を調査するモデルの要約統計量が含まれます。残差プロットなどの完全な回帰結果を表示するには、次のような 回帰モデルの適合分析で選択したモデルを調べます。 | 分析では、選択した基準に従って、最適なモデルの完全な回帰結果が表示されます。また、プロシージャの各ステップのモデル要約統計量を調べるように選択することもできます。 |