ステップワイズ回帰は、予測変数の有用なサブセットを識別するために、モデル構築の探索段階で使用される自動化ツールです。この手順では、系統的に最も有意な変数を追加したり、各ステップで有意性が最も低い変数を削除したりします。
たとえば、住宅市場のコンサルティング会社が将来的な販売価格を予測する目的で、前年の住宅販売に関するデータを収集するとします。100以上の予測変数を使用すると、モデルを見つけるのに相当の時間がかかります。Minitabのステップワイズ回帰機能では、検討するモデルの順位を特定します。AICc、BIC、R2、調整済みR2、予測R2、S、マローズのCpなどの統計量は、モデルの比較に役立ちます。使用するステップワイズ法に合わせて最適なモデルの結果の詳細が表示されます。
ベストサブセット(およびステップワイズ回帰)などの変数の選択分析手順を使用する際には、注意が必要です。自動選択手法では、分析者の専門知識は考慮されません。この手順では、どの予測変数の実際的な重要性も考慮できません。
プロシージャが特別な知識を考慮できないことに関連する問題は、2つの予測変数が高度に相関している場合、どちらかが重要であるにもかかわらず、2つの予測変数のうちの1つだけを選択できることです。たとえば、この手順では、測定が困難でコストのかかる相関予測変数を優先して、安価で測定しやすい予測変数を削除できます。アナリストは、データに関する知識を使用して、手順で考慮できない基準を判断する必要があります。
ステップワイズ手順のもう 1 つの問題は、異なるモデルが異なる基準を最適化できることです。たとえば、最も高い調整 R2 値を持つモデルは、必ずしもテスト R2 値が最も高いモデルとは限りません。分析者は、最終的なモデルを選択するために、異なる基準を考慮する必要があります。
モデルが特定のデータセットに適合しないことを確認するには、新しいデータセットに対する選択方法によって見つかるモデルを検証する必要があります。元のデータセットをランダムに2つの部分に分け、そのうちの1部分を使用してモデルを選択して、もう一方の部分の適合度を検証することもできます。この手順により、選択したモデルが他のデータセットに確実に適用されます。自動検証を使用したステップワイズ手順のセクションに進み、データを自動的にパーティション分割し、検証統計を計算できるコマンドについて学習します。
Minitabの自動ステップワイズ手順を含むすべての解析には、以下の手順が含まれます。次の方法を使用すると、モデルの構築に使用するデータのモデルの要約統計量に関して、多数の異なるモデルをすばやく評価できます。
テストデータセットで自動的に実行できるステップワイズ手順は、テストデータセットを使用した検証で前方選択と呼ばれます。この手順では、初期モデルが空であるか、特に選択したモデル項が含まれています。次に、Minitabでは、次の潜在的な項を各ステップで最小のp値で追加します。Minitabでは、各ステップでのモデルのテストR2が、テストデータセットのモデルのR2値として計算されます。Minitabが提示するモデル結果は、テストR2値の最大値を持つモデルに対して表示されます。
回帰モデルの適合の場合、2 番目の検証手法を選択して、順方向選択と呼ばれる順方向選択を実行し、k 折り曲げクロス検証を使用できます。K折りクロス検証では、データセットをkサブセットに分割します。これらのサブセットは、折り目と呼ばれます。ほとんどの場合、検証には 10 倍の値が使用されますが、他の数値も使用できます。折り目は、可能な限り同じ数の観測値を持ちます。Minitabは、前方選択k回を実行します。各フォワード選択では、k-1 折り目がトレーニング データ セットで、最後のフォールドがテスト データセットです。他の前方選択手順と同様に、初期モデルは空であるか、特に選択したモデル項が含まれています。次に、Minitabでは、次の潜在的な項を各ステップで最小のp値で追加します。ステップごとに、異なるステップワイズ選択手順の情報を組み合わせることで、K倍のステップワイズR2値が計算されます。
階層モデルは、モデル内の項ごとに、すべての低次の項も含まれているモデルです。たとえば、A、B、C、Dの4つの因子を持つモデルがあるとします。項A*B*Cがモデルに入っていて、項A、B、C、A*B、A*C、B*Cもまたモデルに入っている場合は、Dを含む任意の項がモデルに入っている必要はありません。
ステップでモデルに入力または残す項は、階層の仕様によって異なります。デフォルトでは、Minitab統計ソフトウェアでは、各ステップで階層モデルが必要で、すべての項に階層が必要であり、各ステップで1つの項のみがモデルに入ることを許可します。これらの設定では、各ステップで考慮する用語が制限されます。たとえば、交互作用の下位の項の両方がすでにモデルに存在しない限り、双方向の交互作用はモデルに入ることができません。これらの設定は、 階層 ステップワイズ方式を選択すると、
ステップワイズ回帰は、予測変数の有用なサブセットを識別するために、モデル構築の探索段階で使用される自動化ツールです。この手順では、各サイズに対して要求するモデルの数 (1 つの予測変数を持つモデル、2 つの予測変数を持つモデルなど) のモデルの概要結果が表示されます。表示されるモデルは、そのサイズの可能なモデルの中でR2の最高値を持っています。Minitab でベストサブセット回帰を使用するには、 を選択します。
自動選択手順として、最良サブセット回帰は、ステップワイズ回帰で多くの問題を共有します。この手順では、アナリストが持つ専門的な知識を使用することも、異なる基準で同じモデルを識別するという保証もありません。予測変数間の相関関係により、最適なモデルの識別がより困難になる可能性があります。新しいデータを使用してモデルを検証すると、モデルのパフォーマンスに対する信頼性が高まります。
ベストサブセットは、Minitab統計ソフトウェアの分析です。ステップワイズ回帰は、いくつかの分析でオプションです。これらの自動モデル選択手法はどちらも、複数の異なるモデルの適合に関する情報を提供します。さまざまなモデルから、さらに探索する必要があるモデルを特定できます。
特性 | ベストサブセット回帰 | ステップワイズ回帰 |
---|---|---|
検討されるモデル | 予測変数のすべての可能なモデル。 | 項の統計的有意性によって選択されるモデルのシーケンス。 |
考慮する予測変数の数 | 最大 31 個の無料予測変数に加えて、すべてのモデルで必要な予測変数。 | 設定された制限はありません。 |
予測変数の種類 | ワークシートで列を隠す | テキストまたは数値列に加えて、交互作用の用語やその他の上位の用語。 |
応答変数のタイプ | 数値列。 | Minitabの異なる分析では、さまざまなタイプの応答変数を分析できます。ステップワイズ回帰では、連続応答変数、二項応答変数、またはポアソン応答変数の分析を選択できます。 |
結果 | 結果には、データの適合を調べるモデル要約統計が含まれます。残差プロットなどの完全な回帰結果を表示するには、選択したモデルを 次のような分析で調べます回帰モデルの適合。 | この分析では、選択した基準に従って、最適なモデルの完全な回帰結果が表示されます。また、手順の各ステップのモデル要約統計量を確認することもできます。 |