ベストサブセット回帰とステップワイズ回帰の使用

ステップワイズ回帰とは

ステップワイズ回帰は、予測変数の有用なサブセットを識別するために、モデル構築の探索段階で使用される自動化ツールです。この手順では、系統的に最も有意な変数を追加したり、各ステップで有意性が最も低い変数を削除したりします。

たとえば、住宅市場のコンサルティング会社が将来的な販売価格を予測する目的で、前年の住宅販売に関するデータを収集するとします。100以上の予測変数を使用すると、モデルを見つけるのに相当の時間がかかります。Minitabのステップワイズ回帰機能では、検討するモデルの順位を特定します。AICc、BIC、R2、調整済みR2、予測R2、S、マローズのCpなどの統計量は、モデルの比較に役立ちます。使用するステップワイズ法に合わせて最適なモデルの結果の詳細が表示されます。

Minitabの次の分析では、1セットの出力で多数のモデルのモデル要約統計量を評価できるように、自動的にステップワイズ選択を実行できます。
  • 統計 > 回帰 > 回帰 > 回帰モデルの適合
  • 統計 > 回帰 > 2値ロジスティック回帰 > 2値ロジスティックモデルの適合
  • 統計 > 回帰 > ポアソン回帰 > ポアソンモデルの適合
  • 統計 > 分散分析 > 一般線形モデル > 一般線形モデルの適合
  • 統計 > 実験計画法(DOE) > スクリーニング > スクリーニング計画の分析
  • 統計 > 実験計画法(DOE) > スクリーニング > 2値応答の分析
  • 統計 > 実験計画法(DOE) > 要因計画 > 要因計画の分析
  • 統計 > 実験計画法(DOE) > 要因計画 > 2値応答の分析
  • 統計 > 実験計画法(DOE) > 応答曲面 > 応答曲面計画を分析
  • 統計 > 実験計画法(DOE) > 応答曲面 > 2値応答の分析

ステップワイズ回帰の問題

ベストサブセット(およびステップワイズ回帰)などの変数の選択分析手順を使用する際には、注意が必要です。自動選択手法では、分析者の専門知識は考慮されません。この手順では、どの予測変数の実際的な重要性も考慮できません。

プロシージャが特別な知識を考慮できないことに関連する問題は、2つの予測変数が高度に相関している場合、どちらかが重要であるにもかかわらず、2つの予測変数のうちの1つだけを選択できることです。たとえば、この手順では、測定が困難でコストのかかる相関予測変数を優先して、安価で測定しやすい予測変数を削除できます。アナリストは、データに関する知識を使用して、手順で考慮できない基準を判断する必要があります。

ステップワイズ手順のもう 1 つの問題は、異なるモデルが異なる基準を最適化できることです。たとえば、最も高い調整 R2 値を持つモデルは、必ずしもテスト R2 値が最も高いモデルとは限りません。分析者は、最終的なモデルを選択するために、異なる基準を考慮する必要があります。

また、モデルをデータに適合させる場合、適合度はいつでも以下の2つの基本ソースに起因します。
  • データに潜む構造(同じ方法で集められたデータセットに現れる構造)
  • 分析するデータ・セットの特殊性。

モデルが特定のデータセットに適合しないことを確認するには、新しいデータセットに対する選択方法によって見つかるモデルを検証する必要があります。元のデータセットをランダムに2つの部分に分け、そのうちの1部分を使用してモデルを選択して、もう一方の部分の適合度を検証することもできます。この手順により、選択したモデルが他のデータセットに確実に適用されます。自動検証を使用したステップワイズ手順のセクションに進み、データを自動的にパーティション分割し、検証統計を計算できるコマンドについて学習します。

ステップワイズの手順

Minitabの自動ステップワイズ手順を含むすべての解析には、以下の手順が含まれます。次の方法を使用すると、モデルの構築に使用するデータのモデルの要約統計量に関して、多数の異なるモデルをすばやく評価できます。

  • 標準ステップワイズ回帰では、各ステップの予測変数を追加または削除します。Minitabは、モデルに含まれていないすべての変数のp値が指定した[追加するためのα]値より大きくなったとき、およびモデルに含まれるすべての変数のp値が[削除するためのα]値以下になったときに停止します。
  • 前方情報基準法では、各ステップのモデルに最小のp値を持つ項を追加します。分析の設定で非階層の項を考慮することが許可されているものの、各モデルの階層化が必須な場合、追加する項はステップ1のモデルに入力できます。Minitabではステップごとの情報基準を計算します。ほとんどの場合、手順は、以下の条件の一つが生じるまで、続きます。
    • 手順では、8つの連続ステップに対する新たな最小基準は見つかりません。
    • 手順は完全なモデルに適合します。
    • 手順は誤差自由度が1つあるモデルに適合します。
    各ステップで階層モデルを要求し、一度に1つの項しか入力できないように手順を指定した場合、手順は、完全なモデルに適合するか、または誤差自由度が1つあるモデルに適合するまで、続きます。選択された情報基準(AICcかBICのいずれか)の最小値を持つモデルの分析結果が表示されます。
  • 前方選択は、指定した項を持つ空のモデルまたはモデルから始まります。その後、Minitabによって各ステップにおいて最も有意な項が追加されます。Minitabは、モデルに含まれていないすべての変数のp値が指定された[追加するためのα]値より大きくなると停止します。
  • 後方削除はモデル内のすべての予測変数で開始され、Minitabはステップごとに有意性の最も低い変数を削除します。Minitabは、モデルに含まれるすべての変数のp値が指定された[削除するためのα]値以下になると停止します。

自動検証を伴うステップワイズ回帰手順

次のコマンドでは、Minitabの解析には、自動検証手法とステップワイズ手順を含めることができます。自動検証では、ステップワイズの手順の後にモデル検証を行うアナリストの時間を節約できます。次のコマンドは、ステップワイズ手順の間に、データをトレーニング・データ・セットとテスト・データ・セットに分割できます。

テストデータセットで自動的に実行できるステップワイズ手順は、テストデータセットを使用した検証で前方選択と呼ばれます。この手順では、初期モデルが空であるか、特に選択したモデル項が含まれています。次に、Minitabでは、次の潜在的な項を各ステップで最小のp値で追加します。Minitabでは、各ステップでのモデルのテストR2が、テストデータセットのモデルのR2値として計算されます。Minitabが提示するモデル結果は、テストR2値の最大値を持つモデルに対して表示されます。

回帰モデルの適合の場合、2 番目の検証手法を選択して、順方向選択と呼ばれる順方向選択を実行し、k 折り曲げクロス検証を使用できます。K折りクロス検証では、データセットをkサブセットに分割します。これらのサブセットは、折り目と呼ばれます。ほとんどの場合、検証には 10 倍の値が使用されますが、他の数値も使用できます。折り目は、可能な限り同じ数の観測値を持ちます。Minitabは、前方選択k回を実行します。各フォワード選択では、k-1 折り目がトレーニング データ セットで、最後のフォールドがテスト データセットです。他の前方選択手順と同様に、初期モデルは空であるか、特に選択したモデル項が含まれています。次に、Minitabでは、次の潜在的な項を各ステップで最小のp値で追加します。ステップごとに、異なるステップワイズ選択手順の情報を組み合わせることで、K倍のステップワイズR2値が計算されます。

階層

階層モデルは、モデル内の項ごとに、すべての低次の項も含まれているモデルです。たとえば、A、B、C、Dの4つの因子を持つモデルがあるとします。項A*B*Cがモデルに入っていて、項A、B、C、A*B、A*C、B*Cもまたモデルに入っている場合は、Dを含む任意の項がモデルに入っている必要はありません。

ステップでモデルに入力または残す項は、階層の仕様によって異なります。デフォルトでは、Minitab統計ソフトウェアでは、各ステップで階層モデルが必要で、すべての項に階層が必要であり、各ステップで1つの項のみがモデルに入ることを許可します。これらの設定では、各ステップで考慮する用語が制限されます。たとえば、交互作用の下位の項の両方がすでにモデルに存在しない限り、双方向の交互作用はモデルに入ることができません。これらの設定は、 階層 ステップワイズ方式を選択すると、

ベストサブセット回帰とは

ステップワイズ回帰は、予測変数の有用なサブセットを識別するために、モデル構築の探索段階で使用される自動化ツールです。この手順では、各サイズに対して要求するモデルの数 (1 つの予測変数を持つモデル、2 つの予測変数を持つモデルなど) のモデルの概要結果が表示されます。表示されるモデルは、そのサイズの可能なモデルの中でR2の最高値を持っています。Minitab でベストサブセット回帰を使用するには、統計 > 回帰 > 回帰 > ベストサブセット を選択します。

自動選択手順として、最良サブセット回帰は、ステップワイズ回帰で多くの問題を共有します。この手順では、アナリストが持つ専門的な知識を使用することも、異なる基準で同じモデルを識別するという保証もありません。予測変数間の相関関係により、最適なモデルの識別がより困難になる可能性があります。新しいデータを使用してモデルを検証すると、モデルのパフォーマンスに対する信頼性が高まります。

ベストサブセット回帰とステップワイズ回帰の比較

ベストサブセットは、Minitab統計ソフトウェアの分析です。ステップワイズ回帰は、いくつかの分析でオプションです。これらの自動モデル選択手法はどちらも、複数の異なるモデルの適合に関する情報を提供します。さまざまなモデルから、さらに探索する必要があるモデルを特定できます。

Minitabの技術の違いは、一方のテクニックを他のテクニックに対して使用するか、両方のテクニックを使用するかを決定するのに役立ちます。次に、考慮すべき一般的な点をいくつか示します。
特性 ベストサブセット回帰 ステップワイズ回帰
検討されるモデル 予測変数のすべての可能なモデル。 項の統計的有意性によって選択されるモデルのシーケンス。
考慮する予測変数の数 最大 31 個の無料予測変数に加えて、すべてのモデルで必要な予測変数。 設定された制限はありません。
予測変数の種類 ワークシートで列を隠す テキストまたは数値列に加えて、交互作用の用語やその他の上位の用語。
応答変数のタイプ 数値列。 Minitabの異なる分析では、さまざまなタイプの応答変数を分析できます。ステップワイズ回帰では、連続応答変数、二項応答変数、またはポアソン応答変数の分析を選択できます。
結果 結果には、データの適合を調べるモデル要約統計が含まれます。残差プロットなどの完全な回帰結果を表示するには、選択したモデルを 次のような分析で調べます回帰モデルの適合 この分析では、選択した基準に従って、最適なモデルの完全な回帰結果が表示されます。また、手順の各ステップのモデル要約統計量を確認することもできます。