ベストサブセット回帰とステップワイズ回帰の使用

ベストサブセット回帰とステップワイズ回帰の比較

最良のサブセットによる回帰では、複数の異なるモデルの適合に関する情報が得られるため、4つの明瞭な統計量に基づいてモデルの選択を行うことができます。ステップワイズ回帰では、単一の統計量に基づいて単一のモデルが得られます。各モデルには異なる選択判定基準が使われるため、最良のサブセットによる回帰とステップワイズ回帰では異なるモデルが得られます。どちらの方法を使うかに関する一般的な指針としては、次のものがあります。
  • 予測変数の数が少ないデータセットの場合は、ベストサブセット回帰の方がより多くのモデルに関する情報が得られるため、ステップワイズ回帰より優れています。
  • 最良のサブセットでは、31の自由予測変数のみを持つことができるので、予測変数を多く持つデータセットでは、ベストサブセット回帰よりもステップ回帰の方が優れています。予測変数の数が多いデータセットにステップワイズ回帰を適用する場合は、変数追加時のα水準と変数削除時のα水準に大きな値(0.25~0.50)を選びます。これにより、モデルに追加する各予測変数の効果と、モデルにすでに含まれている予測変数の効果についてより多くのことを学べます。

モデルの検証

ベストサブセット(およびステップワイズ回帰)などの変数の選択分析手順を使用する際には、注意が必要です。これらの分析手順は自動的に行われるため、予測変数の実用的な重要性が考慮されません。また、モデルをデータに適合させる場合、適合度はいつでも以下の2つの基本ソースに起因します。
  • データに潜む構造(同じ方法で集められたデータセットに現れる構造)
  • 分析する1つの特定のデータセットの特性

モデルが特定のデータセットに適合するだけではないことを確実にするには、新しいデータの選択手順で見つかったモデルを検証する必要があります。元のデータセットをランダムに2つの部分に分け、そのうちの1部分にベストサブセット法を適用してモデルを選択し、そのモデルをもう一方のデータセット部分に適用してモデルを検証することもできます。これにより、選択したモデルが同じ方法で集められたデータセットに確実に適用されやすくなります。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください