ベストサブセット回帰の主要な結果を解釈する

最適なサブセット回帰では、Minitabは、1つ、2つの予測変数が含まれるR2の最大値を持つ2つの方法を選択します。「X」の印のある出力表の列に基づく各モデルに含まれている予測変数を決定できます。

適合度統計量を使用して、データに最適な適合値を提供するモデルを判断します。最後のモデルを選択する前に、モデルが分析の仮説を満たすように残差プロットなどの診断測定値を調べる必要があります。

R二乗

R2値が大きくなるほど、モデルのデータへの適合度は上がります。R2は常に0~100%の間の値になります。

R2はモデルに新しい予測変数を追加すると必ず大きくなります。たとえば、最適な5予測変数モデルのR2は必ず、最適な4予測変数モデルと少なくとも同じ大きさになります。したがって、R2値は同じ大きさのモデルの比較に最も便利です。

R二乗(調整済み)

異なる数の予測変数を持つモデルを比較する場合は、調整済みR2を使用します。R2はモデルに予測変数を追加すると、それがモデルを改善しないとしても必ず大きくなります。調整済みR2値にはモデルに含まれる予測変数の数が組み入れられるため、正しいモデルの選択に役立ちます。

R二乗(予測)

予測R2を使用して、モデルが新しい観測値に対する応答をどの程度良好に予測するかを判断します。予測R2値が大きいモデルの予測能力は優れています。

R2よりも大幅に低い予測R2は、モデルの過剰適合を示している可能性があります。過剰適合は、母集団には重要でない項を追加した場合に起こります。そのモデルはサンプルデータに即してしまい、母集団の予測に適さなくなる可能性があります。

予測R2は、モデル計算に含まれていない観測値によって計算されるため、モデルを比較する場合は調整済みR2より便利です。

マローズ(Mallows)のCp
マローズのCp値は、完全モデルの精度と偏りを、予測変数のベストサブセットを持つモデルと比較します。マローズのCp値が予測変数の数に定数を加えた数に近い場合は、モデルの推定値が相対的に精度が高く偏りが小さくなることを示します。
S

Sを使い、モデルがどの程度良好に応答を表示するか判断します。R2統計量のかわりにSを使い、定数を持たないモデルの適合を比較します。

Sは応答変数の単位で測定され、データ値と適合値の間の距離を表します。Sの値が小さければ小さいほど、モデルによる応答の記述が良好になります。ただし、Sの値が小さいだけでは、そのモデルが仮定を満たしているとは言い切れません。残差プロットを確認して仮定を検証する必要があります。

R2の値を算出するとき、以下の点を考慮してください。
  • サンプルサイズが小さい場合、応答と予測との間の関係の強さが正確に推定されません。たとえば、より正確なR2が必要な場合、サンプルサイズを大きくする必要があります(40以上が一般的です)。

  • 適合度統計量は、データに対するモデルの適合度を測る1つの測度に過ぎません。モデルに望ましい値がある場合でも、残差プロットを確認してモデルが仮定を満たしているかを検証する必要があります。

応答は熱流量

変数R二乗R二乗 (調整済み)R二乗 (予測)MallowsのCpS



172.171.066.938.512.328      X 
139.437.126.3112.718.154X       
285.984.881.49.18.9321    XX 
282.080.674.217.810.076      XX
387.485.979.07.68.5978  XXX 
386.584.981.49.78.9110X  XX 
489.187.380.65.88.1698XXXX 
488.086.079.38.28.5550X  XXX
589.987.778.86.08.0390XXXXX
主な結果: R二乗、R二乗(調整済み)、R二乗(予測)、マローズのCp、S

これらの結果には、さらに調べることができるモデルがいくつかあります。すべての5つの予測変数を持つモデルでは、Sの最小値はおよそ8、調整済みR2の最大値はおよそ88になります。2つの予測変数を持つモデルと3つの予測変数を持つモデルは両方とも、予測R2の最大値81.4%を持ちます。最後のモデルを選択する前に、残差プロットなどの診断測定値を使用して、回帰仮説に反するモデルを調べる必要があります。