最適なサブセット回帰では、Minitabは、1つ、2つの予測変数が含まれるR2の最大値を持つ2つの方法を選択します。「X」の印のある出力表の列に基づく各モデルに含まれている予測変数を決定できます。
適合度統計量を使用して、データに最適な適合値を提供するモデルを判断します。最後のモデルを選択する前に、モデルが分析の仮説を満たすように残差プロットなどの診断測定値を調べる必要があります。
R2値が大きくなるほど、モデルのデータへの適合度は上がります。R2は常に0~100%の間の値になります。
R2はモデルに新しい予測変数を追加すると必ず大きくなります。たとえば、最適な5予測変数モデルのR2は必ず、最適な4予測変数モデルと少なくとも同じ大きさになります。したがって、R2値は同じ大きさのモデルの比較に最も便利です。
異なる数の予測変数を持つモデルを比較する場合は、調整済みR2を使用します。R2はモデルに予測変数を追加すると、それがモデルを改善しないとしても必ず大きくなります。調整済みR2値にはモデルに含まれる予測変数の数が組み入れられるため、正しいモデルの選択に役立ちます。
予測R2を使用して、モデルが新しい観測値に対する応答をどの程度良好に予測するかを判断します。予測R2値が大きいモデルの予測能力は優れています。
R2よりも大幅に低い予測R2は、モデルの過剰適合を示している可能性があります。過剰適合は、母集団には重要でない項を追加した場合に起こります。そのモデルはサンプルデータに即してしまい、母集団の予測に適さなくなる可能性があります。
予測R2は、モデル計算に含まれていない観測値によって計算されるため、モデルを比較する場合は調整済みR2より便利です。
Sを使い、モデルがどの程度良好に応答を表示するか判断します。R2統計量のかわりにSを使い、定数を持たないモデルの適合を比較します。
Sは応答変数の単位で測定され、データ値と適合値の間の距離を表します。Sの値が小さければ小さいほど、モデルによる応答の記述が良好になります。ただし、Sの値が小さいだけでは、そのモデルが仮定を満たしているとは言い切れません。残差プロットを確認して仮定を検証する必要があります。
サンプルサイズが小さい場合、応答と予測との間の関係の強さが正確に推定されません。たとえば、より正確なR2が必要な場合、サンプルサイズを大きくする必要があります(40以上が一般的です)。
適合度統計量は、データに対するモデルの適合度を測る1つの測度に過ぎません。モデルに望ましい値がある場合でも、残差プロットを確認してモデルが仮定を満たしているかを検証する必要があります。
変数 | R二乗 | R二乗 (調整済み) | R二乗 (予測) | MallowsのCp | S | 対 日 照 量 | 東 | 南 | 北 | 時 刻 |
---|---|---|---|---|---|---|---|---|---|---|
1 | 72.1 | 71.0 | 66.9 | 38.5 | 12.328 | X | ||||
1 | 39.4 | 37.1 | 26.3 | 112.7 | 18.154 | X | ||||
2 | 85.9 | 84.8 | 81.4 | 9.1 | 8.9321 | X | X | |||
2 | 82.0 | 80.6 | 74.2 | 17.8 | 10.076 | X | X | |||
3 | 87.4 | 85.9 | 79.0 | 7.6 | 8.5978 | X | X | X | ||
3 | 86.5 | 84.9 | 81.4 | 9.7 | 8.9110 | X | X | X | ||
4 | 89.1 | 87.3 | 80.6 | 5.8 | 8.1698 | X | X | X | X | |
4 | 88.0 | 86.0 | 79.3 | 8.2 | 8.5550 | X | X | X | X | |
5 | 89.9 | 87.7 | 78.8 | 6.0 | 8.0390 | X | X | X | X | X |
これらの結果には、さらに調べることができるモデルがいくつかあります。すべての5つの予測変数を持つモデルでは、Sの最小値はおよそ8、調整済みR2の最大値はおよそ88になります。2つの予測変数を持つモデルと3つの予測変数を持つモデルは両方とも、予測R2の最大値81.4%を持ちます。最後のモデルを選択する前に、残差プロットなどの診断測定値を使用して、回帰仮説に反するモデルを調べる必要があります。