回帰モデルの適合のモデル要約表

モデル要約表のすべての統計量の定義と解釈について解説します。

S

Sはデータ値と適合値間の距離の標準偏差を表します。Sは応答変数の単位で測定されます。

解釈

Sを使い、モデルがどの程度良好に応答を表示するか判断します。Sは応答変数の単位で測定され、データ値と適合値の間の距離を表します。Sの値が小さければ小さいほど、モデルによる応答の記述が良好になります。ただし、Sの値が小さいだけでは、そのモデルが仮定を満たしているとは言い切れません。残差プロットを確認して仮定を検証する必要があります。

たとえば、ポテトチップ製造会社が、パッケージあたりに含まれる砕けたポテトチップの割合に影響する因子を調べるとします。モデルを有意な予測変数まで下げ、Sの計算値が1.79になったとします。この結果は、適合値を中心としたデータ点の標準偏差が1.79であることを示しています。モデルを比較している場合、1.79よりも低い値は良好な適合を示し、高い値は適合度が低いことが分かります。

R二乗

R2は、モデルによって説明される応答の変動の割合です。これは、1から合計の平方和 (モデルの全変動) に対する誤差の平方和 (モデルでは説明されない変動) の比率を引いたものとして計算されます。

解釈

R2を使用して、モデルがデータにどの程度適合するかを判断します。R2値が高いほど、データにモデルがより良く適合します。R2は常に0%から100%の間です。

適合線プロットを使用して、さまざまなR2値をグラフィカルに説明することができます。最初のプロットは、応答の変動の85.5%を説明する単回帰モデルを示しています。2番目のプロットは、応答の変動の22.6%を説明するモデルを示しています。モデルによって説明される変動が多いほど、データ点が適合回帰直線に近づきます。理論上、モデルが変動の100%を説明できる場合、適合値は常に観測値と等しく、すべてのデータ点が適合線上に収まります。ただし、R2が100%であっても、そのモデルが必ずしも新しい観測値を良好に予測するとは限りません。
R2値を解釈する際には、次の点を考慮してください。
  • モデルに他の予測変数を追加すると、R2は常に増加します。たとえば、最良の5つの予測変数のモデルは、常に、低くとも、4つの予測変数のモデルと同じ高さのR2を有します。したがって、R2は、同じサイズのモデルを比較する場合にとても有用です。

  • 小さなサンプルでは、応答変数と予測変数の関係の強さの正確な推定値は提供されません。たとえば、より正確にするためにR2が必要な場合は、より大きなサンプル(通常は40以上)を使用する必要があります。

  • 適合度の統計量は、モデルがデータにどの程度適合するかの1つの尺度に過ぎません。モデルに望ましい値がある場合でも、残差プロットを確認して、モデルがモデルの前提を満たしていることを検証する必要があります。

自由度調整済みR二乗

調整済みR2はモデルで説明される応答の変動のパーセントで、観測値数と比較してモデル内の予測変数の数に応じて調整されます。調整されたR2は1からMSEの比を引いてMS Totalまで計算されます。

解釈

異なる数の予測変数を持つモデルを比較する場合は、調整済みR2を使用します。R2はモデルに予測変数を追加すると、それがモデルを改善しないとしても必ず大きくなります。調整済みR2値にはモデルに含まれる予測変数の数が組み入れられるため、正しいモデルの選択に役立ちます。

たとえば、ポテトチップ製造会社が、パッケージあたりに含まれる砕けたポテトチップの割合に影響する因子を調べるとします。前方ステップワイズによる方法で予測変数を追加して、以下の結果が得られたとします。
モデル ポテトの割合 冷却率 調理温度 R2 調整済みR2二乗
0 X    
1 X X  
3 X X X

1つ目のモデルのR2は50%以上になります。2つ目のモデルでは冷却率がモデルに追加されました。調整済みR2は大きくなり、冷却率によりモデルが改善されることを示しています。調理温度が追加された3つ目のモデルでもR2は大きくなりますが、調整済みR2は大きくなりません。これらの結果から、調理温度はモデルを改善しないことがわかります。これらの結果から、調理温度はモデルを改善しないことがわかります。

PRESS

予測残差平方和(PRESS)とは、適合値と観測値の偏差を表す測度です。PRESSは二乗残差の和である残差平方和(SSE)と似ています。ただし、PRESSの残差計算方法は異なります。PRESSの計算式は、データセットからの各観測値の系統的な削除、回帰式の推定、削除した観測値をモデルがどの程度良好に予測するかの判断に使われるのと同じです。

解釈

PRESSを使用してモデルの予測能力を評価します。通常、PRESSの値が小さいほどモデルの予測能力は上がります。Minitabでは、通常より直感的に解釈できる予測R2を計算する場合にPRESSが使用されます。合わせることにより、これらの統計量によって過剰適合を回避することができます。過剰適合は、サンプルデータでは重要に見えても母集団には重要でない項を追加した場合に起こります。その結果モデルはサンプルデータに即してしまい、母集団の予測に適さなくなる可能性があります。

R二乗(予測)

予測R2は、データセットからの各観測値の系統的な削除、回帰式の推定、削除した観測値をモデルがどの程度良好に予測するかの判断に使われるのと同じ計算式によって求められます。予測R2は0%~100%の値です(予測R2値に負値が算出される場合がありますが、Minitabでは0を表示します)。

解釈

予測R2を使用して、モデルが新しい観測値に対する応答をどの程度良好に予測するかを判断します。 予測R2値が大きいモデルの予測能力は優れています。

R2よりも大幅に低い予測R2は、モデルの過剰適合を示している可能性があります。過剰適合は、母集団には重要でない項を追加した場合に起こります。そのモデルはサンプルデータに即してしまい、母集団の予測に適さなくなる可能性があります。

予測R2は、モデル計算に含まれていない観測値によって計算されるため、モデルを比較する場合は調整済みR2より便利です。

たとえば、財務コンサルティングの分析者が、将来の市況を予測するモデルを作成するとします。R2は87%であるため、このモデルは期待が持てるように見えます。しかしながら、予測R2はたった52%しかなく、これはモデルの過剰適合の可能性を示しています。

AICcとBIC

補正赤池情報量基準(AICc)とベイズ情報量規準(BIC)は、モデルの適合度と含まれる項の数を説明する、モデルの相対的な質を測る測度です。

解釈

異なるモデルを比較する際はAICcとBICを使用します。小さい値が好ましいと考えられます。ただし、予測変数セットに対して最小値を持つモデルは必ずしもデータに良好に適合しません。検定と残差プロットも使用して、データに対するモデルの適合度を評価してください。

AICcとBICは両方とも、モデルの尤度を評価し、モデルに項を追加したときにペナルティを適用します。このペナルティにより、モデルがサンプルデータに過剰適合する傾向を減少させます。こうした減少により、通常のモデルのパフォーマンスを改善できます。

一般的なガイドラインとして、パラメーター数がサンプルサイズよりも少ない場合、BICにおける各パラメーターの追加に対するペナルティはAICcよりも大きくなります。これらのケースでは、BICを最小化するモデルは、AICcを最小化するモデルよりも小さくなる傾向があります。

スクリーニング計画などのよくある一部のケースでは、一般的に、パラメーター数はサンプルサイズよりも多くなります。これらのケースでは、AICcを最小化するモデルは、BICを最小化するモデルよりも小さくなる傾向があります。たとえば、実行数が13の決定的スクリーニング計画では、AICcを最小化するモデルは、6個以上のパラメーターを持つ1組のモデル内ではBICを最小化するモデルよりも小さくなる傾向があります。

AICcとBICに関する詳細は、Burnham and Anderson(1を参照してください。

テストのS

テストのSは、テストデータセットのデータ値と適合値の間の距離を要約します。テストSは応答の単位で測定されます。

解釈

テストのSを使用して、新しいデータに対するモデルのパフォーマンスを評価します。テストのSの値が小さいほど、モデルの予測がテストデータセットの実際の値に近づきます。

テストのS値より大幅に小さいS値は、モデルが過剰に適合していることを示している可能性があります。過剰に適合しているモデルは、母集団で重要でない効果に関する項を追加するときに発生します。モデルはサンプルデータに合わせて調整されるため、母集団に関する予測を行う場合には役に立たない場合があります。

たとえば、あなたがあるポテトチップス会社で働いていて、コンテナあたりのチップスの砕けた割合に影響する要因を調べるとします。モデルを有意な予測変数に減らし、Sが1.79であるのに、テストのSが17.63 であることがわかります。テストのSはトレーニングセットとは大きく異なるため、新しいデータに対してモデルがどのように実行されるかを良く示していると判断します。

低いテストのS値自体は、モデルがモデルの前提を満たしていることを示すものではありません。残差プロットを確認して、前提を検証する必要があります。

テテストのR二乗

テストのR2は、モデルが説明するテストデータセットの応答変数の変動の割合です。テストのR2値の範囲は0%から100%です。(テストのR2の計算では負の値が生成される場合がありますが、Minitab 統計ソフトウェアでは、この場合には0と表示されます)。

解釈

テストのR2を使用して、モデルが新しいデータにどの程度適合するかを判断します。より大きなテストのR2値をもつモデルは、新しいデータに対するパフォーマンスがより良い傾向があります。テストのR2を使用して、さまざまなモデルのパフォーマンスを比較できます。

R2より大幅に小さいテストのR2は、モデルが過剰に適合していることを示している可能性があります。過剰に適合しているモデルは、母集団で重要でない効果に関する項を追加するときに発生します。モデルはトレーニングデータに合わせて調整されるため、母集団に関する予測を行う場合には役に立たない場合があります。

たとえば、ある金融コンサルティング会社のアナリストが、将来の市場状況を予測するモデルを開発するとします。このモデルは87%のR2を有しているので、有望に見えますしかし、テストのR2は52%で、モデルが過剰に適合している可能性があることを示しています。

高いテストのR2値自体は、モデルがモデルの前提を満たしていることを示すものではありません。残差プロットを確認して、前提を検証する必要があります。

K分割S

K分割Sは、検定データセットのデータ値と適合値の間の距離を要約します。K分割Sは応答の単位で測定されます。

解釈

K分割Sを使用して、新しいデータでのモデルのパフォーマンスを評価します。K分割Sの値が低いほど、分割のデータがモデルの推定の一部に含まれない場合、モデルの予測が分割内の実際の値に近づきます。

K分割Sの値より大幅に小さいS値は、モデルが過剰に適合していることを示している可能性があります。過剰に適合しているモデルは、母集団で重要でない効果に関する項を追加するときに発生します。モデルはサンプルデータに合わせて調整されるため、母集団に関する予測を行う場合には役に立たない場合があります。

たとえば、あなたがあるポテト チップス会社で働いていて、コンテナあたりのチップスの砕けた割合に影響する要因を調べるとします。モデルを有意な予測変数に減らし、Sが1.79であるのにK分割Sが17.63であることがわかります。K分割Sがトレーニングセットとは大きく異なるため、K分割Sは新しいデータに対してモデルがどのように実行されるかを良く示していると判断します。

K分割Sの値が低いだけでは、モデルがモデルの前提を満たしていることを示すわけではありません。残差プロットを確認して、前提を検証する必要があります。

K分割R二乗

K分割R2は、モデルが説明するデータの分割の、応答変数の変動の割合です。K分割R2の値の範囲は0%から100%です。(K分割R2の計算では負の値が生成されますが、この場合Minitab統計ソフトウェアでは0が表示されます)。

解釈

K分割R2を使用して、モデルが新しいデータにどの程度適合するかを判断します。K分割R2値が大きいモデルは、新しいデータに対するパフォーマンスが良い傾向があります。K分割R2を使用して、さまざまなモデルのパフォーマンスを比較できます。

R2より大幅に小さいK分割R2は、モデルが過剰に適合していることを示している可能性があります。過剰に適合しているモデルは、母集団で重要でない効果に関する項を追加するときに発生します。モデルはトレーニングデータに合わせて調整されるため、母集団に関する予測を行う場合には役に立たない場合があります。

たとえば、ある金融コンサルティング会社のアナリストが、将来の市場状況を予測するモデルを開発するとします。モデルは87%のR2を有するので、有望に見えます。しかし、K分割R2は52%で、モデルが過剰に適合している可能性があることを示しています。

K分割R2の値が高いだけでは、モデルがモデルの前提を満たしていることを示すわけではありません。残差プロットを確認して、前提を検証する必要があります。

K分割ステップワイズのR二乗

K分割ステップワイズのR二乗は、候補の項のセットからモデルに含まれる項の数を評価します。Minitabでは、K分割ステップワイズのR二乗の値が負である場合、負の値が表示されます。

解釈

K分割ステップワイズのR2を使用して、モデルに含まれる項数を決定します。K分割交差検証を使用して検証のある前方選択を行う場合、K分割ステップワイズのR二乗が計算されます。K分割ステップワイズR2は、各分割に対して個別の前方選択からのものです。Minitabでは、K分割ステップワイズのR2を使用して、前方選択の最適なステップを決定します。各分割の前方選択が完了すると、データセット全体に対して前方選択が実行されます。データセット全体を使用して、K分割ステップワイズのR2基準に従い、最適なステップでのモデルの回帰結果が生成されます。

K分割交差検証を使用してモデルの予測パフォーマンスを評価するためには、代わりに K分割R2統計量を使用します。

マローズ(Mallows)のCp

マローズ(Mallows)のCpを使用すると、競合する複数の回帰モデルの間で選択ができるようになります。マローズのCp値は、完全モデルを予測変数のベストサブセットを持つモデルと比較します。これにより、モデル内の予測変数の数との重要なバランスを取ることができます。モデルに含まれる予測変数の数が多すぎる場合は相対的に精度が低くなり、少なすぎる場合は推測値に偏りが生じます。回帰モデルの比較にマローズのCp値を使用することは、最初から同じ予測変数の完全セットを使用した場合にのみ有効です。

解釈

マローズのCpの値が、予測変数の数に定数を加えた値に近い場合は、モデルが相対的に精度が高く、偏りが少ない推定値を導出することを示しています。

マローズのCpの値が、予測変数の数に定数を加えた値よりも大きい場合は、モデルが偏っており、データにあまり適合しないことを示しています。

1 Burnham, K. P., & Anderson, D. R.(2004年)「Multimodel inference: Understanding AIC and BIC in model selection.」Sociological Methods & Research第33(2)巻、261~304ページ、doi:10.1177/0049124104268644