安定性分析のモデル要約統計量

モデル要約表のすべての統計量の定義と解釈について解説します。

S

Sはデータ値と適合値間の距離の標準偏差を表します。Sは応答変数の単位で測定されます。

解釈

Sを使い、モデルがどの程度良好に応答Sは応答変数の単位で測定され、データ値と適合値がどの程度離れているかを示す標準偏差を表しています。Sの値が小さければ小さいほど、モデルによる応答の記述が良好になります。しかし、Sの値が小さいことだけで、そのモデルが仮定を満たしているとはいえません。残差プロットを確認し、仮定を検証する必要があります。

たとえば、ポテトチップ製造会社が、パッケージあたりに含まれる砕けたポテトチップの割合に影響する因子を調べるとします。モデルを有意な予測変数まで下げ、Sの計算値が1.79になったとします。この結果から、適合値を中心としたデータ点の標準偏差が1.79であることが分かります。モデルを比較する場合、1.79よりも低い値は良好な適合を示し、高い値は適合度が低いことを示しています。

R二乗

R2は、モデルで説明される応答の変動のパーセントです。値は1から誤差平方和(モデルによって説明されない変動)の全体平方和(モデルの変動合計)に対する比を減じて算出します。

解釈

R2を使い、データに対するモデルの適合度を判断しますR2値が大きくなるほど、モデルのデータへの適合度は上がります。R2は常に0~100%の間の値になります。

適合線プロットを使用し、異なるR2値を図示することができます。最初のプロットは、応答における85.5%の変動を説明する単回帰モデルを図示しています。2つ目のプロットは、応答における22.6%の変動を説明するモデルを図示しています。モデルによって説明される変動が大きいほど、適合回帰直線の近くにデータ点がプロットされます。理論的には、モデルによって変動の100%を説明できる場合、適合値は必ず観測値と等しくなり、すべてのデータ点が適合回帰線上にプロットされます。しかし、R2値が100%であったとしても、モデルが必ずしも新しい観測値をうまく予測するとは限りません。
R2値を解釈する際は次の問題を考慮してください。
  • R2は、モデルに予測変数を追加すると必ず大きくなります。たとえば、最適な5予測変数モデルのR2は必ず、最適な4予測変数モデルと少なくとも同じ大きさになります。したがって、R2値は同じ大きさのモデルを比較する際に最も有益です。

  • サンプルサイズが小さい場合、応答と予測の関係の強さが正確に推定されません。より正確なR2が必要な場合、サンプルサイズを大きくする必要があります(40以上が一般的です)。

  • R2は、データに対するモデルの適合度をを測る1つの測度にすぎません。モデルのR2が大きい場合でも、残差プロットを確認し、モデルが仮定を満たしているか検証する必要があります。

R二乗(調整済み)

調整済みR2はモデルで説明される応答の変動のパーセントで、観測値数と比較してモデル内の予測変数の数に応じて調整されます。調整されたR2は1から平均平方誤差(MSE)の比を引いて平均平方合計(MS Total)まで計算されます。

解釈

予測変数の数が異なるモデルを比較する場合は、調整済みR2を使用します。モデルに予測変数を追加すると、そのモデルが実質的に改善されなかった場合でも、R2は常に大きくなります。調整済みR2値にはモデルに含まれる予測変数の数が組み入れられるため、正しいモデルの選択に役立ちます。

たとえば、ポテトチップ製造会社が、パッケージあたりに含まれる砕けたポテトチップの割合に影響する因子を調べるとします。前方ステップワイズによる方法で予測変数を追加したところ、以下の結果が得られたとします。
モデル ポテトの割合 冷却率 調理温度 R2 調整済みR2
1 X     52% 51%
2 X X   63% 62%
3 X X X 65% 62%

1つ目のモデルのR2は50%を超えます。2つ目のモデルでは、モデルに冷却率が追加されました。調整済みR2は大きくなり、冷却率によりモデルが改善されることを示しています。調理温度が追加された3つ目のモデルでは、R2は大きくなりますが、調整済みR2は大きくなりません。この結果から、調理温度はモデルを改善しないことが分かります。これらの結果に基づき、調理温度をモデルから削除することを検討して下さい。

R二乗(予測)

予測R2は、データセットからの各観測値の系統的な削除、回帰式の推定、削除した観測値をモデルがどの程度良好に予測するかの判断をするのと同じ計算式によって求められます。予測R2は0%と100%の間の値です。

解釈

予測R2を使用して、モデルが新しい観測値に対する応答をどの程度良好に予測するかを判断します 予測R2値が大きいモデルの予測能力は優れています。

R2よりも大幅に低い予測R2は、モデルの過剰適合を示している可能性があります。過剰適合モデルは、母集団において重要でない項を追加した場合に起こります。その結果モデルはサンプルデータに適合してしまい、母集団の予測に適さなくなる可能性があります。

予測R2は、モデル計算に含まれていない観測値によって計算されるため、モデルを比較する場合は調整済みR2より便利です。

たとえば、財務コンサルティング会社のアナリストが、将来の市況を予測するモデルを構築するとします。R2は87%であるため、このモデルは期待が持てるように見えます。しかしながら、予測R2は僅か52%しかなく、モデルの過剰適合の可能性を示しています。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください