マローズ(Mallows)のCpとは

マローズのCpを使用すると、複数の回帰モデルの間で選択ができるようになります。これにより、モデル内の予測変数の数との重要なバランスを取ることができます。マローズのCpは、完全モデルの精度と偏りを、予測変数のサブセットを持つモデルと比較します。

通常、マローズのCpが小さく、pに近いモデルを選択します。pはモデルに含まれる予測変数の数に定数を加えた値です。小さな値のMallowsのCpは、真の回帰係数を推定して以降の応答を予測する際に、モデルが比較的正確(分散が小さい)であることを示します。MallowのCp値が予測変数の数に定数を加えた数に近い場合は、真の回帰係数を推定して以降の応答を予測する際に、モデルが相対的に偏りが小さくなることを示します。モデルの不適合度と偏りがある場合は、マローズのCpの値がpより大きくなります。

重要

回帰モデルの比較にマローズのCpを使用する手法は、最初から同じ予測変数の完全セットを使用した場合にのみ有効です。

予測変数が別の予測変数との相関が高い場合、マローズのCpは出力に表示されません。

マローズ(Mallows)のCpを使用したモデルの評価の例

たとえば、ポテトチップ製造会社が、パッケージあたりに含まれる砕けたポテトチップの割合に影響する因子を調べるとします。回帰モデルの予測変数として、他の原料に対する相対的なポテトの割合、冷却率、および調理温度が含まれます。

ステップ ポテトの割合 冷却率 調理温度 マローズのCp
1 X     7.2
2 X X   2.9
3 X X X 5.5

結果は、「ポテトの割合」と「冷却速度」の2つの項を含むモデルが相対的に精度が高く、偏りが少なくなっていることを示しています。つまり、マローズのCp値(2.9)が予測変数の数に定数を加えた値(3)に最も近くなっています。MallowsのCp値は、R2値、調整されたR2値、およびS値などの結果に含まれるその他の統計量と合わせて調べる必要があります。