偏最小二乗回帰のモデル選択および検証表

モデル選択表のすべての統計量の定義と解釈について解説します。

成分

成分は、モデルごとに含まれる成分数を表します。Minitabでは、指定した成分数が含まれるまで、1つの成分を持つモデル、2つの成分を持つモデルといった具合に表示されます。Minitabでは、モデルに含まれる成分数を指定しなかった場合、10個の成分に対するモデル選択統計量と予測変数の内、いずれか少ない方の数が表示されます。

X-分散

X-分散は、モデルによって説明される項における予測変数の分散量です。X-分散は0~1の値です。

X-分散の値が1に近いほど、成分は元の項を良好に表します。複数の応答がある場合、X-分散値はすべての応答で同じです。

誤差

誤差は誤差の平方和であり、残差を二乗した和です。モデルで説明づけられないデータの変動を定量化します。最後のモデルの場合、誤差は、最後のモデル用の分散分析表の残差誤差の平方和と一致します。

R二乗

R2は、モデルで説明される応答の変動のパーセントです。値は1から残差平方和(モデルによって説明されない変動)の比を引いて全体平方和(モデルの変動の合計)まで計算されます。

解釈

R2を使い、データに対するモデルの適合度を判断します R2値が大きくなるほど、モデルのデータへの適合度は上がります。R2は常に0~100%の間の値になります。

適合線プロットを使用し、異なるR2値を図示することができます。最初のプロットは、応答における85.5%の変動を説明する単回帰モデルを図示しています。2つ目のプロットは、応答における22.6%の変動を説明するモデルを図示しています。モデルによって説明される変動が大きいほど、適合回帰直線の近くにデータ点がプロットされます。理論的には、モデルによって変動の100%を説明できる場合、適合値は必ず観測値と等しくなり、すべてのデータ点が適合回帰線上にプロットされます。しかし、R2値が100%であったとしても、モデルが必ずしも新しい観測値をうまく予測するとは限りません。
R2値を解釈する際は次の問題を考慮してください。
  • R2はモデルに新しい予測変数を追加すると必ず大きくなります。たとえば、最適な5予測変数モデルのR2は必ず、最適な4予測変数モデルと少なくとも同じ大きさになります。したがって、R2値は同じ大きさのモデルの比較に最も便利です。

  • サンプルサイズが小さい場合、応答と予測との間の関係の強さが正確に推定されません。より正確なR2が必要な場合、サンプルサイズを大きくする必要があります(40以上が一般的です)。

  • R2は、データに対するモデルの適合度を測る1つの測度に過ぎません。モデルのR2が大きくても残差プロットを確認してモデルが仮定を満たしているか検証する必要があります。

R二乗(予測)

予測R2は、計算されたモデルのそれぞれがどの程度応答を予測できるかを示し、交差検証を使用した場合にのみ計算されます。データ内に応答変数が1つある場合、予測R2が最大のPLSモデルが選択されます。複数の応答変数がデータにある場合は、すべての応答変数に対して平均予測R2が最大になるPLSモデルが選択されます。予測R2は、データセットからの各観測値の系統的な削除、回帰式の推定、および削除した観測値をモデルがどの程度良好に予測するかの判断によって求められます。予測R2は0~100%の間にあります。

解釈

予測R2を使用して、モデルが新しい観測値に対する応答をどの程度良好に予測するかを判断します。 予測R2値が大きいモデルの予測能力は優れています。

R2よりも大幅に低い予測R2は、モデルの過剰適合を示している可能性があります。過剰適合は、母集団には重要でない項を追加した場合に起こります。そのモデルはサンプルデータに即してしまい、母集団の予測に適さなくなる可能性があります。

R2値と予測R2値を調べて、交差検証によって選択されるモデルが最適であるかどうかを調べます。場合によっては、交差検証性によって選択されたモデルとは異なるモデルを使用することもできます。たとえば、Minitabによって選択されたモデルに2つの成分を追加することにより、R2が大きく増加し、予測R2が少しだけ減少するという例を考えてみてください。予測R2の減少はわずかであるため、モデルが過剰に適合することはなく、モデルはデータにより良好に適合すると判断できます。

PRESS

予測残差平方和(PRESS)とは、適合値と観測値の偏差を表す測度です。PRESSは二乗残差の和である残差平方和(SSE)と似ています。ただし、PRESSの残差計算方法は異なります。PRESSの計算式は、データセットからの各観測値の系統的な削除、回帰式の推定、削除した観測値をモデルがどの程度良好に予測するかの判断に使われるのと同じです。

解釈

PRESSを使用してモデルの予測能力を評価します。通常、PRESSの値が小さいほどモデルの予測能力は上がります。Minitabでは、通常より直感的に解釈できる予測R2を計算する場合にPRESSが使用されます。合わせることにより、これらの統計量によって過剰適合を回避することができます。過剰適合は、サンプルデータでは重要に見えても母集団には重要でない項を追加した場合に起こります。その結果モデルはサンプルデータに即してしまい、母集団の予測に適さなくなる可能性があります。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください