交差検証とは

交差検証では、潜在的なモデルの予測能力が計算されるため、モデルに含める成分の適切な数を決定する際に便利です。最適な成分数がわからない場合は、交差検証を使用することをお勧めします。データに複数の応答変数がある場合、Minitabでは、すべての応答に対して同時に成分の妥当性が確認されます。

交差検証の方法

Minitabでは、3つの交差検証法を実行できます。
観測値を1つずつ省略
観測値を一度に1つ除外して潜在的なモデルを計算します。大きなデータセットの場合、この方法では時間がかかることがあります。観測値と同じ数だけ、モデルを再計算するからです。
特定のサイズのグループを1つずつ省略
一度に複数の観測値を除外してモデルを計算します。モデルを再計算するために必要な回数を減らします。この方法は大きなデータセットがある場合に最も有効です。
指定した列のとおりに省略
モデルの計算と、ワークシートに作成した同じグループ識別子列数に適合する観測値を同時に除外します。この方法を使用すると、同時に省略する観測値を指定することができます。たとえば、数値1、2、3をグループ識別子の列に含める場合は、1を含むすべての観測値が同時に省略され、モデルが再計算されます。次に、2を含むすべての観測値が省略され、モデルが再計算されます。以後同様に続きます。この場合、モデルは合計3回再計算されます。グループ識別子列は、応答および予測変数列と同じ長さである必要があります。また、欠損値が含まれていない必要があります。

交差検証の手順

Minitabでは、個々の潜在的なモデルに対して次の処理を実行します。
  1. 交差検証手法に応じて、1つの観測値または観測値のグループを除外します。
  2. その観測値または観測値のグループを省略したまま、モデルを再計算します。
  3. 再計算したモデルを使用して、省略された観測値または観測値グループの応答、つまり交差検証された適合値を予測し、交差検証された残差値を計算します。
  4. すべての観測値が省略され、適合されるまで、ステップ1~3を繰り返します。
  5. 予測の平方和(PRESS)と予測R2の値を計算します。

各モデルに対して手順1~5を実行した後、予測R2が最大でPRESSが最小になる成分数のモデルが選択されます。複数の応答変数がある場合は、平均予測R2が最大で平均PRESSが最小になるモデルが選択されます。

交差検証を使用しない場合、成分数は、10またはモデルに含まれる予測変数の数(いずれか少ない方の数)に設定されます。

交差検証の統計量

交差検証を実行する場合、Minitabには次の統計量を含む追加の要約表が表示されます。
交差検証された適合値

PLS回帰の場合、交差検証された適合値は、個別に計算されるデータセット内の各観測値の予測応答であるため、観測値の予測応答の計算に使用されるモデルからその観測値を除外することができます。交差検証された適合値は、交差検証の過程で計算され、除外される観測値の数に応じてモデルが再計算されるたびに異なります。

交差検証された適合値を使用して、モデルがどの程度データを予測するかを特定します。交差検証された適合値は、モデルのデータへの適合度を特定する通常の適合値と同様です。

交差検証された残差

PLS回帰の場合、交差検証された残差は、実際の応答と交差検証された適合値との差です。交差検証された残差値は、交差検証の過程でモデルが再計算されるたびに除外される観測値の数に応じて異なります。

残差ではモデルの予測能力を測定します。交差検証された残差は、PRESS統計量を計算する際に使用されます。