偏最小二乗回帰に対する新しい観測値の予測応答

予測応答表のすべての統計量の定義と解釈について解説します。

適合値

適合した値は、適合値またはとも呼ばれます。適合した値は、予測変数の任意の値に対する平均応答の点推定です。予測変数の値は、X-値とも呼ばれます。

解釈

適合値は、データセットに含まれる観測値ごとの特定のx値をモデル式に入力することによって計算されます。

たとえば、式がy = 5 + 10xの場合に、X-値が2ならば、適合値は25(25 = 5 + 10(2))となります。

適合値の標準誤差(SE Fit)

適合値の標準誤差(SE Fit)は、特定の変数設定について推定される平均応答の変動を推定します。平均応答の信頼区間の計算には、適合値の標準誤差が使用されます。標準誤差は常に正数です。

解釈

適合値の標準誤差は、平均応答の推定値の精度を測定するために使用します。標準誤差が小さいほど、予測される平均応答の精度は高くなります。たとえば、分析者が配達時間を予測するモデルを開発するとします。変数設定のひとつのセットに、モデルは3.80日の平均配達時間を予測します。これらの設定の適合値の標準誤差は0.08日です。変数設定の2つめのセットに、モデルは適合値の標準誤差の0.02日で同じ平均配達時間を生成します。分析者は、変数設定の2つめのセットの平均配達時間が3.80日近くであるということに、より自信を持つことができます。

適合値とともに、適合値の標準誤差を使用して、平均応答の信頼区間を作成できます。たとえば、自由度の数に基づいて、95%の信頼区間は予測平均から標準誤差のおよそ2個分の範囲になっています。配達時間では、標準誤差が0.08日の際の予測平均の3.80日の95%の信頼区間は、(3.64、3.96)日です。これは、95%の信頼度で、母集団の平均がこの範囲に含まれることを意味します。標準誤差が0.02日の際、95%の信頼区間は、(3.76、3.84)日です。変数設定の2つめのセットの信頼区間は、標準誤差がより小さいことから、より狭くなります。

95%信頼区間(CI)

適合値の信頼区間は、指定された予測を条件として、応答平均値になる可能性のある値の範囲を表します。

解釈

信頼区間を使用して、変数の観測値に関する適合値の推定値を評価します。

たとえば、信頼水準が95%の場合は、モデル内の指定された値の変数を持つ母集団が含まれる信頼区間を95%信頼できます。信頼区間は、結果の実質的な有意性を評価するのに役立ちます。専門知識を使って、信頼区間に実質的に有意な値が含まれているかどうかを状況に応じて判断します。信頼区間が広い場合、将来価値の平均値に対する信頼性が低くなります。信頼区間が広すぎて役に立たない場合、サンプルのサイズを大きくすることを検討します。

95%予測区間(PI)

予測区間は、予測変数の値に関する将来の応答が1つ含まれる可能性のある範囲です。

解釈

予測区間が95%なので、新しい観測値が予測区間内にある信頼度は95%になり得ます(ただし、これは分析データの範囲内に含まれている値のみが真であるということですので、注意してください)。この区間は、信頼水準と予測の標準誤差から計算される下限と上限によって定義されます。平均応答の場合と比較して、単一の応答を予測する際には不確実性が増加するので、予測区間は必ず信頼区間よりも広くなります。

検定R二乗

検定R2は応答における変動の比率を表し、検定データからの予測変数値を使用して元のモデルによって説明されます。

検定データセットには、元のデータセットと同じ数の予測変数が含まれている必要があります。検定R2は、検定データに各観測値の応答データが含まれている場合にのみ計算できます。検定R2を計算する方法は、R2と同じです。

解釈

テストR2はPLS回帰モデルがどの程度良好に検定データを予測するかを判断します。テストR2値が大きい場合、モデルの予測能力が高いことを示しています。

しばしば、PLS回帰は2つステップで行われます。最初のステップは、トレーニングと呼ばれることもあり、サンプルデータセット(トレーニングデータセットとも呼ばれる)のPLS回帰モデルを計算します。2番目のステップでは、別のデータセット(検定データセットとも呼ばれる)でこのモデルの検証が行われます。検定データセットには、応答値が含まれていることも含まれていないこともあります。検定データセットに応答値が含まれている場合、MinitabではテストR2を計算できます。

交差検証を使用する場合は、テストR2を予測R2と比較します。理想的には、両方の値は同様である必要があります。テストR2が予測R2より有意に小さい場合は、交差検証がモデルの予測能力について楽観的過ぎるか、2つのサンプルがそれぞれ異なる母集団のものであることを示しています。