偏最小二乗回帰とは

偏最小二乗(PLS)回帰とは、予測変数の数をより小さい無相関の成分セットに減らし、元のデータではなく、これらの成分に対して最小二乗回帰を実行する分析方法です。PLS回帰は、予測変数の共線性が高いまたは予測変数の数が観測値よりも多いときに、通常の最小二乗回帰では標準誤差が高い係数が作成されるか、完全に失敗するような場合に特に有用です。PLS回帰では、多重回帰とは異なり、予測変数が固定されているとはみなしません。これは、誤差を使用して予測変数を測定して、測定の不確実性に対してPLS回帰を強固にすることができることを意味しています。

PLS回帰は、主に化学、薬品、食品、プラスチック業界で使用されます。一般的な応用として、互いに相関することの多い多数の変数を含むスペクトル測定(NIR、IR、UV)と化学組成または他の物理化学の特性との間の関係のモデル化があります。PLS回帰の主な機能は、予測モデルの作成です。したがって、応答の説明に役立たない変数のスクリーニングにPLS回帰を使用することはあまりありません。

PLS回帰を実行するには、ヘルマン・ウォルドにより開発された、非線形反復偏最小二乗(NIPALS、Nonlinear Iterative Partial Least Squares)アルゴリズムを使用します。このアルゴリズムは予測変数と応答変数の最大相関を説明する成分のセットを抽出するために主成分分析と類似した手法を使用し、予測変数の数を減らします。PLSは、予測変数と同数の成分を計算できます。最大の予測能力が得られるより小さい成分のセットを特定するには、交差検証がよく使用されます。考えられるすべての成分を計算する場合、結果として出力されるモデルは最小二乗回帰を使って得られるモデルと同等となります。PLSでは、予測変数の変動、および予測変数と応答変数の間の変動をどれほど説明できるかに基づいて成分が選択されます。予測変数に高い相関がある場合、または少数の成分で応答を完全にモデル化できる場合は、PLSモデルの成分数は予測変数の数より大幅に少なくなることがあります。次に無相関の成分に対して最小二乗回帰が行われます。

最小二乗回帰と異なり、PLSでは複数の応答変数を単一のモデルに適合できます。PLS回帰は、単一のモデルに含まれる複数の応答変数を適合させます。応答変数を多変量法でモデル化するため、応答変数について個々に計算した場合とは結果が大きく異なることがあります。応答に相関がない場合にのみ、複数の応答を個別にモデル化する必要があります。