回帰分析では、1つの式を生成して、1つ以上の予測変数と応答変数の間の統計的関係を説明し、新しい観測値を予測します。線形回帰では一般に、二乗残差の合計を最小限にすることによって式を導出する通常の最小二乗推定法を使用します。
たとえば、ポテトチップ会社に勤務していて、発送前に砕けたポテトチップのコンテナあたりの割合に影響する因子(応答変数)を分析するとします。2つの予測変数として、他の原料に対する相対的なポテトの割合と調理温度(摂氏)を含めて、回帰分析を実施します。以下が結果表です。
1つの予測変数を持つモデルは単回帰と呼ばれます。複数の予測変数を持つモデルは重回帰と呼ばれます。
単回帰では、2つの連続変数、すなわち1つの応答変数(Y)と1つの予測変数(X)の線形関係を調べます。2つの変数が関連している場合、偶然性より高い確度で予測変数から応答値を予測することができます。
重回帰では、1つの連続応答と2つ以上の予測変数との間の線形関係を調べます。
予測変数が多数ある場合は、回帰モデルをすべての予測変数に適合する前に、ステップワイズ法またはベストサブセットによるモデル選択手法を使うことにより、予測変数をスクリーニングして応答と関係のない予測変数を排除します。
最小二乗(OLS)回帰では、サンプルのデータ点と方程式から推定される値との距離の平方和が最小となる方程式を求めることで推定式が計算されます。
予測変数が1つ(単回帰)の場合は、各データ点と回帰直線間の平方距離の和をできるだけ小さくします。
ここで、予測変数Xは曲線をモデル化するために二乗されています。Y = bo + b1X + b2X2
最小二乗回帰では、これらの前提がすべて満たされたときにだけ最良の予測ができるため、これらを検定しておくことは大切です。一般的な検定方法としては、残差プロットを調べる、不適合検定を実施する、分散拡大係数(VIF)を使って予測変数間の相関を調べることなどがあります。