回归分析生成方程以描述一个或多个预测变量与响应变量之间的统计学关系,并预测新观测值。线性回归一般使用通过使平方残差之和最小化来导出方程的普通最小二乘估计法。
例如,您为一家薯片公司工作,该公司正在分析发货前影响每个包装内碎薯片百分比的因子(响应变量)。您正在进行回归分析,并以马铃薯相对其他成分的百分比和加工温度(摄氏度)作为两个预测变量。下面是结果表格。
含有一个预测变量的模型被称为简单回归。含有多个预测变量的模型被称为多元线性回归。
简单线性回归检查两个连续变量之间的线性关系:一个响应变量 (y) 和一个预测变量 (x)。当这两个变量相关时,可以从几率准确性更好的预测变量值预测出响应值。
多元线性回归检查一个连续响应与两个或更多个预测变量之间的线性关系。
如果预测变量的数量很大,则在用所有预测变量拟合回归模型之前,应使用逐步或最佳子集模型选择技术筛除与响应无关的预测变量。
在普通最小二乘 (OLS) 回归中,估计方程可通过确定将样本的数据点与由方程预测的值之间的距离平方和最小化的方程计算得出。
在只有一个预测变量(简单线性回归)的情况下,每个点与线之间的距离平方和会尽可能小。
在此,对预测变量 X 进行了平方计算以便为弯曲建模。Y = bo + b1X + b2X2
由于仅当所有这些假定都满足时,OLS 回归才会提供最佳估计值,因此检验这些假定非常重要。常用方法包括检查残差图、使用失拟检验以及使用方差膨胀因子 (VIF) 查看预测变量之间的相关性。