回归系数描述了预测变量和响应变量之间关系的大小和方向。系数是回归方程中要与项值相乘的数值。
项系数代表与该项中变化相关的均值响应的变化,而模型中的其他项则保持不变。系数的符号表明项和响应之间关系的方向。系数的大小是评估项对于响应变量是否具有实际意义的好方式。但是,系数的大小不代表一个项是否在统计意义上显著,因为显著性的计算还要考虑响应数据中的变异。要确定统计显著性,请检查该项的 p 值。
项系数代表该项中单位变化的均值响应的变化。如果系数为负,随着项递增,响应的均值会递减。如果系数为正,随着项数递增,响应的均值也会递增。
例如,某经理要确定员工在工作技能检验中的分数是否可以使用回归模型 y = 130 + 4.3x 1 + 10.1x2 进行预测。在方程中,x1 是内部培训的小时数(0 到 20 之间),而变量 x2 是类别变量,在员工有导师的情况下,该变量等于 1,而在员工没有导师的情况下,该变量等于 0。响应值为 y 且为检验分数。培训小时数连续变量的系数为 4.3,这表示每小时培训的平均检验分数按照 4.3 点递增。如果使用 (0, 1) 编码方案,指导的类别变量系数表明,具有导师的员工平均分数为 10.1 点,高于没有导师的员工。
Minitab 可以采用针对模型中连续变量的各种编码方案,拟合线性模型。这些编码方案能够改善估计流程和结果解释。此外,编码单位可以改变统计检验的结果,这些结果用于确定各项是否为该响应的显著预测变量。当模型使用编码单位时,分析将生成编码系数。
如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。
使用系数的标准误可度量系数估计值的精确度。标准误越小,估计值越精确。将系数除以其标准误计算 t 值。如果与该 t 统计量相关联的 p 值小于显著性水平,则可以得出系数在统计意义上显著的结论。
例如,技术人员将日照量模型作为太阳热能检验的一部分进行估计:
项 | 系数 | 系数标准误 | T 值 | P 值 | 方差膨胀因子 |
---|---|---|---|---|---|
常量 | 809 | 377 | 2.14 | 0.042 | |
南 | 20.81 | 8.65 | 2.41 | 0.024 | 2.24 |
北 | -23.7 | 17.4 | -1.36 | 0.186 | 2.17 |
当日时间 | -30.2 | 10.8 | -2.79 | 0.010 | 3.86 |
在此模型中,北方和南方用英寸度量焦点的位置。北方和南方的系数量级相似。南方系数的标准误小于北方系数的标准误。因此,模型可以更精确地估计南方系数。
北方系数的标准误几乎与系数本身的值一样大。生成的 p 值大于显著性水平的通用水平,所以您无法得出北方系数不等于 0 的结论。
在南方系数与北方系数相比更接近于 0 的情况下,南方系数的标准误也更小。生成的 p 值小于通用显著性水平。因为南方系数的估计值更为精确,您可以得出南方系数不等于 0 的结论。
统计显著性是您可以用来减小多元回归中模型的一种标准。有关更多信息,请转到模型简化。
这些置信区间 (CI) 是可能包含模型中每个项的实际系数值的值范围。
由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。
使用置信区间可以评估模型中每个项的总体系数估计值。
例如,当置信水平为 95% 时,包含总体系数值的置信区间的置信度为 95%。置信区间有助于评估结果的实际意义。利用您的专业知识可以确定置信区间是否包含对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。
T 值用来度量系数与其标准误之间的比值。
Minitab 使用 t 值计算 p 值,该 p 值可用于检验系数是否与 0 显著不同。
您可以使用 t 值来确定是否要否定原假设。但是,通常会使用 p 值,因为无论自由度是多少,否定原假设的阈值都相同。有关使用 t 值的更多信息,请转到使用 t 值来确定是否要否定原假设。
P 值是一个概率,用来测量否定原假设的证据。概率越低,否定原假设的证据越充分。
方差膨胀因子 (VIF) 表示,根据模型中预测变量之间的关联,系数方差膨胀的程度。
使用 VIF 来描述回归分析中存在的多重共线性的程度(与预测变量之间相关联)。多重共线性存在问题,因为它可能会增大回归系数的方差,从而难以评估每个相关预测变量对于响应值的单独影响。
VIF | 预测变量状态 |
---|---|
VIF = 1 | 不相关 |
1 < VIF < 5 | 中等相关 |
VIF > 5 | 高度相关 |
有关多重共线性以及如何减轻多重共线性的影响的更多信息,请查看回归中的多重共线性。