拟合一般线性模型的系数表

请查找定义和解释指导,了解系数表中的每个统计量。

系数

回归系数描述了预测变量和响应变量之间关系的大小和方向。系数是回归方程中要与项值相乘的数值。

解释

项系数代表与该项中变化相关的均值响应的变化,而模型中的其他项则保持不变。系数的符号表明项和响应之间关系的方向。系数的大小是评估项对于响应变量是否具有实际意义的好方式。但是,系数的大小不代表一个项是否在统计意义上显著,因为显著性的计算还要考虑响应数据中的变异。要确定统计显著性,请检查该项的 p 值。

每个系数的解释取决于系数是连续变量还是类别变量,描述如下:
连续变量

项系数代表该项中单位变化的均值响应的变化。如果系数为负,随着项递增,响应的均值会递减。如果系数为正,随着项数递增,响应的均值也会递增。

类别变量
除了一种情况之外,将列出每个类别变量水平的系数(除非选择针对结果子对话框中的所有水平显示系数)。必须将一个类别变量水平的系数设置为 0,模型才能拟合。类别变量系数的解释取决于您为类别变量所选择的编码方案。此编码方案可在编码子对话框中进行更改。
  • 在 (0, 1) 编码方案中,每个系数均代表每个水平均值和参考水平均值之间的差值。参考水平的系数未显示在系数表中。
  • 在 (−1, 0,+1) 编码方案中,每个系数均代表每个水平均值和整体均值之间的差值。

例如,某经理要确定员工在工作技能检验中的分数是否可以使用回归模型 y = 130 + 4.3x 1 + 10.1x2 进行预测。在方程中,x1 是内部培训的小时数(0 到 20 之间),而变量 x2 是类别变量,在员工有导师的情况下,该变量等于 1,而在员工没有导师的情况下,该变量等于 0。响应值为 y 且为检验分数。培训小时数连续变量的系数为 4.3,这表示每小时培训的平均检验分数按照 4.3 点递增。如果使用 (0, 1) 编码方案,指导的类别变量系数表明,具有导师的员工平均分数为 10.1 点,高于没有导师的员工。

编码系数

Minitab 可以采用针对模型中连续变量的各种编码方案,拟合线性模型。这些编码方案能够改善估计流程和结果解释。此外,编码单位可以改变统计检验的结果,这些结果用于确定各项是否为该响应的显著预测变量。当模型使用编码单位时,分析将生成编码系数。

解释

Minitab 所采用的编码方法会对编码系数的估计和解释产生影响,如下所示:
将要编码的低水平和高水平指定为 -1 和 +1
此方法可同时集中和调整变量。Minitab 在实验设计 (DOE) 中采用该方法。其中,系数代表与所指定的高值和低值相关的响应的均值变化。
减去均值,然后除以标准差
此方法可同时集中和调整变量。每个系数均代表响应的预期变化(该响应在变量中给定了标准差变化)。
减去均值
此方法可集中变量。每个系数均代表响应的预期变化(该响应使用原始测量尺度,在变量中给定了一个单位变化)。当您减掉均值以后,常量将在所有预测变量处于其均值的情况下,估计均值响应。
除以标准差
此方法可调整变量。每个系数均代表响应的预期变化(该响应在变量中给定了一个标准差变化)。
减去指定值,然后除以另一个值
此方法的效应和解释取决于您所输入的值。

系数标准误

如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。

解释

使用系数的标准误可度量系数估计值的精确度。标准误越小,估计值越精确。将系数除以其标准误计算 t 值。如果与该 t 统计量相关联的 p 值小于显著性水平,则可以得出系数在统计意义上显著的结论。

例如,技术人员将日照量模型作为太阳热能检验的一部分进行估计:

回归分析: 暴晒 与 南, 北, 当日时间

系数

系数系数标准误T 值P 值方差膨胀因子
常量8093772.140.042 
20.818.652.410.0242.24
-23.717.4-1.360.1862.17
当日时间-30.210.8-2.790.0103.86

在此模型中,北方和南方用英寸度量焦点的位置。北方和南方的系数量级相似。南方系数的标准误小于北方系数的标准误。因此,模型可以更精确地估计南方系数。

北方系数的标准误几乎与系数本身的值一样大。生成的 p 值大于显著性水平的通用水平,所以您无法得出北方系数不等于 0 的结论。

在南方系数与北方系数相比更接近于 0 的情况下,南方系数的标准误也更小。生成的 p 值小于通用显著性水平。因为南方系数的估计值更为精确,您可以得出南方系数不等于 0 的结论。

统计显著性是您可以用来减小多元回归中模型的一种标准。有关更多信息,请转到模型简化

系数的置信区间(95% 置信区间)

这些置信区间 (CI) 是可能包含模型中每个项的实际系数值的值范围。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计
此单个值通过使用样本数据来估计总体参数。置信区间集中在此点估计值附近。
边际误差
边际误差定义了置信区间的宽度并由样本、样本数量和置信水平中的观测变异性确定。要计算置信区间的上限,需要将边际误差与点估计值相加。要计算置信区间的下限,需要从点估计值减去边际误差。

解释

使用置信区间可以评估模型中每个项的总体系数估计值。

例如,当置信水平为 95% 时,包含总体系数值的置信区间的置信度为 95%。置信区间有助于评估结果的实际意义。利用您的专业知识可以确定置信区间是否包含对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。

T 值

T 值用来度量系数与其标准误之间的比值。

解释

Minitab 使用 t 值计算 p 值,该 p 值可用于检验系数是否与 0 显著不同。

您可以使用 t 值来确定是否要否定原假设。但是,通常会使用 p 值,因为无论自由度是多少,否定原假设的阈值都相同。有关使用 t 值的更多信息,请转到使用 t 值来确定是否要否定原假设

P 值 – 系数

P 值是一个概率,用来测量否定原假设的证据。概率越低,否定原假设的证据越充分。

解释

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项的系数等于零,这意味着该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 .05 即可。显著性水平 .05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到模型简化
如果一个模型项在统计意义上显著,则解释取决于该项的类型。解释如下所示:
  • 如果一个连续变量的系数显著,则该变量的值的变化与平均响应值的变化相关联。
  • 如果一个类别水平的系数显著,则该水平的均值不同于总体均值(-1、0、+1 编码)或参考水平的均值(0、1 编码)。
  • 如果一个交互作用项的系数显著,则因子与响应之间的关系取决于该项中的其他因子。在这种情况下,不应在不考虑交互作用效应时解释主效应。
  • 如果一个多项式项的系数显著,则可以得出数据包含弯曲的结论。

方差膨胀因子

方差膨胀因子 (VIF) 表示,根据模型中预测变量之间的关联,系数方差膨胀的程度。

解释

使用 VIF 来描述回归分析中存在的多重共线性的程度(与预测变量之间相关联)。多重共线性存在问题,因为它可能会增大回归系数的方差,从而难以评估每个相关预测变量对于响应值的单独影响。

使用以下准则解释 VIF:
VIF 预测变量状态
VIF = 1 不相关
1 < VIF < 5 中等相关
VIF > 5 高度相关
VIF 值大于 5 表明,由于严重的多重共线性,回归系数估计不足。

有关多重共线性以及如何减轻多重共线性的影响的更多信息,请查看回归中的多重共线性