回归系数描述了预测变量和响应变量之间关系的大小和方向。系数是回归方程中要与项值相乘的数值。
使用系数来确定预测变量中的变化使事件的可能性变更大还是更小。预测变量的估计系数代表预测变量中每个单位变化的链接函数的变化,而模型中的其他预测变量则保持不变。系数和事件数之间的关系取决于几个方面的分析,包括模型中类别预测变量的链接函数和参考水平。一般来说,正系数让事件的可能性更大,而负系数则让事件的可能性更小。近于 0 的估计系数表明预测变量的效应较小或不存在。
类别预测变量的估计系数的解释与预测变量的参考水平相关。正系数表明事件处于预测变量水平的可能性要大于因子参考水平。负系数表明事件处于预测变量水平的可能性要小于参考水平。
如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。
使用系数的标准误来度量系数估计值的精确度。标准误越小,估计值越精确。
这些置信区间 (CI) 是值的极差,可能包含模型中每一项的系数的实际值。置信区间的计算采用正态分布。如果样本数量足够多(即样本系数的分布遵循正态分布),置信区间非常精确。
由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。
使用置信区间可以评估模型中每个项的总体系数估计值。
例如,当置信水平为 95% 时,包含总体系数值的置信区间的置信度为 95%。置信区间有助于评估结果的实际意义。利用您的专业知识可以确定置信区间是否包含对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。
Z 值是 Wald 检验的检验统计量,用来度量系数与其标准误之间的比值。
Minitab 使用 Z 值计算 P 值,使用 P 值可以做出有关项和模型的统计显著性的决定。在样本数量足够多(即样本系数的分布遵循正态分布)时,Wald 检验非常精确。
距离 0 足够远的 Z 值表示系数估计值足够大和精确,在统计上不同于 0。相反,靠近 0 的 Z 值表示系数估计值太小或太不精确,无法确定项对于响应变量是否有影响。
偏差表中的检验为似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。与 Wald 近似检验相比,较小样本的似然比更准确。
P 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。
偏差表中的检验为似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。与 Wald 近似检验相比,较小样本的似然比更准确。
方差膨胀因子 (VIF) 表示,根据模型中预测变量之间的关联,系数方差膨胀的程度。
使用 VIF 来描述回归分析中存在的多重共线性的程度(与预测变量之间相关联)。多重共线性存在问题,因为它可能会增大回归系数的方差,从而难以评估每个相关预测变量对于响应值的单独影响。
VIF | 预测变量状态 |
---|---|
VIF = 1 | 不相关 |
1 < VIF < 5 | 中等相关 |
VIF > 5 | 高度相关 |
有关多重共线性以及如何减轻多重共线性的影响的更多信息,请查看回归中的多重共线性。
当您标准化连续变量时,系数表示标准化变量的单位变化。通常情况下,标准化连续预测变量可以降低多重共线性或将变量置于公共尺度上。
编码系数的使用方式取决于标准化方法。系数的确切解释取决于分析的多个方面(如链接函数)。正系数表示事件发生的可能性较大。负系数表示事件发生的可能性较小。估计系数接近 0 表示预测变量的效应较小。
每个系数都表示预测变量在编码尺度上每变化 1 个单位时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。对于温度,编码将 0 对应于 50 摄氏度,将 1 对应于 100 摄氏度。对于时间,代码将 0 对应于 30 秒,将 1 对应于 60 秒。温度的系数表示增量为 50 摄氏度。时间的系数表示增量为 30 秒。
每个系数都表示预测变量每变化 1 个单位的标准差时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的标准差为 3.7 摄氏度。时间的标准差为 18.3 秒。温度的系数表示增量为 3.7 摄氏度。时间的系数表示增量为 18.3 秒。
每个系数都表示预测变量每变化 1 个单位时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的系数表示增量为 1 摄氏度。时间的系数表示增量为 1 秒。
每个系数都表示预测变量每变化 1 个单位的标准差时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的标准差为 3.7 摄氏度。时间的标准差为 18.3 秒。温度的系数表示增量为 3.7 摄氏度。时间的系数表示增量为 18.3 秒。
每个系数都表示预测变量除以一个数后变换的响应变量的均值的预期变化。
例如,一个模型使用以米为单位的长度和以安培为单位的电流。除数为 1000。长度的系数表示增量为 1 毫米。电流的系数表示增量为 1 毫安。
每个系数都表示预测变量在编码尺度上每变化 1 个单位时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度。编码将 0 对应于 50 摄氏度,将 1 对应于 100 摄氏度。温度的系数表示增量为 50 摄氏度。温度的系数为 1.8。温度每增加 1 个编码单位,温度增加 50 摄氏度,优势的自然对数增加 1.8。
每个系数都表示预测变量每变化 1 个单位的标准差时事件优势的自然对数的预期变化。
例如,一个模型使用以摄氏度为单位的温度。温度的标准差为 3.7 摄氏度。温度的编码系数为 1.4。温度每增加 1 个编码单位,温度增加 3.7 摄氏度,优势的自然对数增加 1.4。
每个系数都表示预测变量每变化 1 个单位时事件优势的自然对数的预期变化。
例如,一个模型使用以摄氏度为单位的温度。温度的系数表示增量为 1 摄氏度。温度的系数为 2.3。温度每增加 1 个编码单位,温度增加 1 摄氏度,优势的自然对数增加 2.3。
每个系数都表示预测变量每变化 1 个单位的标准差时事件优势的自然对数的预期变化。
例如,一个模型使用以摄氏度为单位的温度。温度的标准差为 3.7 摄氏度。温度的系数为 1.4。温度每增加 1 个编码单位,温度增加 3.7 摄氏度,优势的自然对数增加 1.4。
每个系数都表示预测变量除以一个数后事件优势的自然对数的预期变化。
例如,一个模型使用以米为单位的长度和以安培为单位的电流。除数为 1000。长度的系数表示增量为 1 毫米。长度的系数为 5.6。长度每增加 1 个编码单位,长度增加 1 毫米,优势的自然对数增加 5.6。电流的系数表示增量为 1 毫安。
对于 Poisson 回归,Minitab 会显示两种类型的回归方程。第一种方程会将事件数与变换的响应变量相关。第一种方程的形式取决于链接函数。
第二种方程会将预测变量与变换的响应变量相关。如果模型包含连续预测变量和类别预测变量,则可以为每个类别组合拆分第二种方程。有关如何选择要显示的方程数量的更多信息,请转到选择要针对拟合 Poisson 模型显示的结果。
使用这些方程研究响应变量和预测变量之间的关系。
第一种方程会因为自然对数链接函数而显示事件数和变换的响应变量之间的关系。
第二种方程会显示螺丝钉大小和温度如何与变换的响应变量相关。当螺丝钉较大时,温度系数约为 −0.003。当螺丝钉较小时,温度系数约为 −0.0005。对于这些方程,温度越高,出现的缺陷越少。但是,当螺丝钉较大时,温度对缺陷数量具有较大的效应。
褪色缺陷 | = | exp(Y') |
---|
螺丝钉大小 | |||
---|---|---|---|
大 | Y' | = | 4.649 - 0.003285 温度 |
小 | Y' | = | 4.105 - 0.000481 温度 |
如果您的模型为非分层结构,并且您已标准化连续预测变量,则回归方程采用编码单位。有关更多信息,请参见有关“编码系数”的部分。有关层次结构的更多信息,请转到什么是分层模型?。