回归系数描述了预测变量和响应变量之间关系的大小和方向。系数是回归方程中要与项值相乘的数值。
使用系数可以确定预测变量的变化会让事件发生的可能性变大还是变小。预测变量的估计系数表示当模型中的其他预测变量保持恒定时,预测变量发生一个单位的变化时链接函数的变化。系数和概率之间的关系取决于分析的多个方面,包括链接函数、响应变量的参考事件和模型中类别预测变量的参考水平。一般而言,正系数会使事件发生的可能性变大,负系数会使事件发生的可能性变小。估计系数接近 0 表示预测变量的效应较小。
类别预测变量的估计系数的解释相对于预测变量的参考水平。正系数表示事件在预测变量水平发生的可能性比在因子的参考水平发生的可能性大。负系数表示事件在预测变量水平发生的可能性比在参考水平发生的可能性小。
Logit 链接为估计系数提供了最自然的解释,因此它是 Minitab 中的默认链接。解释会利用参考事件几率为 P(事件)/P(非事件) 并假设其他预测变量保持恒定的情况。对数几率越大,参考事件发生的可能性越大。因此,正系数表示事件发生的可能性变大,负系数表示事件发生的可能性变小。不同类型的预测变量的解释汇总都遵循此标准。
如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。
使用系数的标准误来度量系数估计值的精确度。标准误越小,估计值越精确。
这些置信区间 (CI) 是值的极差,可能包含模型中每一项的系数的实际值。置信区间的计算采用正态分布。如果样本数量足够多(即样本系数的分布遵循正态分布),置信区间非常精确。
由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。
使用置信区间可以评估模型中每个项的总体系数估计值。
例如,当置信水平为 95% 时,包含总体系数值的置信区间的置信度为 95%。置信区间有助于评估结果的实际意义。利用您的专业知识可以确定置信区间是否包含对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。
Z 值是 Wald 检验的检验统计量,用来度量系数与其标准误之间的比值。
Minitab 使用 Z 值计算 P 值,使用 P 值可以做出有关项和模型的统计显著性的决定。在样本数量足够多(即样本系数的分布遵循正态分布)时,Wald 检验非常精确。
距离 0 足够远的 Z 值表示系数估计值足够大和精确,在统计上不同于 0。相反,靠近 0 的 Z 值表示系数估计值太小或太不精确,无法确定项对于响应变量是否有影响。
偏差表中的检验为似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。与 Wald 近似检验相比,较小样本的似然比更准确。
P 值是一个概率,用来测量否定原假设的证据。概率越低,否定原假设的证据越充分。
方差膨胀因子 (VIF) 表示系数的方差会因多重共线性而变多大。
使用 VIF 描述回归分析中存在的多重共线性有多大。多重共线性会产生问题,因为它会增大回归系数的方差,从而使得难以评估每个预测变量对响应变量的单独影响。
VIF | 多重共线性 |
---|---|
VIF = 1 | 无 |
1 < VIF < 5 | 中等 |
VIF > 5 | 高 |
有关多重共线性和如何缓解多重共线性效应的更多信息,请参见回归多重共线性。
当您标准化连续变量时,系数表示标准化变量的单位变化。通常情况下,标准化连续预测变量可以降低多重共线性或将变量置于公共尺度上。
编码系数的使用方式取决于标准化方法。系数的确切解释取决于分析的多个方面(如链接函数)。正系数表示事件发生的可能性较大。负系数表示事件发生的可能性较小。估计系数接近 0 表示预测变量的效应较小。
每个系数都表示预测变量在编码尺度上每变化 1 个单位时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。对于温度,编码将 0 对应于 50 摄氏度,将 1 对应于 100 摄氏度。对于时间,代码将 0 对应于 30 秒,将 1 对应于 60 秒。温度的系数表示增量为 50 摄氏度。时间的系数表示增量为 30 秒。
每个系数都表示预测变量每变化 1 个单位的标准差时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的标准差为 3.7 摄氏度。时间的标准差为 18.3 秒。温度的系数表示增量为 3.7 摄氏度。时间的系数表示增量为 18.3 秒。
每个系数都表示预测变量每变化 1 个单位时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的系数表示增量为 1 摄氏度。时间的系数表示增量为 1 秒。
每个系数都表示预测变量每变化 1 个单位的标准差时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的标准差为 3.7 摄氏度。时间的标准差为 18.3 秒。温度的系数表示增量为 3.7 摄氏度。时间的系数表示增量为 18.3 秒。
每个系数都表示预测变量除以一个数后变换的响应变量的均值的预期变化。
例如,一个模型使用以米为单位的长度和以安培为单位的电流。除数为 1000。长度的系数表示增量为 1 毫米。电流的系数表示增量为 1 毫安。
每个系数都表示预测变量在编码尺度上每变化 1 个单位时变换的响应变量的均值的预期变化。
例如,一个模型使用以摄氏度为单位的温度。编码将 0 对应于 50 摄氏度,将 1 对应于 100 摄氏度。温度的系数表示增量为 50 摄氏度。温度的系数为 1.8。温度每增加 1 个编码单位,温度增加 50 摄氏度,优势的自然对数增加 1.8。
每个系数都表示预测变量每变化 1 个单位的标准差时事件优势的自然对数的预期变化。
例如,一个模型使用以摄氏度为单位的温度。温度的标准差为 3.7 摄氏度。温度的编码系数为 1.4。温度每增加 1 个编码单位,温度增加 3.7 摄氏度,优势的自然对数增加 1.4。
每个系数都表示预测变量每变化 1 个单位时事件优势的自然对数的预期变化。
例如,一个模型使用以摄氏度为单位的温度。温度的系数表示增量为 1 摄氏度。温度的系数为 2.3。温度每增加 1 个编码单位,温度增加 1 摄氏度,优势的自然对数增加 2.3。
每个系数都表示预测变量每变化 1 个单位的标准差时事件优势的自然对数的预期变化。
例如,一个模型使用以摄氏度为单位的温度。温度的标准差为 3.7 摄氏度。温度的系数为 1.4。温度每增加 1 个编码单位,温度增加 3.7 摄氏度,优势的自然对数增加 1.4。
每个系数都表示预测变量除以一个数后事件优势的自然对数的预期变化。
例如,一个模型使用以米为单位的长度和以安培为单位的电流。除数为 1000。长度的系数表示增量为 1 毫米。长度的系数为 5.6。长度每增加 1 个编码单位,长度增加 1 毫米,优势的自然对数增加 5.6。电流的系数表示增量为 1 毫安。
对于二元 Logistic 回归,Minitab 会显示两种类型的回归方程。第一种方程会将事件概率与变换的响应变量相关。第一种方程的形式取决于链接函数。
第二种方程会将预测变量与变换的响应变量相关。如果模型包含连续预测变量和类别预测变量,则可以为每个类别组合拆分第二种方程。有关如何选择要显示的方程数量的更多信息,请转到选择要显示的结果 拟合二元 Logistic 模型和 二值 Logistic 回归。
使用这些方程研究响应变量和预测变量之间的关系。
第一种方程会因为 Logit 链接函数而显示概率和变换的响应变量之间的关系。
第二种方程会显示收入和顾客是否有孩子与变换后响应变量的相关方式。当顾客没有孩子时,收入的系数约为 0.04。当顾客有孩子时,收入的系数约为 0.02。对于这些方程,顾客的收入越多,他们购买产品的可能性越大。但是,当顾客没有孩子时,收入对顾客是否购买产品具有较大的效应。
P(1) | = | exp(Y')/(1 + exp(Y')) |
---|
孩子 | |||
---|---|---|---|
否 | Y' | = | -3.549 + 0.04296 收入 |
是 | Y' | = | -1.076 + 0.01565 收入 |
如果您的模型为非分层结构,并且您已标准化连续预测变量,则回归方程采用编码单位。有关更多信息,请参见有关“编码系数”的部分。有关层次结构的更多信息,请转到什么是分层模型?。