拟合二元 Logistic 模型的系数和回归方程

在系数表格和回归方程中查找每个统计量的定义和解释指导。

系数

回归系数描述了预测变量和响应变量之间关系的大小和方向。系数是回归方程中要与项值相乘的数值。

解释

使用系数可以确定预测变量的变化会让事件发生的可能性变大还是变小。预测变量的估计系数表示当模型中的其他预测变量保持恒定时,预测变量发生一个单位的变化时链接函数的变化。系数和概率之间的关系取决于分析的多个方面,包括链接函数、响应变量的参考事件和模型中类别预测变量的参考水平。一般而言,正系数会使事件发生的可能性变大,负系数会使事件发生的可能性变小。估计系数接近 0 表示预测变量的效应较小。

类别预测变量的估计系数的解释相对于预测变量的参考水平。正系数表示事件在预测变量水平发生的可能性比在因子的参考水平发生的可能性大。负系数表示事件在预测变量水平发生的可能性比在参考水平发生的可能性小。

Logit 链接函数的解释

Logit 链接为估计系数提供了最自然的解释,因此它是 Minitab 中的默认链接。解释会利用参考事件几率为 P(事件)/P(非事件) 并假设其他预测变量保持恒定的情况。对数几率越大,参考事件发生的可能性越大。因此,正系数表示事件发生的可能性变大,负系数表示事件发生的可能性变小。不同类型的预测变量的解释汇总都遵循此标准。

连续预测变量
连续预测变量的系数是预测变量发生一个单位的变化时,参考事件的几率的自然对数的估计变化。例如,如果以秒为单位的时间的系数为 1.4,则时间每增加一秒,几率的自然对数就增加 1.4。
估计系数也可以用于计算优势比,即两个优势之间的比率。要计算优势比,请对预测变量的系数取指数。结果是预测变量为 x+1 时(相较于预测变量为 x 时)的优势比。例如,如果以千克为单位的质量的优势比为 0.95,则质量每增加一千克时,事件的概率会降低约 5%。
对于连续预测变量,几率的解释可能比优势比的解释更有意义。
使用 1、0 编码的类别预测变量
从参考水平变为系数的水平时,系数就是几率的自然对数中的估计变化。例如,一个类别变量的水平为“快”和“慢”,参考水平为“慢”。如果“快”的系数为 1.3,则当变量从“慢”变为“快”时,事件的几率的自然对数会增加 1.3。
估计系数也可以用于计算优势比,即两个优势之间的比率。要计算优势比,请对水平的系数取指数。结果是相较于参考水平的水平的优势比。例如,一个类别变量的水平为“硬”和“软”,“软”为参考水平。如果“硬”的优势比为 0.5,则当水平从“软”变为“硬”时,事件的几率会降低 50%。
使用 1、0、−1 编码的类别预测变量
从几率的自然对数的平均值变为系数的水平时,系数是几率的自然对数中的估计变化。例如,一个类别变量的水平为“变化前”和“变化后”。如果“变化后”的系数为 −2.1,则当变量等于“变化后”时,事件的几率的自然对数会降低 2.1。
估计系数也可以用于计算优势比。要找到对应值以取指数,请减去要比较的系数。例如,一个类别变量的水平为“红”、“黄”和“绿”。要计算“红”和“黄”的优势比,请将“黄”的系数减去“红”的系数,然后对结果取指数。如果优势比为 1.02,则从“红”变为“黄”时,事件的几率会增加 2%。

系数标准误

如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。

解释

使用系数的标准误来度量系数估计值的精确度。标准误越小,估计值越精确。

系数的置信区间(95% 置信区间)

这些置信区间 (CI) 是值的极差,可能包含模型中每一项的系数的实际值。置信区间的计算采用正态分布。如果样本数量足够多(即样本系数的分布遵循正态分布),置信区间非常精确。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计
此单个值通过使用样本数据来估计总体参数。置信区间集中在此点估计值附近。
边际误差
边际误差定义了置信区间的宽度并由样本、样本数量和置信水平中的观测变异性确定。要计算置信区间的上限,需要将边际误差与点估计值相加。要计算置信区间的下限,需要从点估计值减去边际误差。

解释

使用置信区间可以评估模型中每个项的总体系数估计值。

例如,当置信水平为 95% 时,包含总体系数值的置信区间的置信度为 95%。置信区间有助于评估结果的实际意义。利用您的专业知识可以确定置信区间是否包含对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。

Z 值

Z 值是 Wald 检验的检验统计量,用来度量系数与其标准误之间的比值。

解释

Minitab 使用 Z 值计算 P 值,使用 P 值可以做出有关项和模型的统计显著性的决定。在样本数量足够多(即样本系数的分布遵循正态分布)时,Wald 检验非常精确。

距离 0 足够远的 Z 值表示系数估计值足够大和精确,在统计上不同于 0。相反,靠近 0 的 Z 值表示系数估计值太小或太不精确,无法确定项对于响应变量是否有影响。

偏差表中的检验为似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。与 Wald 近似检验相比,较小样本的似然比更准确。

P 值

P 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。

偏差表中的检验为似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。与 Wald 近似检验相比,较小样本的似然比更准确。

解释

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项的系数等于零,这意味着该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到模型简化
如果一个模型项在统计意义上显著,则解释取决于该项的类型。解释如下所示:
  • 如果一个连续预测变量显著,则可以断定该预测变量的系数不等于零。
  • 如果类别预测变量显著,结论将取决于类别变量的编码。使用 (0, 1) 编码时,您可以断定相应水平的概率不等于参考水平的概率。使用 (-1, 0, +1) 编码时,您可以断定相应水平的概率不等于基线概率。
  • 如果一个交互作用项显著,则可以断定预测变量与事件概率之间的关系取决于该项中的其他预测变量。
  • 如果一个多项式项显著,则可以断定预测变量与事件概率之间的关系取决于预测变量的量值。

方差膨胀因子

方差膨胀因子 (VIF) 表示系数的方差会因多重共线性而变多大。

解释

使用 VIF 描述回归分析中存在的多重共线性有多大。多重共线性会产生问题,因为它会增大回归系数的方差,从而使得难以评估每个预测变量对响应变量的单独影响。

使用以下准则解释 VIF:
VIF 多重共线性
VIF = 1
1 < VIF < 5 中等
VIF > 5
VIF 值大于 5 表示因严重的多重共线性而使回归系数的估计不准确。

有关多重共线性和如何缓解多重共线性效应的更多信息,请参见回归中的多重共线性

编码系数

当您标准化连续变量时,系数表示标准化变量的单位变化。通常情况下,标准化连续预测变量可以降低多重共线性或将变量置于公共尺度上。

解释

编码系数的使用方式取决于标准化方法。系数的确切解释取决于分析的多个方面(如链接函数)。正系数表示事件发生的可能性较大。负系数表示事件发生的可能性较小。估计系数接近 0 表示预测变量的效应较小。

将代码的低水平和高水平分别指定为 −1 和 +1

每个系数都表示预测变量在编码尺度上每变化 1 个单位时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。对于温度,编码将 0 对应于 50 摄氏度,将 1 对应于 100 摄氏度。对于时间,代码将 0 对应于 30 秒,将 1 对应于 60 秒。温度的系数表示增量为 50 摄氏度。时间的系数表示增量为 30 秒。

减去均值,然后除以标准差

每个系数都表示预测变量每变化 1 个单位的标准差时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的标准差为 3.7 摄氏度。时间的标准差为 18.3 秒。温度的系数表示增量为 3.7 摄氏度。时间的系数表示增量为 18.3 秒。

减去均值

每个系数都表示预测变量每变化 1 个单位时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的系数表示增量为 1 摄氏度。时间的系数表示增量为 1 秒。

除以标准差

每个系数都表示预测变量每变化 1 个单位的标准差时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的标准差为 3.7 摄氏度。时间的标准差为 18.3 秒。温度的系数表示增量为 3.7 摄氏度。时间的系数表示增量为 18.3 秒。

减去指定值,然后除以另一个指定值

每个系数都表示预测变量除以一个数后变换的响应变量的均值的预期变化。

例如,一个模型使用以米为单位的长度和以安培为单位的电流。除数为 1000。长度的系数表示增量为 1 毫米。电流的系数表示增量为 1 毫安。

Logit 链接函数的解释

Logit 链接函数为估计系数提供了最自然的解释,因此它是 Minitab 中默认的链接函数。对于 Logit 链接函数,变换的响应变量是事件优势的自然对数。不同标准化方法的解释的汇总如下。
将代码的低水平和高水平分别指定为 −1 和 +1

每个系数都表示预测变量在编码尺度上每变化 1 个单位时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度。编码将 0 对应于 50 摄氏度,将 1 对应于 100 摄氏度。温度的系数表示增量为 50 摄氏度。温度的系数为 1.8。温度每增加 1 个编码单位,温度增加 50 摄氏度,优势的自然对数增加 1.8。

减去均值,然后除以标准差

每个系数都表示预测变量每变化 1 个单位的标准差时事件优势的自然对数的预期变化。

例如,一个模型使用以摄氏度为单位的温度。温度的标准差为 3.7 摄氏度。温度的编码系数为 1.4。温度每增加 1 个编码单位,温度增加 3.7 摄氏度,优势的自然对数增加 1.4。

减去均值

每个系数都表示预测变量每变化 1 个单位时事件优势的自然对数的预期变化。

例如,一个模型使用以摄氏度为单位的温度。温度的系数表示增量为 1 摄氏度。温度的系数为 2.3。温度每增加 1 个编码单位,温度增加 1 摄氏度,优势的自然对数增加 2.3。

除以标准差

每个系数都表示预测变量每变化 1 个单位的标准差时事件优势的自然对数的预期变化。

例如,一个模型使用以摄氏度为单位的温度。温度的标准差为 3.7 摄氏度。温度的系数为 1.4。温度每增加 1 个编码单位,温度增加 3.7 摄氏度,优势的自然对数增加 1.4。

减去指定值,然后除以另一个指定值

每个系数都表示预测变量除以一个数后事件优势的自然对数的预期变化。

例如,一个模型使用以米为单位的长度和以安培为单位的电流。除数为 1000。长度的系数表示增量为 1 毫米。长度的系数为 5.6。长度每增加 1 个编码单位,长度增加 1 毫米,优势的自然对数增加 5.6。电流的系数表示增量为 1 毫安。

回归方程

对于二元 Logistic 回归,Minitab 会显示两种类型的回归方程。第一种方程会将事件概率与变换的响应变量相关。第一种方程的形式取决于链接函数。

第二种方程会将预测变量与变换的响应变量相关。如果模型包含连续预测变量和类别预测变量,则可以为每个类别组合拆分第二种方程。有关如何选择要显示的方程数量的更多信息,请转到选择要拟合二元 Logistic 模型针对显示的结果

解释

使用这些方程研究响应变量和预测变量之间的关系。

例如,用于预测顾客是否购买产品的模型包含以下项:
  • 顾客的收入
  • 顾客是否有孩子
  • 两个预测变量之间的交互作用

第一种方程会因为 Logit 链接函数而显示概率和变换的响应变量之间的关系。

第二种方程会显示收入和顾客是否有孩子与变换后响应变量的相关方式。当顾客没有孩子时,收入的系数约为 0.04。当顾客有孩子时,收入的系数约为 0.02。对于这些方程,顾客的收入越多,他们购买产品的可能性越大。但是,当顾客没有孩子时,收入对顾客是否购买产品具有较大的效应。

二值 Logistic 回归: 购买 与 收入, 孩子

以未编码单位表示的回归方程 P(1) = exp(Y')/(1 + exp(Y'))
孩子 否 Y' = -3.549 + 0.04296 收入 是 Y' = -1.076 + 0.01565 收入

如果您的模型为非分层结构,并且您已标准化连续预测变量,则回归方程采用编码单位。有关更多信息,请参见有关“编码系数”的部分。有关层次结构的更多信息,请转到什么是分层模型?

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策