顺序 Logistic 回归的 Logistic 回归表

在 Logistic 回归表中查找每个统计量的定义和解释指导。

系数

顺序 Logistic 回归可以估计模型中每一项的系数。对于每个结果类别,模型中项的系数均相同。

顺序 Logistic 回归还可以估计除了一个结果类别之外的所有结果类别的常量系数。常量系数结合变量系数可以形成一组二元回归方程。第一个方程可以估计第一个事件发生的概率。第二个方程可以估计第一个或第二个事件发生的概率。第三个方程可以估计第一个、第二个或第三个事件发生的概率,以此类推。Minitab 会将这些常量系数标记为 Const (1)、Const (2)、Const (3),以此类推。

解释

使用系数检查当预测变量变化时结果概率的变化情况。预测变量的估计系数表示当模型中的其他预测变量保持恒定时,预测变量发生一个单位的变化时链接函数的变化。系数和结果概率之间的关系取决于分析的多个方面,其中包括链接函数、响应类别的顺序以及模型中类别预测变量的参考水平。一般而言,正系数会在预测变量增大时使第一个事件和距离该事件较近的事件发生的可能性变大。负系数会在预测变量增大时使最后一个事件和距离该事件较近的事件发生的可能性变大。估计系数接近 0 表示预测变量的效应较小。

例如,患者满意度调查分析可以检查患者距离诊所远近和患者复诊可能性之间的关系。第一个事件就是响应信息表中的第一个事件。在这种情况下,第一个事件为“很可能”,最后一个事件为“不可能”。距离的负系数表示随着距离的增加,患者回答“不可能”的可能性更大。

响应信息 变量 值 计数 复诊 很可能 19 有可能 43 不可能 11 合计 73
Logistic 回归表 95% 置信区 间 自变量 系数 系数标准误 Z P 优势比 下限 上限 常量(1) -0.505898 0.938791 -0.54 0.590 常量(2) 2.27788 0.985924 2.31 0.021 距离 -0.0470551 0.0797374 -0.59 0.555 0.95 0.82 1.12

对于类别预测变量,变化为从参考水平到 Logistic 回归表中的预测变量的水平。一般而言,正系数表示第一个事件在 Logistic 回归表中的因子水平发生的可能性比在因子的参考水平发生的可能性大。负系数表示最后一个事件在 Logistic 回归表中的因子水平发生的可能性比在因子的参考水平发生的可能性大。

例如,患者满意度调查分析可以检查患者就业状态和患者复诊可能性之间的关系。第一个事件为“很可能”,最后一个事件为“不可能”。就业状态可以是“失业”或“在职”。预测变量的参考水平(不在 Logistic 回归表中)为“在职”。水平为“失业”的负系数表示失业患者回答“不可能”的可能性比在职患者的大。

响应信息 变量 值 计数 复诊 很可能 19 有可能 43 不可能 11 合计 73
Logistic 回归表 95% 置信区 间 自变量 系数 系数标准误 Z P 优势比 下限 上限 常量(1) -1.33898 0.361040 -3.71 0.000 常量(2) 1.49169 0.373022 4.00 0.000 就业状态 在职 0.631468 0.471078 1.34 0.180 1.88 0.75 4.73
注意

常量系数结合预测变量的项可估计概率。Minitab 可以在您执行该分析时将观测值的这些概率存储在工作表中。有关更多信息,请转到顺序 Logistic 回归的存储统计量

系数标准误

如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。

解释

使用系数的标准误来度量系数估计值的精确度。标准误越小,估计值越精确。

Z 值

Z 值是检验统计量,用来度量系数与其标准误之间的比率。

解释

Minitab 使用 Z 值计算 P 值,使用 P 值可以做出有关项和模型的统计显著性的决定。在样本数量足够多(即样本系数的分布遵循正态分布)时,该检验非常精确。

距离 0 足够远的 Z 值表示系数估计值足够大和精确,在统计上不同于 0。相反,靠近 0 的 Z 值表示系数估计值太小或太不精确,无法确定项对于响应变量是否有影响。

P 值

P 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。

解释

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项的系数等于零,这意味着该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到模型简化
如果一个模型项在统计意义上显著,则解释取决于该项的类型。解释如下所示:
  • 如果一个连续预测变量显著,则可以断定响应水平概率取决于该预测变量。
  • 如果一个类别预测变量显著,则可以断定响应水平的不同概率会出现在因子的相应水平而不是因子的参考水平。
  • 如果一个交互作用项显著,则可以断定预测变量与响应水平概率之间的关系取决于该项中的其他预测变量。
  • 如果一个多项式项显著,则可以断定预测变量与响应水平概率之间的关系取决于预测变量的量值。

优势比

优势比可比较两个事件的几率。事件的几率是事件发生的概率除以事件不发生的概率。当模型使用 Logit 链接函数时,Minitab 会计算优势比。

解释

使用优势比可以了解预测变量的效应。对优势比的解释取决于预测变量是类别变量还是连续变量。

连续预测变量的优势比

优势比大于 1,表示当预测变量增大时,第一个事件和距离第一个事件较近的事件发生的可能性较大。优势比小于 1,表示最后一个事件和距离该事件较近的事件发生的可能性较大。

例如,患者满意度调查分析可以检查患者距离诊所远近和患者复诊可能性之间的关系。第一个事件就是响应信息表中的第一个事件。在这种情况下,第一个事件为“很可能”,最后一个事件为“不可能”。距离优势比 0.95 表示随着距离的增加,患者回答“不可能”的可能性更大。患者距离诊所的路程每增加一英里,患者回答“很可能”而不是“有可能”或“不可能”的几率会降低约 5%。

响应信息 变量 值 计数 复诊 很可能 19 有可能 43 不可能 11 合计 73
Logistic 回归表 95% 置信区 间 自变量 系数 系数标准误 Z P 优势比 下限 上限 常量(1) -0.505898 0.938791 -0.54 0.590 常量(2) 2.27788 0.985924 2.31 0.021 距离 -0.0470551 0.0797374 -0.59 0.555 0.95 0.82 1.12
类别预测变量的优势比

对于类别预测变量,优势比可以比较事件在两个不同的预测变量水平发生的几率。优势比大于 1,表示第一个事件和距离第一个事件较近的事件在 Logistic 回归表中的预测变量水平发生的可能性比在预测变量的参考水平发生的可能性大。优势比小于 1,表示最后一个事件和距离该事件较近的事件在 Logistic 回归表中的预测变量水平发生的可能性比在预测变量的参考水平发生的可能性大。

例如,患者满意度调查分析可以检查患者就业状态和患者复诊可能性之间的关系。第一个事件为“很可能”,最后一个事件为“不可能”。就业状态可以是“失业”或“在职”。预测变量的参考水平(不在 Logistic 回归表中)为“在职”。优势比小于 1,因此在职患者回答“很可能”会复诊的可能性比失业患者的大。失业患者回答“很可能”而不是“有可能”或“不可能”的几率是在职患者回答“很可能”的几率的 53%。此外,失业患者回答“很可能”或“有可能”而不是“不可能”的几率是在职患者回答“很可能”或“有可能”的几率的 53%。

响应信息 变量 值 计数 复诊 很可能 19 有可能 43 不可能 11 合计 73
Logistic 回归表 95% 置信区 间 自变量 系数 系数标准误 Z P 优势比 下限 上限 常量(1) -1.33898 0.361040 -3.71 0.000 常量(2) 1.49169 0.373022 4.00 0.000 就业状态 在职 0.631468 0.471078 1.34 0.180 1.88 0.75 4.73
注意

优势比使用类别的顺序,因此比率无法描述无序的类别的几率变化。例如,优势比无法描述患者回答“有可能”而不是“很可能”或“不可能”的几率的变化。要按任意顺序对类别建模,请使用名义 Logistic 回归。

优势比的置信区间(95% 置信区间)

这些置信区间 (CI) 是可能包含优势比的实际值的值范围。置信区间的计算采用正态分布。如果样本数量足够多(即样本优势比的分布遵循正态分布),置信区间将非常精确。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计
此单个值通过使用样本数据来估计总体参数。置信区间集中在此点估计值附近。
边际误差
边际误差定义了置信区间的宽度并由样本、样本数量和置信水平中的观测变异性确定。要计算置信区间的上限,需要将边际误差与点估计值相加。要计算置信区间的下限,需要从点估计值减去边际误差。

解释

使用此置信区间评估优势比的估计值。

例如,对于 95% 置信区间,置信区间包含总体优势比的值的可信度为 95%。该置信区间有助于评估结果的实际意义。使用您的专业知识可以确定置信区间是否包括对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。

超过 1 个自由度的项检验

此检验是可同时考虑某个类别预测变量的所有系数的整体检验。该检验可用于具有超过 2 个水平的类别预测变量。

解释

使用该检验确定具有超过 1 个系数的类别预测变量是否与响应事件在统计意义上存在显著关系。当一个类别预测变量具有超过 2 个水平时,各个水平的系数的 P 值不同。整体检验可提供一个有关该预测变量在统计意义上是否显著的答案。

要确定响应事件与类别预测变量之间的关联在统计意义上是否显著,请将该检验的 p 值与显著性水平进行比较以评估原假设。原假设是预测变量与响应事件之间不存在关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 p 值小于或等于显著性水平,则可以得出响应变量与预测变量之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与预测变量之间的关联在统计意义上显著的结论。

对数似然

Minitab 可以最大化对数似然函数,以找到估计系数的最优值。

解释

使用对数似然比较使用相同数据估计系数的两个模型。由于值为负,因此值越接近于 0,模型与数据拟合得越好。

当您向模型中添加项时,对数似然无法减小。例如,5 项模型的对数似然大于使用相同项构建的任何 4 项模型的对数似然。因此,对数似然最适用于比较具有相同样本数量的模型。要对单独项做出决策,通常您可以查看项在不同 Logit 中的 P 值。

所有斜率均为零的检验

此检验是可考虑预测变量在模型中的所有系数的整体检验。

解释

使用该检验确定模型中是否至少有一个预测变量与响应事件的关联在统计上显著。通常,您无法解释 G 统计量或自由度 (DF)。DF 等于模型中预测变量的系数个数。

要确定响应事件与预测变量之间的关联在统计上是否显著,请将该检验的 P 值与显著性水平进行比较以评估原假设。原假设声明预测变量在模型中的所有系数均为零,这表示响应事件与任何预测变量之间不存在任何关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以断定响应变量与至少一个预测变量之间的关联在统计上显著。
P 值 > α:关联在统计意义上不显著
如果 P 值大于显著性水平,则无法断定响应变量与任何项之间的关联在统计上显著。
使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策