解释名义 Logistic 回归的所有统计量

请查找定义和解释,了解随名义 Logistic 回归分析提供的每个统计量。

响应信息

Minitab 显示了响应的以下信息:
变量
响应变量的名称。
响应变量的水平
计数
每个响应变量水平上的观测值数
合计
非缺失观测值数

输出还可以确定哪个响应水平是参考事件。

解释

使用响应信息检查分析中的数据量。通常情况下,每个水平出现多次的随机样本越大,提供的有关总体的推断越精确。

还可以使用响应信息确定哪个事件是参考事件。系数和优势比等统计量的解释取决于哪个事件是参考事件。

因子信息

因子信息表显示设计中的因子、水平数、水平值。因子只能取有限数量的可能值,称为因子水平。因子水平可以是文本或数字。虽然可能存在多个值,但数字因子会在试验中使用一些受控制的值。

解释

使用因子信息表查看分析的水平数。例如,质量分析员计划研究在制造过程中可能影响塑性强度的因子。该分析员将“添加剂”也考虑在内。“添加剂”是一个类别变量,可以是类型 A 或类型 B。

因子信息

因子水平数
添加剂2A, B

各个因子可以交叉或嵌套。当一个因子的每个水平与另一个因子的每个水平组合出现时,这两个因子就是交叉的。当一个因子的一组水平仅出现在第二个因子的一个水平处时,这两个因子就是嵌套的。例如,如果某个设计包含机器和操作员,那么在所有操作员使用所有机器时,这些因子是交叉的。但是,如果每台机器都具有另一组操作员,那么操作员将嵌套在机器中。

在因子信息表中,圆括号中的内容表示嵌套因子。例如,标准(评估员)表示标准嵌套在评估员内。在这种情况下,嵌套表示每个评估员都有一组自己的标准部件。对每个嵌套水平重复每个嵌套因子的各个因子水平,这会增加嵌套因子的水平数。在此示例中,每个评估员都有 5 个标准,但由于标准嵌套在评估员中,因此标准有 20 个不同的水平。

因子信息

因子水平数
标准(检验员)201(Amanda), 2(Amanda), 3(Amanda), 4(Amanda), 5(Amanda), 1(Britt), 2(Britt),
3(Britt), 4(Britt), 5(Britt), 1(Eric), 2(Eric), 3(Eric), 4(Eric), 5(Eric),
1(Mike), 2(Mike), 3(Mike), 4(Mike), 5(Mike)
检验员4Amanda, Britt, Eric, Mike

有关因子的更多信息,请转到因子和因子水平什么是因子、交叉因子和嵌套因子?什么是固定因子和随机因子之间的差值?

系数

名义 Logistic 回归方程分别处理每个名义结果。Logistic 回归方程由多个 Logit 函数组成,分别对应于每个响应值减一。对于预测变量,每个方程都有一个唯一的斜率。这些方程可以在预测变量变化时,评估一个名义结果的概率相对于另一个名义结果的概率的变化情况。

解释

使用系数检查当预测变量变化时结果的概率的变化情况。预测变量的估计系数表示当模型中的其他预测变量保持恒定时,预测变量发生一个单位的变化时链接函数的变化。系数和结果的概率之间的关系取决于分析的多个方面,包括响应变量的参考结果和类别预测变量的参考水平。一般情况下,当预测变量增大时,正系数会使参考结果发生的可能性变小。当预测变量增大时,负系数会使参考结果发生的可能性变大。估计系数接近 0 表示预测变量的效应较小。

例如,一位学校管理人员想要评估不同的教学方法。她使用年龄和教学方法预测学生首选的学科。第一个结果事件就是响应信息表中的第一个事件,也是响应变量的参考结果。对于该数据,参考结果是学生首选自然科学。Logit 1 比较学生首选数学而不是自然科学的概率。在此方程中,年龄的系数的 P 值大于 0.7。这种较大的 P 值表示年龄对学生是否首选数学而不是自然科学的效应较小。

Logit 2 比较艺术与自然科学。在此方程中,年龄的系数大于比较数学与自然科学的系数。年龄的系数为正。随着学生年龄的增长,学生首选艺术而不是自然科学的可能性变大。

类别预测变量的系数的解释取决于因子的参考水平。在教学方法数据中,教学方法的两个水平为“演示”和“解释”。“演示”不在系数表中,因此“演示”是参考水平。在对数学与自然科学进行比较的方程中,“解释”的 P 值大于 0.5。这种较大的 P 值表示教学方法对学生是否首选数学而不是自然科学的效应较小。

在 Logit 2 中,“解释”的系数大于对数学与自然科学进行比较的系数。此系数的 P 值小于 0.05,因此此系数在 0.05 水平下具有统计显著性。“解释”在此方程中的系数为正。当教学方法为“解释”时,学生首选艺术的可能性变大。

响应信息

变量计数
科目自然科学10(参考事件)
  数学11 
  艺术9 
  合计30 

因子信息

因子水平数
教学方法2展示, 解释

Logistic 回归表







95% 置信区间
自变量系数系数标准误ZP优势比下限上限
Logit 1:(数学/自然科学)             
常量-1.122664.56425-0.250.806     
教学方法             
  解释-0.5631150.937591-0.600.5480.570.093.58
年龄0.1246740.4010790.310.7561.130.522.49
Logit 2:(艺术/自然科学)             
常量-13.84857.24256-1.910.056     
教学方法             
  解释2.769921.372092.020.04415.961.08234.90
年龄1.013540.5844941.730.0832.760.888.66
对数似然 = -26.446

所有斜率等于零的检验

自由度GP 值
412.8250.012

拟合优度检验

方法卡方自由度P
Pearson6.95295100.730
偏差7.88622100.640

系数标准误

如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。

解释

使用系数的标准误来度量系数估计值的精确度。标准误越小,估计值越精确。

Z 值

Z 值是检验统计量,用来度量系数与其标准误之间的比率。

解释

Minitab 使用 Z 值计算 P 值,使用 P 值可以做出有关项和模型的统计显著性的决定。在样本数量足够多(即样本系数的分布遵循正态分布)时,该检验非常精确。

距离 0 足够远的 Z 值表示系数估计值足够大和精确,在统计上不同于 0。相反,靠近 0 的 Z 值表示系数估计值太小或太不精确,无法确定项对于响应变量是否有影响。

P 值

P 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。

解释

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项的系数等于零,这意味着该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到模型简化
如果一个模型项在统计意义上显著,则解释取决于该项的类型。解释如下所示:
  • 如果一个连续预测变量显著,则可以断定响应水平概率取决于该预测变量。
  • 如果一个类别预测变量显著,则可以断定响应水平的不同概率会出现在因子的相应水平而不是因子的参考水平。
  • 如果一个交互作用项显著,则可以断定预测变量与响应水平概率之间的关系取决于该项中的其他预测变量。
  • 如果一个多项式项显著,则可以断定预测变量与响应水平概率之间的关系取决于预测变量的量值。

优势比

优势比可比较两个结果的几率。结果的几率等于比较结果出现的概率除以参考结果出现的概率。

解释

使用优势比了解预测变量的效应。优势比的解释取决于预测变量是类别预测变量还是连续预测变量。在 Logistic 回归表中,比较结果是 Logit 标记后的第一个结果,参考结果是第二个结果。每个 Logit 的参考结果都相同。

连续预测变量的优势比

优势比大于 1,表示当预测变量增大时比较结果发生的可能性大于参考结果发生的可能性。优势比小于 1,表示参考结果发生的可能性大于比较结果发生的可能性。

例如,一位学校管理人员想要评估不同的教学方法。对于 Logit 1,比较结果为数学。对于 Logit 2,比较结果为艺术。参考结果为自然科学。在 Logit 2 中,优势比的估计值为 2.76,该值大于 1。随着年龄的增长,学生首选艺术而不是自然科学的可能性变大。每增加一岁,学生首选艺术的几率比他们首选自然科学的几率大 3 倍。

Logistic 回归表







95% 置信区间
自变量系数系数标准误ZP优势比下限上限
Logit 1:(数学/自然科学)             
常量-1.122664.56425-0.250.806     
教学方法             
  解释-0.5631150.937591-0.600.5480.570.093.58
年龄0.1246740.4010790.310.7561.130.522.49
Logit 2:(艺术/自然科学)             
常量-13.84857.24256-1.910.056     
教学方法             
  解释2.769921.372092.020.04415.961.08234.90
年龄1.013540.5844941.730.0832.760.888.66

类别预测变量的优势比

对于类别预测变量,优势比可以对比较结果在两个不同的预测变量水平下发生的几率进行比较。比较水平位于 Logistic 回归表中,并且有一个估计的优势比。优势比大于 1,表示当类别预测变量从参考水平变为比较水平时,相对于参考结果,比较结果发生的可能性变大。优势比小于 1,表示当类别预测变量从参考水平变为比较水平时,相对于参考结果,比较结果发生的可能性变小。

例如,一位学校管理人员想要评估不同的教学方法。对于 Logit 1,比较结果为数学。对于 Logit 2,比较结果为艺术。参考结果为自然科学。对于 Logit 2,教学方法的优势比估计值为 15.96,该值大于 1。当教学方法从“演示”变为“解释”时,学生首选艺术的几率大约比他们首选自然科学的几率大 16 倍。

Logistic 回归表







95% 置信区间
自变量系数系数标准误ZP优势比下限上限
Logit 1:(数学/自然科学)             
常量-1.122664.56425-0.250.806     
教学方法             
  解释-0.5631150.937591-0.600.5480.570.093.58
年龄0.1246740.4010790.310.7561.130.522.49
Logit 2:(艺术/自然科学)             
常量-13.84857.24256-1.910.056     
教学方法             
  解释2.769921.372092.020.04415.961.08234.90
年龄1.013540.5844941.730.0832.760.888.66

优势比的置信区间(95% 置信区间)

这些置信区间 (CI) 是可能包含优势比的实际值的值范围。置信区间的计算采用正态分布。如果样本数量足够多(即样本优势比的分布遵循正态分布),置信区间将非常精确。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计值
点估计是从样本数据计算得到的参数的估计值。
边际误差
边际误差定义了置信区间的宽度,它受到事件概率范围、样本数量和置信水平的影响。

解释

使用此置信区间评估优势比的估计值。

例如,对于 95% 置信区间,置信区间包含总体优势比的值的可信度为 95%。置信区间有助于评估结果的实际意义。使用您的专业知识可以确定置信区间是否包括对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。

超过 1 个自由度的项检验

此检验是可同时考虑某个类别预测变量的所有系数的整体检验。该检验可用于具有超过 2 个水平的类别预测变量。

解释

使用该检验确定具有超过 1 个系数的类别预测变量是否与响应事件在统计意义上存在显著关系。当一个类别预测变量具有超过 2 个水平时,各个水平的系数的 P 值不同。整体检验可提供一个有关该预测变量在统计意义上是否显著的答案。

要确定响应事件与类别预测变量之间的关联在统计意义上是否显著,请将该检验的 p 值与显著性水平进行比较以评估原假设。原假设是预测变量与响应事件之间不存在关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 p 值小于或等于显著性水平,则可以得出响应变量与预测变量之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与预测变量之间的关联在统计意义上显著的结论。

对数似然

Minitab 可以最大化对数似然函数,以找到估计系数的最优值。

解释

使用对数似然比较使用相同数据估计系数的两个模型。由于值为负,因此值越接近于 0,模型与数据拟合得越好。

当您向模型中添加项时,对数似然无法减小。例如,5 项模型的对数似然大于使用相同项构建的任何 4 项模型的对数似然。因此,对数似然最适用于比较具有相同样本数量的模型。要对单独项做出决策,通常您可以查看项在不同 Logit 中的 P 值。

所有斜率均为零的检验

此检验是可考虑预测变量在模型中的所有系数的整体检验。

解释

使用该检验确定模型中是否至少有一个预测变量与响应事件的关联在统计上显著。通常,您无法解释 G 统计量或自由度 (DF)。DF 等于模型中预测变量的系数个数。

要确定响应事件与预测变量之间的关联在统计上是否显著,请将该检验的 P 值与显著性水平进行比较以评估原假设。原假设声明预测变量在模型中的所有系数均为零,这表示响应事件与任何预测变量之间不存在任何关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以断定响应变量与至少一个预测变量之间的关联在统计上显著。
P 值 > α:关联在统计意义上不显著
如果 P 值大于显著性水平,则无法断定响应变量与任何项之间的关联在统计上显著。

Pearson 拟合优度检验

Pearson 优度拟合检验会评估当前模型和全模型之间的差异。

解释

使用拟合优度检验确定预测概率是否以多项分布无法预测的方式偏离观测概率。当可区分值的数量近似于观测值的数量时,该检验不适用,但当多个观测值与预测变量值相同时,该检验适用。如果拟合优度检验的 P 值低于您所选的显著性水平,则预测概率以多项分布无法预测的方式偏离观测概率。此列表提供偏离的常见原因:
  • 忽略了模型中变量的高阶项
  • 忽略了模型中不存在的预测变量

偏差拟合优度检验

偏差优度拟合检验会评估当前模型和全模型之间的差异。

解释

使用拟合优度检验确定预测概率是否以多项分布无法预测的方式偏离观测概率。当可区分值的数量近似于观测值的数量时,该检验不适用,但当多个观测值与预测变量值相同时,该检验适用。如果拟合优度检验的 P 值低于您所选的显著性水平,则预测概率以多项分布无法预测的方式偏离观测概率。此列表提供偏离的常见原因:
  • 忽略了模型中变量的高阶项
  • 忽略了模型中不存在的预测变量