分析明确筛选设计的二元响应的系数表

系数

回归系数描述了预测变量和响应变量之间关系的大小和方向。系数是回归方程中要与项值相乘的数值。

解释

使用系数可以确定预测变量的变化会让事件发生的可能性变大还是变小。一个项的系数表示在其他项保持恒定时,与该项中一个编码单位的增长相关联的链接函数变化。

通常,效应的大小是评估项对于响应变量是否具有实际显著效应的较好方式。效应的大小不代表一个项是否在统计意义上显著,因为显著性的计算还要考虑响应数据中的变异性。要确定统计显著性,请检查该项的 p 值。

系数和概率之间的关系取决于分析的多个方面,包括链接函数、响应变量的参考事件和模型中类别预测变量的参考水平。一般而言,正系数会使事件发生的可能性变大,负系数会使事件发生的可能性变小。估计系数接近 0 表示预测变量的效应较小。

不是因子的项(如协变量、区组和中心点项)没有高水平和低水平。
协变量
协变量的系数与协变量采用相同的单位。系数代表对应于协变量的一个单位增加量的链接函数变化。如果系数为负,随着协变量递增,概率会递减。如果系数为正,随着协变量递增,概率也会递增。因为协变量未编码,并且通常不与因子正交,所以协变量的存在通常会增大 VIF 值。有关更多信息,请参见有关 VIF 的部分。
区组
区组是具有 (−1, 0, +1) 编码方案的类别变量。每个系数代表区组的链接函数和平均值之间的差值。

Logit 链接函数的解释

Logit 链接为估计系数提供了最自然的解释,因此它是 Minitab 中的默认链接。解释会利用参考事件几率为 P(事件)/P(非事件) 并假设其他预测变量保持恒定的情况。对数几率越大,参考事件发生的可能性越大。因此,正系数表示事件发生的可能性变大,负系数表示事件发生的可能性变小。不同类型的预测变量的解释汇总都遵循此标准。

连续因子
连续因子的系数是因子每增加一个编码单位,参考事件的几率的自然对数的估计变化。例如,如果时间因子的每个编码单位表示 30 秒变化,时间的系数为 1.4,那么,当您将时间增加 30 秒时,几率的自然对数按 1.4 递增。
估计系数也可以用于计算优势比,即两个优势之间的比率。
类别因子
类别因子的系数是每发生一个编码单位的变化时,事件优势的自然对数的估计变化。类别因子的低水平和高水平之差为 2 个编码单位。例如,一个类别变量的水平为“快”和“慢”。“慢”为低水平,编码为 -1。“快”为高水平,编码为 +1。如果该变量的系数为 1.3,则从“慢”变为“快”时,事件优势的自然对数会增加 2.6。
估计系数也可以用于计算优势比,即两个优势之间的比率。

系数标准误

如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。

解释

使用系数的标准误来度量系数估计值的精确度。标准误越小,估计值越精确。

系数的置信区间(95% 置信区间)

这些置信区间 (CI) 是可能包含模型中每个项的实际系数值的值范围。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计值
此单个值通过使用样本数据来估计总体参数。
边际误差
边际误差定义了置信区间的宽度,它受到事件概率范围、样本数量和置信水平的影响。

解释

使用置信区间可以评估模型中每个项的总体系数估计值。

例如,对于 95% 置信区间,置信区间包含总体系数的值的可信度为 95%。该置信区间有助于评估结果的实际意义。使用您的专业知识可以确定置信区间是否包括对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。

Z 值

Z 值是 Wald 检验的检验统计量,用来度量系数与其标准误之间的比值。

解释

Minitab 使用 Z 值计算 P 值,使用 P 值可以做出有关项和模型的统计显著性的决定。在样本数量足够多(即样本系数的分布遵循正态分布)时,Wald 检验非常精确。

距离 0 足够远的 Z 值表示系数估计值足够大和精确,在统计上不同于 0。相反,靠近 0 的 Z 值表示系数估计值太小或太不精确,无法确定项对于响应变量是否有影响。

偏差表中的检验为似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。与 Wald 近似检验相比,较小样本的似然比更准确。

P 值

P 值是一个概率,用来测量否定原假设的证据。概率越低,否定原假设的证据越充分。

偏差表中的检验未似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。较小样本的似然比与 Wald 近似检验更准确。

解释

要确定系数是否在统计意义上不等于 0,请将项的 p 值与显著性水平进行比较以评估原假设。原假设声明系数等于 0,这意味着该项与响应之间没有关联。

通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在系数为 0 时得出系数不为 0 的结论的风险为 5%。

P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到模型简化
如果一个系数在统计意义上显著,则解释将取决于项的类型。解释如下所示:
因子
如果因子的系数显著,则可以断定并非所有因子水平都具有相同的事件概率。
因子之间的交互作用
如果一个交互作用项的系数显著,则因子与响应之间的关系取决于该项中的其他因子。在这种情况下,不应在不考虑交互作用效应时解释主效应。
二次项
如果一个平方项的系数在统计意义上显著,则可以得出结论:因子与响应之间的关系沿着曲线分布。
协变量
如果一个协变量的系数在统计意义上显著,则可以得出结论:响应与协变量之间的关联在统计意义上显著。
区组
如果区组的系数在统计意义上显著,则可以断定区组的链接函数与平均值不同。

Logit 链接函数的解释

Logit 链接为估计系数提供了最自然的解释,因此它是 Minitab 中的默认链接。解释会利用参考事件几率为 P(事件)/P(非事件) 并假设其他预测变量保持恒定的情况。对数几率越大,参考事件发生的可能性越大。因此,正系数表示事件发生的可能性变大,负系数表示事件发生的可能性变小。不同类型的预测变量的解释汇总都遵循此标准。

连续因子
连续因子的系数是因子每增加一个编码单位,参考事件的几率的自然对数的估计变化。例如,如果时间因子的每个编码单位表示 30 秒变化,时间的系数为 1.4,那么,当您将时间增加 30 秒时,几率的自然对数按 1.4 递增。
估计系数也可以用于计算优势比,即两个优势之间的比率。
类别因子
类别因子的系数是每发生一个编码单位的变化时,事件优势的自然对数的估计变化。类别因子的低水平和高水平之差为 2 个编码单位。例如,一个类别变量的水平为“快”和“慢”。“慢”为低水平,编码为 -1。“快”为高水平,编码为 +1。如果该变量的系数为 1.3,则从“慢”变为“快”时,事件优势的自然对数会增加 2.6。
估计系数也可以用于计算优势比,即两个优势之间的比率。

VIF

方差膨胀因子 (VIF) 表明,根据模型中预测变量之间的关联,系数方差膨胀的程度。

解释

使用 VIF 可描述模型中存在的多重共线性的程度(与预测变量之间相关联)。 在大多数因子设计中,所有 VIF 值为 1,这表明预测变量没有多重共线性。 由于没有多重共线性,因此简化了统计显著性的确定过程。 在模型中包含协变量和在数据收集期间进行修补游程是用于增大 VIF 值的两种常用方法,这使统计显著性的解释过程复杂化。 而且对于二元响应,VIF 值通常大于 1。

使用以下准则解释 VIF:
VIF 预测变量状态
VIF = 1 不相关
1 < VIF < 5 中等相关
VIF > 5 高度相关
高度相关的预测变量会引起问题,因为多重共线性可增大回归系数的方差。以下是不稳定系数导致的一些后果:
  • 即使预测变量和响应之间存在重要关系,系数也可能表现为在统计意义上不显著。
  • 高度相关的预测变量的系数在样本之间差异很大。
  • 从模型中去除任何高度相关的项都将大幅影响其他高度相关项的估计系数。高度相关项的系数甚至会更改效应的方向。

在存在多重共线性的情况下使用统计显著性选择要从模型中删除的项时,请务必小心。一次只能在模型中添加和删除一个项。在更改模型时,请监视模型中汇总统计量的变化以及对统计显著性的检验。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策