拟合 Poisson 模型的系数

在系数表格中查找每个统计量的定义和解释指导。

系数

回归系数描述了预测变量和响应变量之间关系的大小和方向。系数是回归方程中要与项值相乘的数值。

解释

使用系数来确定预测变量中的变化使事件的可能性变更大还是更小。预测变量的估计系数代表预测变量中每个单位变化的链接函数的变化,而模型中的其他预测变量则保持不变。系数和事件数之间的关系取决于几个方面的分析,包括模型中类别预测变量的链接函数和参考水平。一般来说,正系数让事件的可能性更大,而负系数则让事件的可能性更小。近于 0 的估计系数表明预测变量的效应较小或不存在。

类别预测变量的估计系数的解释与预测变量的参考水平相关。正系数表明事件处于预测变量水平的可能性要大于因子参考水平。负系数表明事件处于预测变量水平的可能性要小于参考水平。

系数标准误

如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。

解释

使用系数的标准误来度量系数估计值的精确度。标准误越小,估计值越精确。

系数的置信区间(95% 置信区间)

这些置信区间 (CI) 是值的极差,可能包含模型中每一项的系数的实际值。置信区间的计算采用正态分布。如果样本数量足够多(即样本系数的分布遵循正态分布),置信区间非常精确。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计
此单个值通过使用样本数据来估计总体参数。置信区间集中在此点估计值附近。
边际误差
边际误差定义了置信区间的宽度并由样本、样本数量和置信水平中的观测变异性确定。要计算置信区间的上限,需要将边际误差与点估计值相加。要计算置信区间的下限,需要从点估计值减去边际误差。

解释

使用置信区间可以评估模型中每个项的总体系数估计值。

例如,当置信水平为 95% 时,包含总体系数值的置信区间的置信度为 95%。置信区间有助于评估结果的实际意义。利用您的专业知识可以确定置信区间是否包含对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。

Z 值

Z 值是 Wald 检验的检验统计量,用来度量系数与其标准误之间的比值。

解释

Minitab 使用 Z 值计算 P 值,使用 P 值可以做出有关项和模型的统计显著性的决定。在样本数量足够多(即样本系数的分布遵循正态分布)时,Wald 检验非常精确。

距离 0 足够远的 Z 值表示系数估计值足够大和精确,在统计上不同于 0。相反,靠近 0 的 Z 值表示系数估计值太小或太不精确,无法确定项对于响应变量是否有影响。

偏差表中的检验为似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。与 Wald 近似检验相比,较小样本的似然比更准确。

P 值

P 值是一个概率,用来度量否定原假设的证据。概率越低,否定原假设的证据越充分。

偏差表中的检验为似然比检验。系数表的扩展显示中的检验为 Wald 近似检验。与 Wald 近似检验相比,较小样本的似然比更准确。

解释

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项的系数等于零,这意味着该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 0.05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到模型简化
如果一个模型项在统计意义上显著,则解释取决于该项的类型。解释如下所示:
  • 如果一个连续预测变量显著,则可以断定该预测变量的系数不同于零。
  • 如果类别预测变量显著,结论将取决于类别变量的编码。使用 (0, 1) 编码时,您可以断定相应水平的平均事件数不等于参考水平的平均事件数。使用 (-1, 0, +1) 编码时,您可以断定相应水平的平均事件数不同于基准平均事件数。
  • 您可以断定并非所有水平都具有相同的平均事件数。
  • 如果一个交互作用项显著,则您可以断定预测变量与事件数之间的关系取决于该项中的其他预测变量。
  • 如果一个多项式项显著,则您可以断定预测变量与事件数之间的关系取决于预测变量的量值。

方差膨胀因子

方差膨胀因子 (VIF) 表示,根据模型中预测变量之间的关联,系数方差膨胀的程度。

解释

使用 VIF 来描述回归分析中存在的多重共线性的程度(与预测变量之间相关联)。多重共线性存在问题,因为它可能会增大回归系数的方差,从而难以评估每个相关预测变量对于响应值的单独影响。

使用以下准则解释 VIF:
VIF 预测变量状态
VIF = 1 不相关
1 < VIF < 5 中等相关
VIF > 5 高度相关
VIF 值大于 5 表明,由于严重的多重共线性,回归系数估计不足。

有关多重共线性以及如何减轻多重共线性的影响的更多信息,请查看回归中的多重共线性

编码系数

当您标准化连续变量时,系数表示标准化变量的单位变化。通常情况下,标准化连续预测变量可以降低多重共线性或将变量置于公共尺度上。

解释

编码系数的使用方式取决于标准化方法。系数的确切解释取决于分析的多个方面(如链接函数)。正系数表示事件发生的可能性较大。负系数表示事件发生的可能性较小。估计系数接近 0 表示预测变量的效应较小。

将代码的低水平和高水平分别指定为 −1 和 +1

每个系数都表示预测变量在编码尺度上每变化 1 个单位时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。对于温度,编码将 0 对应于 50 摄氏度,将 1 对应于 100 摄氏度。对于时间,代码将 0 对应于 30 秒,将 1 对应于 60 秒。温度的系数表示增量为 50 摄氏度。时间的系数表示增量为 30 秒。

减去均值,然后除以标准差

每个系数都表示预测变量每变化 1 个单位的标准差时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的标准差为 3.7 摄氏度。时间的标准差为 18.3 秒。温度的系数表示增量为 3.7 摄氏度。时间的系数表示增量为 18.3 秒。

减去均值

每个系数都表示预测变量每变化 1 个单位时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的系数表示增量为 1 摄氏度。时间的系数表示增量为 1 秒。

除以标准差

每个系数都表示预测变量每变化 1 个单位的标准差时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度和以秒为单位的时间。温度的标准差为 3.7 摄氏度。时间的标准差为 18.3 秒。温度的系数表示增量为 3.7 摄氏度。时间的系数表示增量为 18.3 秒。

减去指定值,然后除以另一个指定值

每个系数都表示预测变量除以一个数后变换的响应变量的均值的预期变化。

例如,一个模型使用以米为单位的长度和以安培为单位的电流。除数为 1000。长度的系数表示增量为 1 毫米。电流的系数表示增量为 1 毫安。

Logit 链接函数的解释

Logit 链接函数为估计系数提供了最自然的解释,因此它是 Minitab 中默认的链接函数。对于 Logit 链接函数,变换的响应变量是事件优势的自然对数。不同标准化方法的解释的汇总如下。
将代码的低水平和高水平分别指定为 −1 和 +1

每个系数都表示预测变量在编码尺度上每变化 1 个单位时变换的响应变量的均值的预期变化。

例如,一个模型使用以摄氏度为单位的温度。编码将 0 对应于 50 摄氏度,将 1 对应于 100 摄氏度。温度的系数表示增量为 50 摄氏度。温度的系数为 1.8。温度每增加 1 个编码单位,温度增加 50 摄氏度,优势的自然对数增加 1.8。

减去均值,然后除以标准差

每个系数都表示预测变量每变化 1 个单位的标准差时事件优势的自然对数的预期变化。

例如,一个模型使用以摄氏度为单位的温度。温度的标准差为 3.7 摄氏度。温度的编码系数为 1.4。温度每增加 1 个编码单位,温度增加 3.7 摄氏度,优势的自然对数增加 1.4。

减去均值

每个系数都表示预测变量每变化 1 个单位时事件优势的自然对数的预期变化。

例如,一个模型使用以摄氏度为单位的温度。温度的系数表示增量为 1 摄氏度。温度的系数为 2.3。温度每增加 1 个编码单位,温度增加 1 摄氏度,优势的自然对数增加 2.3。

除以标准差

每个系数都表示预测变量每变化 1 个单位的标准差时事件优势的自然对数的预期变化。

例如,一个模型使用以摄氏度为单位的温度。温度的标准差为 3.7 摄氏度。温度的系数为 1.4。温度每增加 1 个编码单位,温度增加 3.7 摄氏度,优势的自然对数增加 1.4。

减去指定值,然后除以另一个指定值

每个系数都表示预测变量除以一个数后事件优势的自然对数的预期变化。

例如,一个模型使用以米为单位的长度和以安培为单位的电流。除数为 1000。长度的系数表示增量为 1 毫米。长度的系数为 5.6。长度每增加 1 个编码单位,长度增加 1 毫米,优势的自然对数增加 5.6。电流的系数表示增量为 1 毫安。

回归方程

对于 Poisson 回归,Minitab 会显示两种类型的回归方程。第一种方程会将事件数与变换的响应变量相关。第一种方程的形式取决于链接函数。

第二种方程会将预测变量与变换的响应变量相关。如果模型包含连续预测变量和类别预测变量,则可以为每个类别组合拆分第二种方程。有关如何选择要显示的方程数量的更多信息,请转到选择要针对拟合 Poisson 模型显示的结果

解释

使用这些方程研究响应变量和预测变量之间的关系。

例如,用于预测树脂部件是否有缺陷的模型包含以下项:
  • 螺丝钉大小
  • 温度

第一种方程会因为自然对数链接函数而显示事件数和变换的响应变量之间的关系。

第二种方程会显示螺丝钉大小和温度如何与变换的响应变量相关。当螺丝钉较大时,温度系数约为 −0.003。当螺丝钉较小时,温度系数约为 −0.0005。对于这些方程,温度越高,出现的缺陷越少。但是,当螺丝钉较大时,温度对缺陷数量具有较大的效应。

回归方程

褪色缺陷=exp(Y')
螺丝钉大小
Y'=4.649 - 0.003285 温度
       
Y'=4.105 - 0.000481 温度

如果您的模型为非分层结构,并且您已标准化连续预测变量,则回归方程采用编码单位。有关更多信息,请参见有关“编码系数”的部分。有关层次结构的更多信息,请转到什么是分层模型?