以计数过程格式拟合 Cox 模型 的系数表

在系数表格中查找每个统计量的定义和解释指导。

系数

回归系数描述了预测变量和响应变量之间关系的大小和方向。系数是回归方程中要与项值相乘的数值。

解释

使用系数可以确定预测变量的变化会让事件发生的可能性变大还是变小。一般而言,正系数会使事件发生的可能性变大,负系数会使事件发生的可能性变小。估计系数接近 0 表示预测变量的效应较小。对于绝对预测器,解释取决于编码。

连续预测变量
预测变量的估计系数表示当模型中的其他预测变量保持恒定时,预测变量发生一个单位的变化时链接函数的变化。
使用 1、0 编码的类别预测变量
从参考水平变为系数的水平时,系数就是几率的自然对数中的估计变化。例如,一个类别变量的水平为“快”和“慢”。参考水平是男性。如果“快”的系数为 1.3,则当变量从“慢”变为“快”时,事件的几率的自然对数会增加 1.3。
使用 1、0、-1 编码的类别预测变量
从几率的自然对数的均值变为系数的水平时,系数就是几率的自然对数中的估计变化。例如,一个类别变量的水平为“变化前”和“变化后”。如果“变化后”的系数为 −2.1,则当变量等于“变化后”时,事件的几率的自然对数会降低 2.1。

系数标准误

如果反复从同一总体中取样,系数的标准误会估计您将获取的系数估计值之间的变异性。计算假定要估计的样本数量和系数在反复取样的情况下是否保持一致。

解释

使用系数的标准误来度量系数估计值的精确度。标准误越小,估计值越精确。

系数的置信区间(95% 置信区间)

这些置信区间 (CI) 是值的极差,可能包含模型中每一项的系数的实际值。置信区间的计算采用正态分布。如果样本数量足够多(即样本系数的分布遵循正态分布),置信区间非常精确。

由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果随机取样多次,则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。

置信区间由以下两部分组成:
点估计
此单个值通过使用样本数据来估计总体参数。置信区间集中在此点估计值附近。
边际误差
边际误差定义了置信区间的宽度并由样本、样本数量和置信水平中的观测变异性确定。要计算置信区间的上限,需要将边际误差与点估计值相加。要计算置信区间的下限,需要从点估计值减去边际误差。

解释

使用置信区间可以评估模型中每个项的总体系数估计值。

例如,当置信水平为 95% 时,包含总体系数值的置信区间的置信度为 95%。置信区间有助于评估结果的实际意义。利用您的专业知识可以确定置信区间是否包含对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。

Z 值

Z 值是检验统计量,用来度量系数与其标准误之间的比值。

解释

Minitab 使用 Z 值计算 P 值,使用 P 值可以做出有关项和模型的统计显著性的决定。在样本数量足够多(即样本系数的分布遵循正态分布)时,该检验非常精确。

比值足够大表明系数估计值也足够大和精确,明显区别于零。反之,比值较小则表明系数估计值过小或不够精确,难以确定项对响应的效应。

P 值

P 值是一个概率,用来测量否定原假设的证据。概率越低,否定原假设的证据越充分。

解释

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项的系数等于零,这意味着该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 .05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。
P 值 ≤ α:关联在统计意义上显著
如果 P 值小于或等于显著性水平,则可以得出响应变量与项之间的关联在统计意义上显著的结论。
P 值 > α:关联在统计意义上不显著
如果 p 值大于显著性水平,则无法得出响应变量与该项之间的关联在统计意义上显著的结论。您可能希望重新拟合没有该项的模型。
如果多个预测变量与响应在统计意义上没有显著的关联,则可以通过删除项(一次删除一个)来简化模型。有关从模型中删除项的更多信息,请转到 模型简化
如果一个模型项在统计意义上显著,则解释取决于该项的类型。解释如下所示:
  • 如果一个随机因子显著,则可以得出该因子对响应中的变异量有贡献。
  • 如果一个协变量在统计意义上显著,则可以得出结论:该协变量的值的变化与平均响应值的变化相关联。
  • 如果一个交互作用项的系数显著,则因子与响应之间的关系取决于该项中的其他因子。在这种情况下,不应在不考虑交互作用效应时解释主效应。
  • 如果一个多项式项的系数显著,则可以得出数据包含弯曲的结论。