拟合二元 Logistic 模型的残差图

查找残差图的定义和解释指导。

残差的直方图

残差偏差的直方图显示所有观测值的残差分布。

无论是使用残差偏差还是 Pearson 残差,图的解释都相同。当模型使用 Logit 链接函数时,残差偏差分布更接近于最小二乘回归模型中的残差分布。随着每个预测变量设置组合的试验数增加,残差偏差和 Pearson 残差会更相似。

解释

使用残差的直方图可确定数据是偏斜还是包含异常值。下表中的模式可能表示该模型不满足模型假设。当模型不符合假定时,预测变量的正态近似置信区间可能不准确。
模式 模式的含义
朝着一个方向的长尾 偏度
远离其他条形的条形 异常值

因为直方图的外观取决于用来进行数据分组的区间数,所以请勿使用直方图评估残差的正态性。取而代之,可使用正态概率图。

残差的正态概率图

残差的正态概率图显示,当分布呈正态时,残差与期望值的关系。

无论是使用残差偏差还是 Pearson 残差,图的解释都相同。当模型使用 Logit 链接函数时,残差偏差分布更接近于最小二乘回归模型中的残差分布。随着每个预测变量设置组合的试验数增加,残差偏差和 Pearson 残差会更相似。

解释

使用残差正态概率图可验证残差呈正态分布的假设。残差的正态概率图应该大致为一条直线。

以下模式违反了残差呈正态分布这一假设。

S 曲线表示长尾分布。

反向 S 曲线表示短尾分布。

向下的曲线表示右偏斜分布。

远离线的几个点表示分布中有异常值。

如果发现非正态模式,请使用其他残差图检查该模型是否存在其他问题,例如,缺失项或时间顺序效应。如果残差不遵循正态分布,则正态近似置信区间和 Wald 检验 P 值可能不准确。

残差与拟合值

残差与拟合值图形分别在 Y 轴和 X 轴上绘制残差和拟合值的 logit。
注意

在二元 Logistic 回归中,当数据为二元响应/频率格式(每行一个试验)时,Minitab 不提供此图。

无论是使用残差偏差还是 Pearson 残差,图的解释都相同。当模型使用 Logit 链接函数时,残差偏差分布更接近于最小二乘回归模型中的残差分布。随着每个预测变量设置组合的试验数增加,残差偏差和 Pearson 残差会更相似。

解释

使用残差与拟合值图可验证残差随机分布的假设。理想情况下,点应当在 0 的两端随机分布,点中无可辨识的模式。

下表中的模式可能表示该模型不满足模型假设。
模式 模式的含义
残差相对拟合值呈扇形或不均匀分散 不合适的链接函数
曲线 缺少高阶项或不合适的链接函数
远离 0 的点 异常值
在 X 方向远离其他点的点 有影响的点
下图显示了残差方差为常量这一假设中的异常值和冲突。
含异常值的图

其中一个点比所有其他点大得多。因此,该点是异常值。如果异常值过多,则模型可能不可接受。您应该尝试找出导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。

含异方差的图

残差的方差随拟合值增加。请注意,随着拟合值增大,残差之间的散布变宽。此模式表示残差的方差不相等(非恒定)。

要确定残差与拟合值图中的任何模式或异常值,请考虑以下解决方案:
问题 可能解决方案
异方差 考虑使用模型中的不同项、不同的链接函数或权重。
异常值或有影响的点
  1. 验证观测值不是测量误差或数据输入错误。
  2. 考虑执行分析时不包括此观测值来查看它是否影响结果。

残差与顺序

残差与顺序图按照数据的收集顺序显示残差。

无论是使用残差偏差还是 Pearson 残差,图的解释都相同。当模型使用 Logit 链接函数时,残差偏差分布更接近于最小二乘回归模型中的残差分布。随着每个预测变量设置组合的试验数增加,残差偏差和 Pearson 残差会更相似。

解释

使用残差与顺序图可验证残差独立于其他残差的假设。当以时序显示时,独立残差不显示趋势或模式。点中的模式可能表明,彼此相近的残差可能相关联,因此并不独立。理想情况下,图中的残差应围绕中心线随机分布:
如果查看模式,便可查出原因。下列类型的模式可能表明残差属于依赖项。
趋势
偏移
周期

残差与变量

残差与变量的关系图显示残差与另一个变量的关系。已在模型中包含此变量。或者,模型中未包含此变量,但是猜测它会影响响应。

无论是使用残差偏差还是 Pearson 残差,图的解释都相同。当模型使用 Logit 链接函数时,残差偏差分布更接近于最小二乘回归模型中的残差分布。随着每个预测变量设置组合的试验数增加,残差偏差和 Pearson 残差会更相似。

解释

如果变量已经包括在模型中,请使用此图确定是否应该添加该变量的高阶项。如果变量尚未包含在模型中,请使用此图确定变量是否会以系统方式影响响应。

以下模式可以确定重要变量或项。
模式 模式的含义
残差的排列有模式 变量系统地影响响应。如果该变量不在模型中,请为该变量添加一个项并重新拟合模型。
点的排列有弯曲 应该在模型中包括变量的高次项。例如,曲线图形趋势表明应该添加平方项。