ROC(接收者抽检特征)曲线

此宏执行三个函数作为二值 Logistic (BLR) 回归分析的后续分析,以评估此模型的执行性能:
  1. 生成分类表
  2. 生成 ROC(接收者抽检特征)曲线
  3. 在给定事件概率的情况下,存储每一行的事件概率,而不只是一组独特预测值的第一个实例

下载宏

确保 Minitab 知道可在何处找到您下载的宏。选择工具 > 选项 > 常规。在宏位置下,浏览到您保存宏文件的位置。

重要信息

如果您使用较低版本的 Web 浏览器,则在您单击下载按钮时,此文件可能会在 Quicktime 中打开,因为 Quicktime 与 Minitab 宏使用相同的 .mac 文件扩展名。要保存此宏,请右键单击下载按钮并选择目标另存为

必需输入

  • 响应/频率格式的二元响应变量
  • 一列或多列预测变量
  • 一列在对数据执行二元 Logistic 回归分析期间计算的事件概率
注意

要存储从二元 Logistic 回归得到的事件概率,请单击主对话框中的存储,然后选择事件概率

可选输入

FREQ C
如果在运行二元 Logistic 回归时指定了频率列,则使用此项。例如,如果将 C4 指定为了频率列,则必须提交 FREQ C4。
REFEVENT "text"
如果在运行二元 Logistic 回归时指定了参考事件,则使用此项。例如,如果您的二元响应变量包含“通过”和“不通过”值,并且您将参考事件设置为“通过”,则您必须提交 REFEVENT“通过”。
FITSTORE C
用于指定保存拟合值的列,该列用于生成分类表。在二元 Logistic 回归中,如果观测值的事件概率大于或等于 0.5,则该观测值的拟合值等于参考事件。
ROCSTORE C C C
用于存储在生成 ROC 曲线时所使用的数据。指定三列:一列存储 p 的值,另两列分别存储每个 p 值的敏感度值和特异度值。(请注意,ROC 曲线绘制敏感度与 1 - 特异度的关系。

运行宏

假设您的二元响应变量在 C3 列中,并且两个预测变量在 C1 和 C2 列中。事件概率存储在 C5 中。要运行此宏,请选择编辑 > 命令行编辑器,然后键入:

%ROCBLR C3;
MODEL C1 C2;
EPRO C5。

单击提交命令

其他信息

分类表和 ROC 曲线

对二元 Logistic 回归模型适合性的一种度量是其在给定了模型中的项(预测变量)值的情况下准确预测二元响应的能力。这种能力可以汇总到一个分类表中,该分类表列出了拟合模型对两种响应值正确分类的次数。

有关示例,请参阅 Minitab 帮助中的“二元 Logistic 回归示例”主题。此示例拟合二元 Logistic 回归模型,其中,响应是静息脉搏(高或低),预测变量是体重(连续变量)和吸烟(含两个值(是或否)的类别变量)。

在此数据集中,一个人是非吸烟者,体重为 175 磅。为预测这个人的高静息脉搏或低静息脉搏,已将这个人的体重以及他是否吸烟(1,如果他吸烟,0,如果他不吸烟)“插入”到此分析生成的回归等式中。结果是,估计低静息脉搏的能力(因为“低”是本示例中的参考事件):

换言之,在给定估计系数的情况下,体重为 175 磅的非吸烟者大约有 92% 的机率具有较低的静息脉搏。这就是事件概率。由于这一概率如此之高,因而我们可以将该观测值分类为“低”。在这里,我们采用的是一个估计的概率并将其分类为两个值中的一个值。与此同时,该特定人员实际观测的静息脉搏较低。因此,该模型在预测该人员的静息脉搏方面是准确的。

我们可以对数据集中余下的每一个观测值进行同样的处理,但必须首先决定事件概率的“截止点”。0.5 是最显而易见的截止点。对于数据集中的每一个观测值,如果其事件概率大于 0.5,我们就可以将其静息脉搏归类为“低”,而如果事件概率小于 0.5,我们就可以将其静息脉搏归类为“高”。

最后,我们可以将预测的静息脉搏与实际的静息脉搏进行比较,并在分类表中显示这些结果(未示出)。

该表将会显示共有 68 个人员的静息脉搏为“低”,并且其事件概率大于 0.5;该分类是准确的。与此同时,有两个人员的静息脉搏为“低”,但事件概率小于 0.5;该分类是不准确的。与之类似,有两个人员的静息脉搏为“高”,并且该模型正确分类了预测的静息脉搏。但是,还有 20 个人的静息脉搏为“高”,但是该模型将他们的预测静息脉搏错误分类成了“低”。因此,您可以得出结论,该模型倾向于将静息脉搏预测为“低”。

还有另两个统计量有助于汇总模型的准确性,它们是敏感度和特异度。敏感度测量该模型将实际静息脉搏为“低”的人员预测为低静息脉搏的性能。特异度测量该模型将实际静息脉搏为“高”的人员预测为高静息脉搏的性能。这两个统计量的值越高,该模型对观测值进行分类的能力就越好。

在此示例中,敏感度 = 68 /70 ≅ 97%,特异度 = 2/22 ≅ 9%。

但是,分类表非常依赖于观测值在分类表中的分布,可能会非常具有误导性。Hosmer 和 Lemeshow 的 Applied Logistic Regression(Logistic 回归应用)中全面清晰地探讨了分类表的内在问题。

评估二元 Logistic 回归对观测值进行精确分类能力的一种更好的方法是接收者抽检特征 (ROC) 曲线。ROC 曲线是通过采用 0 到 1 之间的截止值生成多个分类表,并计算每个截止值的敏感度和特异度来构建的。通过绘制敏感度和 1 - 特异度的关系图,即可构建 ROC 曲线。

ROC 曲线下的面积 (AUC) 是对判别力的度量;在 ROC 曲线下具有高面积的模型表明该模型能够精确预测观测响应的值。

Hosmer 和 Lemeshow 提供了关于解释 AUC 值的一般规则。通过解述它们的规则,可得出下面的一般规则:

AUC = 0.5 无判别力(即,还不如抛硬币)
0.7 ≤ AUC < 0.8 可接受的辨别力
0.8 ≤ AUC < 0.9 优秀的辨别力
AUC ≥ 0.9 不同凡响的辨别力(但极为罕见)

由于此模型的 AUC 小于 0.7,您可断定,此模型没有提供适当的判别度。

参考资料:

D.W. Hosmer 和 S. Lemeshow (2000)。Applied Logistic Regression(Logistic 回归应用)。第 2 版,John Wiley & Sons, Inc.,第 156 到 164 页。

A. Agresti (2002)。Categorical Data Analysis(类别数据分析)。第 2 版,John Wiley & Sons, Inc.,第 228 到 230 页。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策