Random Forests® 分类 的接受者操作特性 (ROC) 曲线图的方法和公式

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

点在 ROC 曲线上的过程取决于验证方法。对于多项式响应变量,Minitab 会显示多个图表,这些图表依次将每个类别视为事件。

OOB 验证

对于森林中的给定树,在 OOB 数据中对一行的类别投票是单个树中行的预测类别。在 OOB 数据中,行的预测类别是森林中所有树中投票率最高的类别。OOB 数据中一行的预测类别概率是该行的类别票数和总票数之比。

对于 OOB 数据的曲线,图表上的每个点都表示可区分的预测类别概率。最高事件概率是图表上的第一个点,显示在最左侧。其他概率按降序排列。

使用以下过程查找图表的 x 坐标和 y 坐标。

  1. 使用每个可区分事件概率作为阈值。对于特定阈值,估计事件概率大于或等于阈值的案例将获得 1 作为预测类别,否则获得 0。然后,可以为所有案例形成一个 2x2 的表,以观测类别作为行,以预测类别作为列来计算每个事件概率的假阳率和真阳率。假阳率是图表的 x 坐标。真阳率是 y 坐标。

    例如,假设下表汇总了具有两个两水平类别预测变量的简化模型。这些预测变量提供四个可区分事件概率,四舍五入至小数点后 2 位:

    A:订单 B:预测变量 1 C: 预测变量 2 D:事件数 E:非事件数 F:试验数 G:阈值(拟合事件概率)
    1 1 1 18 12 30 0.60
    2 1 2 25 42 67 0.37
    3 2 1 12 44 56 0.21
    4 2 2 4 32 36 0.11
    合计     59 130 189  

    以下是相应的四个表,它们各自的假阳率和真阳率四舍五入至小数点后 2 位:

    表 : 1. 阈值 = 0.60.

    假阳率 = 12 / (12 + 118) = 0.09

    真阳率 = 18 / (18 + 41) = 0.31

        预测
        事件 非事件
    观测 事件 18 41
    非事件 12 118
    表 : 2. 阈值 = 0.37.

    假阳率 = (12 + 42) / 130 = 0.42

    真阳率 = (18 + 25) / 59 = 0.73

        预测
        事件 非事件
    观测 事件 43 16
    非事件 54 76
    表 : 3. 阈值 = 0.21.

    假阳率 = (12 + 42 + 44) / 130 = 0.75

    真阳率 = (18 + 25 + 12) / 59 = 0.93

        预测
        事件 非事件
    观测 事件 55 4
    非事件 98 32
    表 : 4. 阈值 = 0.11.

    假阳率 = (12 + 42 + 44 + 32) / 130 = 1

    真阳率 = (18 + 25 + 12 + 4) / 59 = 1

        预测
        事件 非事件
    观测 事件 59 0
    非事件 130 0

单独的测试集

使用与 OOB 程序相同的步骤,但从测试集的案例中计算事件概率。