CART® 分类的最佳和最差终端节点的分类有效性

使用分类有效性统计量可确定因性能而受特殊关注的节点的特征。

Minitab 为每个响应水平显示一个表。表的每行显示一个节点的汇总。对于二元案例和多项式案例,Minitab 使用表达式 Abs(事件概率 – 0.5) 对类别概率进行排序。值越高,终端节点越优。最佳节点按最佳到最差的顺序排列。最差节点按最差到最佳的顺序排列。

如果使用类别概率时存在结,则 Minitab 使用 N 百分比作为第二排序。N 百分比最高的终端节点为第一个节点。如果此排序后仍存在结,则 Minitab 在“最佳”、“最差”和“最佳和最差”方案中首先显示最小的终端节点。
注意

即使在“最差”节点排序中,采用第二排序时也应首先显示最大 N 百分比,因此“最佳”和“最差”排序不会总是彼此相反。

使用检验数据集时,Minitab 会分别 为训练数据和检验数据单独计算统计量。您可以比较统计量,检查树在训练数据和新数据上的相对性能。检验统计量通常能够更好地衡量树对新数据的执行效果。训练和检验的终端节点根据各自的事件概率分别排秩。没有检验数据观测值的终端节点没有事件概率,因此,不会考虑这些节点。

终端节点
终端节点的标识。
事件计数或类别计数
计数是节点中事件、非事件或者类别的案例数。如果分析包含权重,则计数为加权计数。具有许多案例的终端节点可能需要特殊关注,因为这些节点通常表示更常见的案例。
总计数
总计数是事件和未事件案例的总数或者所有类别计数的总数。
N 百分比
节点中数据的百分比。
事件概率或类别概率
事件概率用于二元响应变量,类别概率用于多项式响应变量。
非事件概率或非类别概率
非事件概率用于二元响应变量,非类别概率用于多项式响应变量。
优势比
优势比表示事件与非事件的比率,或者类别与非类别的比率。