适用于误分类的方式和公式 - CART®分类

选择需要的方式或公式。

当分裂方式是类别概率时,误分类表不存在。

计数和加权计数

不使用权重时,计数和样本大小相同。

在加权情况下,加权计数是类别的权重之和。当有权重时,使用加权计数来计算不同的权重。

误差百分比

在加权情况下,使用加权计数代替计数。

成本

成本的计算取决于响应变量是二值变量还是多项式变量。

成本 = (误差百分比 × 类别的输入误分类成本) / 100

二值响应变量

以下方程给出了事件类别的成本:

以下方程给出了非事件类别的成本:

以下方程给出了所有类别的总成本:

多项式响应变量

对于多项式案例,该方程扩展了二值响应变量的公式,以解释所有可能的误分类类型。例如,对于具有 k 个类别的多项式响应,Y = 1 的误分类成本使用以下方程:

以下方程给出了多项式案例的总成本:

例如,考虑具有 3 个类别的响应变量和以下误分类成本:

预测类别
实际类别 1 2 3
1 0.0 4.1 3.2
2 5.6 0.0 1.1
3 0.4 0.9 0.0

然后,考虑下表给出了误差百分比:

预测类别
实际类别 1 2 3
1 暂缺 1% 0.5%
2 1.4% 暂缺 2.1%
3 5% 1.2% 暂缺

最后,考虑响应变量的类别具有以下先验概率:

以下方程给出了与响应变量中每个类别的误分类相关联的成本:

以下方程给出了总成本:

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策