先验概率

先验概率是指在收集数据之前,观测值落入某个组中的概率。例如,如果您对特定汽车的购买者进行分类,则可能已经知道 60% 的购买者是男性,40% 是女性。

使用先验概率可提高某些类别的分类准确度。CART 会根据先验概率做出不同的内部平衡决策。增加一个类别的概率而降低另一个类别的概率有助于平衡不同类别的误分类率。例如,增加事件概率而降低非事件概率可以提高假阳率,但会使假阴率恶化。

增加事件概率将降低类别分配到事件的节点阈值。因此,事件类别部分较低的节点会被归类为事件。在树的生长阶段,先验概率对整个树的发展影响最大,为改变最终模型提供了强有力的手段。

解释

对所有类别都相同
例如,使用 4 个类别时,每个类别概率均为 0.25。
匹配总样本频率
例如,第一个类别可能包含 50% 的频率,第二个类别可能包含 30% 的频率,最后一个类别可能包含 20% 的频率。因此,先验概率为 0.50、0.30 和 0.20。
用户指定
先验概率基于您的判断,并可能更改以平衡误分类率。概率之和必须为 1。

节点分裂

Minitab 提供以下节点分裂方式:
  • 基尼
  • 类别概率
  • 二分 - 适用于多项式响应。二分法与适用于二值响应的基尼法相同。

解释

使用分裂方式可查找最适合您数据的树。某些分裂方式可能优于其他方式,具体取决于您的特定数据。对多种分裂方式的结果进行比较,以确定适合应用的最佳选择。

最优树

Minitab 使用最小误分类成本来确定最优树,您也可以围绕误分类成本指定一个标准误范围,以扩展最优树的选择。
最小误分类成本
Minitab 使用最小相对成本来选择最优树。
最小误分类成本的 X 个标准误内
Minitab 标识误分类成本处于您所指定的标准误范围内的树,并选择该范围内终端节点数最少的树作为最优树。

模型验证

Minitab 使用交叉验证方式或使用单独的检验集来验证模型。使用交叉验证,您可以指定每个折叠的行,或允许随机选择。使用单独的检验集,您可以指定训练和检验集的行,或允许随机选择。

缺失值惩罚

缺失值惩罚根据每个节点的缺失值比例来惩罚竞争变量。因此,节点中缺少许多值的竞争变量不太可能充当主分裂变量。

高水平类别惩罚

高水平类别惩罚会根据节点相对于每个节点的大小的类别水平数来惩罚竞争变量。因此,节点中具有多个水平的竞争变量不太可能充当主分裂变量。

权重

指示用于加权响应的列。

已使用的行数

树中使用的响应观测值的数量。

未使用的行数

缺少响应观测值的数量。这还包括权重列中的缺失值、0 或负值。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策