数据注意事项 - CART® 分类

为确保结果有效,在收集数据、执行分析和解释结果时,请考虑以下准则。

响应变量(目标)应为类别变量
类别变量包含有限、可数数目的类别或可区分组。类别数据可能具有逻辑顺序,也可能没有逻辑顺序。例如,类别变量包括性别、材料类型和付款方式。
  • 如果响应变量有两个类别(如通过和失败),则响应为二值响应。
  • 如果响应变量包含三个或更多类别,则响应为多项式响应。

响应变量的数据必须是文本值或数字值。不允许是日期/时间值。

如果响应变量为连续变量,请参阅 CART® 回归

预测变量可以是连续变量或类别变量
可以使用连续预测变量或类别预测变量的组合;但是,每个预测变量的列长度必须与响应列的长度相同。允许缺失值。
  • 所有连续预测变量都必须为数字。
  • 类别预测变量可以是文本或数字值。
当案例数超过 5000 时,建议使用检验集

默认情况下,案例数小于等于 5000 时,Minitab 将使用交叉验证。当案例数超过 5000 时,Minitab 将使用检验集。当数据集较大时,使用训练数据集和检验数据集进行验证非常有用。要了解有关 CART® 分类中的验证方法设置的更多信息,请转到 指定的验证方法CART® 分类