为确保结果有效,在收集数据、执行分析和解释结果时,请考虑以下准则。
- 响应变量应当是类别变量
- 类别变量包含有限、可数数目的类别或可区分组。类别数据可能具有逻辑顺序,也可能没有逻辑顺序。例如,类别变量包括性别、材料类型和付款方式。
- 如果响应变量有两个类别(如通过和失败),则响应为二元响应。
- 如果响应变量包含三个或更多类别,则响应为多项式响应。
响应变量的数据必须是文本值或数字值。不允许是日期/时间值。
如果响应变量为连续变量,请使用 Random
Forests® 回归。
- 预测变量可以是连续变量或类别变量
- 可以使用连续预测变量或类别预测变量的组合;但是,每个预测变量的列长度必须与响应列的长度相同。允许缺失值。
- 所有连续预测变量都必须为数字。
- 类别预测变量可以是文本或数字值。