Random Forests® 分类输入数据

预测分析模块 > Random Forests® 分类
注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

选择最能准确描述数据的选项。

二元响应变量

如果分类响应数据有两个类别(如通过和失败),则完成以下步骤。

  1. 从下拉列表中,选择二元响应变量
  2. 响应中,输入包含二元响应的列。值可以是数字或文本。
  3. 响应事件中,选择分析将描述的事件。 默认情况下,选择第二个响应水平作为响应事件。更改响应事件并不影响模型,但会使结果更有意义。
  4. 连续预测变量中,输入可能解释或预测响应中变化的连续变量。 连续预测变量必须使用数字值。
  5. 类别预测变量中,输入可能解释或预测响应中变化的类别变量。 类别预测变量可以使用文本或数字值。
在此工作表中,购买是指示消费者是否购买了新品牌谷类食品的二元响应。响应事件为收入儿童为连续预测变量。商店收看广告为类别预测变量。

工作表中的第一行显示消费者购买了新品牌的谷类食品。该消费者的收入为 37000 美元,在 A 商店购物,有 1 个孩子,看了谷类食品的广告。

C1-T C2 C3-T C4 C5-T
购买 收入 商店 孩子 收看广告
37,000 美元 A 1
47,000 美元 A 3
34,000 美元 A 0
58,000 美元 B 0

多项式响应

如果分类响应变量有三个或更多类别(如轿车、卡车和 SUV),则完成以下步骤。

  1. 从下拉列表中,选择多项式响应
  2. 响应中,输入包含类别响应的列。值可以是数字或文本。
  3. 连续预测变量中,输入可能解释或预测响应中变化的连续变量。 连续预测变量必须使用数字值。
  4. 类别预测变量中,输入可能解释或预测响应中变化的类别变量。 类别预测变量可以使用文本或数字值。
在此工作表中,目标是指示贷款申请人是低风险、中风险还是高风险的多项式响应。收入卡片数为连续预测变量。婚姻为类别预测变量。

工作表中的第一行显示了一位低风险申请人,收入为 2399,有 3 张信用卡,而且是单身。

C1-T C2 C3 C4-T
目标 收入 卡片数 婚姻
2399 3 单身
2915 5 单身
3100 0 已婚
1500 8 已婚