联盟数据集

你可以通过将一个数据集的行叠加到另一个数据集之下,将两个数据集合并成一个数据集。联合数据集可以让你将来自多个来源的相似数据整合起来,进行整合分析和报告。

工会要求

A 联合 基于一个或多个常见列将两个数据集组合起来。要配置联合,您必须指定以下内容:

  • 至少有两个数据输入。选择一个管道节点将其数据集添加到 union。
  • 每个数据集的列映射。必要时使用 管理列
  • 联合类型

添加和管理数据输入

选择数据集并指定匹配列以创建成功的并集。所有数据集都应包含匹配或兼容的列,以确保数据在合并结果中正确对齐。

  1. 选择 + 键添加新输入。
  2. 选择生成数据集的管道节点作为输入。 你可以有两到四个输入。
  3. 选择 管理列 指定要包含哪些列以及如何匹配它们。
    1. 选择要包含在结果数据集中的列。
    2. 为每个数据集绘制列位。
    注意

    如果数据类型不匹配,结果列会被转换为文本。数字格式如百分比和货币会被自动转换为数字。

当列名匹配时, Data Center 映射的列会自动映射。但当列名不匹配时,你必须选择结果列并映射不匹配的列。

这两个输入的邮箱地址和邮政编码列名不同。

你决定使用 Email AddressPostalCode这两个结果名,于是相应地重新映射了第二个数据集。

提示

使用聚焦列选的筛选选项。选择 所有列不匹配的柱启用列

联合类型

联合类型 结果
唯一行(UNION)

从所有输入中移除行,当所有列值匹配时删除重复。

所有划行(联合 ALL)

所有输入的行并保留重复。当需要重复排行时使用。

唯一行(UNION)

合并所有输入的行,并在所有列值匹配时删除重复行。当你需要一份独立的记录列表时,可以使用这个选项。

在这个例子中,出现在两个输入中的行只在结果中出现一次。

  • C00393 / #0119 / 基础
  • C00438 / #0122 / 职业

所有划行(联合 ALL)

合并所有输入的行并保留重复行。当重复记录有效时,请使用此选项。

在这个例子中,重复的行在结果中出现两次,因为它们在两个输入中都存在。

  • C00393 / #0119 / 基础
  • C00438 / #0122 / 职业