连接数据集

你可以通过根据常见列值匹配行,将两个数据集合并为一个数据集。加入数据集可以让你通过整合相关信息进行分析和报告,丰富你的数据。

连接要求

A 联接 基于一个或多个常见列将两个数据集组合起来。要配置连接,您必须指定以下内容:

  • 主数据集: 主要数据集构成结果的基础。
  • 辅助数据集: 将与主数据集合并的数据集。
  • 联接条件: 至少有一个连接条件,定义每个数据集中行的匹配方式。
  • 联接类型: 定义了未匹配行的处理方式。

添加连接条件

用来 联接条件 定义两个数据集行的匹配方式。每个条件将第一个数据集中的一个列与第二个数据集中的对应列配对。

  1. 指定主要和次级数据集。
  2. 从两个数据集中选择一个列以完成第一个连接条件。选择 + 键添加新的条件行。每一行代表一列比较。
  3. 选择匹配的列。 对于每个条件:
    • 使用左下拉菜单从第一个数据集中选择列。
    • 使用右下拉菜单从第二个数据集中选择匹配的列。
    注意

    所选列必须包含相关值(如ID、名称或代码)。仅支持完全匹配(Equals =)。

  4. 你可以添加多个条件来细化行匹配方式。 当使用多种条件时:
    • 所有条件都必须为真,行才会匹配。
    • 这就像是与 与的 比较。
    例如,
    • 电子邮件 匹配 邮箱地址
    • AND 邮政编码邮政编码匹配
    提示

    在条件行选择 X 以移除该条件。

请遵循以下指导原则以提高匹配准确性。
  • 确保你选择的列包含可比的数据。例如,使用两个数字或两个文本栏。
  • 使用一致的格式,如间距和大小写,以获得最佳效果。
  • 每个连接配置最多可以定义十种连接条件。

管理列

选择部分或全部列以包含在连接结果中。你可以根据需要重新命名列名。
注意

样本值显示输入数据中最常见的值。

联接类型

联接类型 结果
主(左加入) 所有来自主数据集的行,加上来自次级数据集的匹配
仅匹配(内连接) 只有在两个数据集中匹配的行
所有字段(完全加入) 两个数据集的所有行

主(左加入)

根据连接条件返回主数据集的所有行和次级数据集匹配的行。如果未找到匹配,则返回次级数据集列的缺失值。

仅匹配(内连接)

仅返回基于连接条件在两个数据集中匹配的行。未匹配的行不计入结果。

所有字段(完全加入)

返回两个数据集的所有行。当行匹配时,它们的列会合并为一行。当不存在匹配时,未匹配数据集的列将使用缺失值。