创建数据管道

Minitab Data Center中,你可以创建一个数据管道,将一个或多个来源的数据清理和转换成现成可用的数据集。

什么是数据管道?

数据管道是一系列收集、转换和准备数据的步骤,使其准备好用于分析或报告。数据管道有助于确保:
  • 数据保持一致和可靠
  • 更新按需进行
  • 团队使用相同的可信数据集
  • 错误在使用数据之前就被识别出来

数据流水线以交互式可视化图的形式出现,允许你添加、移除和修改节点,同时接收实时处理状态和错误信息。

例如,你可以创建一个管道,从CSV文件和Minitab工作表中提取数据,清理并合并数据,然后输出一个数据集用于仪表盘。
注意

每条流水线最多支持60个处理节点,外加一个输出节点(共61个节点)。最多可以有十个数据源节点。

管道视图

每个 Data Center 项目都包含一个交互式流水线图,表示数据处理步骤。
清理 视图
利用视图 清理 清理和准备数据
数据来源 视图
使用视图 数据来源 修改数据集模式或影响整个数据集的任何设置。

有关更多信息,请转到 管理数据集模式设置数据源选项

调整流水线显示

使用 放大流水线画布上的 、 缩小拟合视图 按钮来调整你的视图。
你也可以从工具栏中选择 自动布局 来优化流水线视图。
注意

你可以拖拽和重新定位节点,以实现最佳的视觉组织。

可用节点

大多数管道包含以下类型的节点:
  • 数据来源
  • 清理
  • 合并
  • 重塑
  • 输出

数据源节点

数据源节点将你的管道连接到数据集。每个流水线最多支持十个数据源节点。
要添加数据源节点,请从工具栏中选择 添加数据你也可以在画布的右键菜单中选择 添加数据源

有关数据源节点的更多信息,请访问 源节点基础知识

清理节点

修复格式问题,删除错误,并执行其他数据准备操作。
数据中心支持多个清理节点,采用灵活的层级结构,支持你所有的数据清理流程。
清理 第一个节点串联添加,随后后续节点并联如下。你可以随时重命名并移动节点到任何位置。

要添加无父级清理节点,可以从画布上下文菜单中选择 添加清理

有关数据清理节点的更多信息,请访问 清理步骤基础

数据合并节点

使用 联接 节点 联合 来合并多个数据集。
你可以从现有节点或连接线添加连接和联接节点。

要添加无父级的数据合并节点,选择 添加联接加入联盟 从画布上下文菜单中操作。

有关数据合并节点的更多信息,请访问 数据集合并

重塑节点

通过 转置 操作重塑数据集。
你可以从现有节点或连接线添加转置节点。

要添加无父级的重塑节点,请从画布上下文菜单中选择 添加移调

想了解更多关于重塑节点的信息,请访问 转置数据集

输出节点

表示数据流水线的终端节点。将数据传递到最终目的地,如分析工具或仪表盘。

要设置输出节点,打开右键菜单,从父节点中选择 设置输出 。从这里,你可以将清理后的数据副本发送到 Minitab 项目或 Minitab 仪表盘。

你也可以从工具栏中选择 打开方式 将清理后的数据副本发送到 Minitab 项目或 Minitab 仪表盘。

如需了解更多关于导出数据或整个数据中心流水线的信息,请访问 导出数据与项目

刷新流水线

用于 刷新 重新处理数据流水线内的数据转换。只有数据源节点可以独立刷新。

要刷新整个流程,请从工具栏中选择 刷新

要刷新单个数据源,请从源节点的右键菜单中选择 刷新 。如果无法访问数据源,系统会提示您重新连接或浏览该文件。