目标

在分析欺诈检测趋势之前,必须对数据集进行清理和标准化。在本节中,您将:

  • 正确的数据类型
  • 删除无效记录
  • 标准化类别值
  • 组织数据集以便分析
  • 了解你的数据如何通过 Minitab Data Center

数据管道概述

Minitab Data Center 使用数据流水线来准备你的数据。流水线是一系列相互关联的步骤,将原始数据转换为干净、可分析的数据集。

每个数据中心项目都包含一个交互式管道图,表示数据处理步骤。典型的管道流程包含以下节点。

数据来源清理合并/重塑输出

  • 数据来源: 连接你的数据并定义其结构。
  • 清理: 修正、过滤并标准化你的数据。
  • 合并/重塑:合并或重新组织数据集。
  • 输出: 将清理后的数据发送到 Minitab Statistical SoftwareMinitab Dashboards

每一步都以可视化节点的形式出现在流水线中,便于理解和重复使用数据准备流程。

打开数据源

  1. 在主页中 Minitab Solution Center ,选择 数据准备
  2. 选择 添加数据
  3. 登录你的仓库。
  4. 打开 保险欺诈数据。

    保险欺诈数据

当你打开一个数据集时,会自动创建一个新的流水线,使用默认节点。

数据来源清理输出

理解数据中心的观点

该观点 Data Center 主要有两种:
清理 视图
利用视 清理 野:
  • 更改数据类型
  • 筛选行
  • 替换数值
  • 对数据排序
  • 标准化类别
数据来源 视图
如果你需要更改数据集模式或任何影响整个数据集的设置,选择数据源文件图标打开 选项 面板。

欲了解更多信息,请访问 “管理数据集模式 ”或 “设置数据源选项”。

利用视 数据来源 野:
  • 调整数据集范围的设置
  • 修改模式(列名和类型)
  • 配置文件导入选项

何时使用每种视图:

  • 用来 清理 修复数据。
  • 使用 数据来源 视图来修正数据集结构。

准备数据集

合规团队希望提高欺诈检测的准确性。在开始分析之前,必须对数据集进行验证和标准化。按照以下步骤准备 insurance_fraud_data.csv 以进行进一步分析。
  1. 在 中打开 Insurance Fraud Data Minitab Data Center
  2. 确保您在视图中 清理
  3. 选择列并打开 数据准备选项 下拉菜单以访问列清理选项。

1.标准化标识符

确保理赔标识符被视为文本并格式清晰。
  • claim_number 数据类型从数字改为 文本

  • 在所有索赔编号前加上 # 符号。

为什么这很重要:防止数值解释并保持格式一致性。

2.删除无效或不切实际的数值

清除异常值和可能影响分析的占位值。
  • 过滤 age_of_driver 只包含 100 ≤数值。
  • 筛选 annual_income 只包含大于1的值。

为什么这很重要:去除不切实际的年龄和可能影响结果的无效收入记录。

3.标准化类别值

确保数据集中的标签一致且易读。
  • 性别中,替换:
    • 男→男
    • 女→女性
  • address_change 数据类型从数字改为文本。
  • address_change中,替换:
    • 1 → 是的
    • 0 → 不

为什么这很重要:标准化分类提升了可读性、分组和报告能力。

4. 正确的数据类型

有些数值字段表示标识符而非数量。
  • zip_code 数据类型从数字改为文本。

为什么这很重要:保留前导零并防止误数值运算。

5.组织数据集

通过排序关键变量来准备数据集进行分析。用于 高级排序 排序:
  • 举报欺诈
  • injury_claim
  • zip_code

为什么这很重要:分类有助于高效地优先排序和审查与欺诈相关的记录。

合并或重塑数据集

除了清理和标准化数据外,分析前你可能需要合并或重新组织数据集。

以下操作有助于为报告、统计分析或仪表盘创建准备数据。
联接
通过使用一个或多个关键字字段匹配行来组合相关数据集。这样可以增加列,使数据集更宽。

欲了解更多信息,请访问 “加入数据集”。

联合
将结构相同的数据堆叠到一个数据集中。这样会增加行数,使数据集更长。

更多信息请访问 Union数据集

转置
切换行和列。当数据的格式不适合分析时,这非常有用。

更多信息请访问 转置数据集

使用 Minitab AI 清理数据

Minitab Data Center 提供了一个对话式界面,指导你在视图中 清理 的数据准备。

对于上面的示例,您可以在提示中 Minitab AI 输入以下文本以获得与独立步骤相同的结果。

将索赔编号转换为文本。将数字符号添加到索赔编号。删除超过 100 个的驱动程序。将 m 更改为男性,将 f 更改为女性。删除没有有效收入的司机。将address_change更改为文本。地址更改将 1 设置为是,将 0 设置为否。按欺诈、伤害索赔和邮政编码排序。

如需了解更多关于在 Minitab AI Data Center,请访问 使用 Minitab AI 清理数据

重复使用你的数据准备步骤

应用所有准备步骤后,保存步骤以供未来使用相同列的数据集。
导出数据准备步骤
要保存这些步骤,请将它们导出为 .mdcs 文件。
  1. 在左侧的 Steps 窗格中,从下拉菜单中进行选择 导出步骤
  2. 该文件将保存到您的下载文件夹或其他保存位置,并使用与数据文件相同的名称。相应地更改名称。
导入数据准备步骤
要将这些步骤应用于新的数据文件,请将它们作为 .mdcs 文件导入。
从窗格的 步骤 下拉菜单中选择 导入步骤

探索数据摘要

每列都有图形摘要,显示数据的形状和范围,以及代表数据类型的图标。

例如, 频道 有3层, 开放日 显示双峰分布。

打开 以 数据摘要 获取这些专栏的统计摘要更多信息。

channel 的数据摘要显示了 3 个级别中每个级别的频率。

使用右键菜单编辑分组标签,排除该组,或仅显示包含该值的行。

接下来的内容

由于 打开天数 的数据指示两个分配,因此保险公司希望进一步查看此情况。转到 分析您的数据