准备数据的示例

使用数据准备工具组织和准备数据,以便进行更可靠的分析。

数据准备步骤

在此示例中,合规性团队关注汽车行业的欺诈检测准确性;但是,在开始分析之前,需要对数据进行准备。按照以下步骤准备 insurance_fraud_data.csv 以进行进一步分析。要进行这些修改,请选择列并打开 以 数据准备选项 访问列清理选项。
  1. Minitab Data Center 中打开 保险欺诈数据
  2. 对于 claim_number,请将数据类型从 numeric 更改为 text。
  3. 对于 claim_number,请在列值前面加上 #。
  4. 对于 age_of_driver,请筛选以仅包含小于或等于 100 年的驱动程序。
  5. 在 gender (性别) 中,将 M 更改为 male ,将 F 更改为 female
  6. 对于 annual_income,请筛选以仅包含大于 1 的驱动程序。
  7. 对于 address_change,请将数据类型从 numeric 更改为 text。
  8. 在 address_change 中,将 1 更改为 yes ,将 0 更改为 no
  9. 对于邮政编码,将数据类型从 numeric 更改为 text。
  10. 用于 高级排序 按欺诈、伤害索赔和邮政编码排序。

导出数据准备步骤

应用所有制备步骤后,保存这些步骤以用于具有相同列的未来数据集。要保存这些步骤,请将它们导出为 .mdcs 文件。
  1. 在 Steps 窗格中,从下拉菜单中进行选择 导出步骤
  2. 该文件将保存到您的下载文件夹或其他保存位置,并使用与数据文件相同的名称。相应地更改名称。

导入数据准备步骤

要将这些步骤应用于新的数据文件,请将它们作为 .mdcs 文件导入。从窗格的 步骤 下拉菜单中选择 导入步骤

探索数据摘要

每列都有一个摘要,其中显示数据的形状、数据的范围,以及一个表示数据类型的图标。

快速浏览一下列图形摘要显示 ,通道 有 3 个级别, 打开天数 显示双峰分布。

打开 以 数据摘要 获取有关这些列的摘要统计信息的更多信息。

channel 的数据摘要显示了 3 个级别中每个级别的频率。

接下来的内容

由于 打开天数 的数据指示两个分配,因此保险公司希望进一步查看此情况。转到 分析数据的示例