准备数据

使用数据准备工具组织和准备数据,以便进行更可靠的分析。

数据准备步骤

在此示例中,合规性团队关注汽车行业的欺诈检测准确性;但是,在开始分析之前,需要对数据进行准备。按照以下步骤准备 insurance_fraud_data.csv 以进行进一步分析。要进行这些修改,请选择列并打开 数据准备选项 下拉菜单以访问列清理选项。
  1. 在 中打开 Insurance Fraud Data Minitab Data Center
  2. 对于 claim_number,请将数据类型从 numeric 更改为 text。
  3. 对于 claim_number,请在列值前面加上 #。
  4. 对于 age_of_driver,请筛选以仅包含小于或等于 100 年的驱动程序。
  5. 在 gender (性别) 中,将 M 更改为 male ,将 F 更改为 female
  6. 对于 annual_income,请筛选以仅包含大于 1 的驱动程序。
  7. 对于 address_change,请将数据类型从 numeric 更改为 text。
  8. 在 address_change 中,将 1 更改为 yes ,将 0 更改为 no
  9. 对于邮政编码,将数据类型从 numeric 更改为 text。
  10. 用于 高级排序 按欺诈、伤害索赔和邮政编码排序。

导出数据准备步骤

应用所有制备步骤后,保存这些步骤以用于具有相同列的未来数据集。要保存这些步骤,请将它们导出为 .mdcs 文件。
  1. 在左侧的 Steps 窗格中,从下拉菜单中进行选择 导出步骤
  2. 该文件将保存到您的下载文件夹或其他保存位置,并使用与数据文件相同的名称。相应地更改名称。

导入数据准备步骤

要将这些步骤应用于新的数据文件,请将它们作为 .mdcs 文件导入。从窗格的 步骤 下拉菜单中选择 导入步骤

探索数据摘要

每列都有一个摘要,其中显示数据的形状、数据的范围,以及一个表示数据类型的图标。

快速浏览一下列图形摘要显示 ,通道 有 3 个级别, 打开天数 显示双峰分布。

打开 以 数据摘要 获取有关这些列的摘要统计信息的更多信息。

channel 的数据摘要显示了 3 个级别中每个级别的频率。

接下来的内容

由于 打开天数 的数据指示两个分配,因此保险公司希望进一步查看此情况。转到 分析您的数据