在分析欺诈检测趋势之前,必须对数据集进行清理和标准化。在本节中,您将:
它 Minitab Data Center 使用数据流水线来准备你的数据。流水线是一系列相互关联的步骤,将原始数据转换为干净、可分析的数据集。
每个数据中心项目都包含一个交互式管道图,表示数据处理步骤。典型的管道流程包含以下节点。
数据来源 → 清理 → 合并/重塑→ 输出
每一步都以可视化节点的形式出现在流水线中,便于理解和重复使用数据准备流程。
数据来源 → 清理 → 输出

将 claim_number 数据类型从数字改为 文本。
在所有索赔编号前加上 # 符号。
为什么这很重要:防止数值解释并保持格式一致性。
为什么这很重要:去除不切实际的年龄和可能影响结果的无效收入记录。
为什么这很重要:标准化分类提升了可读性、分组和报告能力。
为什么这很重要:保留前导零并防止误数值运算。
为什么这很重要:分类有助于高效地优先排序和审查与欺诈相关的记录。
它 Minitab Data Center 提供了一个对话式界面,指导你在视图中 清理 的数据准备。
对于上面的示例,您可以在提示中 Minitab AI 输入以下文本以获得与独立步骤相同的结果。
将索赔编号转换为文本。将数字符号添加到索赔编号。删除超过 100 个的驱动程序。将 m 更改为男性,将 f 更改为女性。删除没有有效收入的司机。将address_change更改为文本。地址更改将 1 设置为是,将 0 设置为否。按欺诈、伤害索赔和邮政编码排序。
如需了解更多关于在 Minitab AI Data Center,请访问 使用 Minitab AI 清理数据。



例如, 频道 有3层, 开放日 显示双峰分布。


channel 的数据摘要显示了 3 个级别中每个级别的频率。

使用右键菜单编辑分组标签,排除该组,或仅显示包含该值的行。
由于 打开天数 的数据指示两个分配,因此保险公司希望进一步查看此情况。转到 分析您的数据。