不正検出の傾向を分析する前に、データセットをクリーンアップし標準化する必要があります。このセクションでは、以下の内容を扱います:
Minitab Data Center はデータパイプラインを使ってデータを準備します。パイプラインとは、生データをクリーンで分析に適したデータセットに変換する一連の接続されたステップのことです。
すべてのデータセンタープロジェクトには、データ処理ステップを表すインタラクティブなパイプライン図が含まれています。典型的なパイプラインフローには以下のノードが含まれます。
データソース → クリーンアップ → 合体/形を変える→ 出力
各ステップはパイプライン内の視覚的なノードとして現れ、データ準備プロセスを理解し再利用しやすくしています。
データソース → クリーンアップ → 出力


詳細については、「 データセットスキーマの管理 」または「 データソースオプションの設定」へどうぞ。
各ビューの使用タイミング:

claim_number データタイプを数値から テキストに変更してください。
すべてのクレーム番号には # 記号を付けてください。
なぜこれが重要なのか: 数値解釈を防ぎ、フォーマットの一貫性を保ちます。
なぜこれが重要なのか: 結果を歪める可能性のある非現実的な年齢や無効な収入記録を除去します。
なぜこれが重要なのか: 標準化されたカテゴリは、可読性、グループ化、報告性を向上させます。
なぜこれが重要なのか: 先頭のゼロを保持し、意図しない数値演算を防ぎます。
なぜこれが重要なのか: ソーティングは詐欺関連の記録を優先順位付けし、効率的に確認するのに役立ちます。
データのクリーニングや標準化に加え、分析前にデータセットをまとめたり再整理したりする必要がある場合もあります。
詳細については、「 データセットの結合」をご覧ください。
詳細は Union datasetsをご覧ください。
詳細は 「Transpose datasets」をご覧ください。
Minitab Data Center は クリーンアップ ビューでデータ準備を案内する会話型インターフェースを提供します。
上記の例では、 Minitab AI プロンプトに次のテキストを入力すると、個々のステップと同じ結果が得られます。
請求番号をテキストにします。番号を請求するために番号記号を追加します。100 より古いドライバーを削除します。m を男性に、f を女性に変更します。有効な収入のないドライバーを削除します。address_changeをテキストに変更します。住所変更の場合は 1 から yes、0 から no にします。詐欺、傷害請求、郵便番号で並べ替えます。
Data Centerでの Minitab AI 使用についての詳細は、「 Minitab AIを使ってデータをクリーンアップする」をご覧ください。



例えば、 チャンネル は3つのレベルで、 開いている日 は二峰分布を示します。


チャネル のデータ サマリーには、3 つのレベルのそれぞれの周波数が表示されます。

右クリックメニューを使ってグループ化ラベルを編集したり、グループをデータセットから除外したり、この値を含む行だけを表示することができます。
オープン日数 のデータは 2 つの分布を示しているため、保険会社はこれをさらに詳しく調べたいと考えています。データの分析にアクセスします。