目的

不正検出の傾向を分析する前に、データセットをクリーンアップし標準化する必要があります。このセクションでは、以下の内容を扱います:

  • 正しいデータ型
  • 無効な記録を削除する
  • カテゴリ別値を標準化する
  • 分析のためにデータセットを整理する
  • データがどのように流れているかを理解しましょう Minitab Data Center

データパイプラインの概要

Minitab Data Center はデータパイプラインを使ってデータを準備します。パイプラインとは、生データをクリーンで分析に適したデータセットに変換する一連の接続されたステップのことです。

すべてのデータセンタープロジェクトには、データ処理ステップを表すインタラクティブなパイプライン図が含まれています。典型的なパイプラインフローには以下のノードが含まれます。

データソースクリーンアップ合体/形を変える→ 出力

  • データソース: データに接続し、その構造を定義しましょう。
  • クリーンアップ: データを修正し、フィルタリングし、標準化しましょう。
  • 合流/リシェイプ: データセットを組み合わせたり再整理したりしましょう。
  • 出力: クリーンデータを Minitab Statistical SoftwareMinitab Dashboardsに送信してください。

各ステップはパイプライン内の視覚的なノードとして現れ、データ準備プロセスを理解し再利用しやすくしています。

データ ソースを開く

  1. Minitab Solution Center ホームページから「 データ準備」を選択します。
  2. データを追加を選択します。
  3. リポジトリにサインインしてください。
  4. 開く 保険詐欺データ。

    保険詐欺データ

データセットを開くと、デフォルトのノードで新しいパイプラインが自動的に作成されます。

データソースクリーンアップ出力

データセンターの見解を理解する

Data Center には主に二つの見解があります。
クリーンアップ 眺める
クリーンアップ ビューを使って以下を行えます:
  • データ型を変更します
  • 行のフィルタリング
  • 値の置換
  • データのソート
  • カテゴリーの標準化
データソース 眺める
データセットスキーマやデータセット全体に影響を与える設定を変更する必要がある場合は、データソースファイルアイコンを選択して オプション パネルを開きます。

詳細については、「 データセットスキーマの管理 」または「 データソースオプションの設定」へどうぞ。

データソース ビューを使って以下を行えます:
  • データセット全体の設定を調整する
  • スキーマの変更(列名と型)
  • ファイルインポートオプションの設定

各ビューの使用タイミング:

  • クリーンアップ を使ってデータを修正しましょう。
  • データソース ビューを使ってデータセット構造を修正してください。

データセットを準備する

コンプライアンスチームは不正検出の精度を向上させたいと考えています。分析を始める前に、データセットの検証と標準化が必要です。次の手順に従って、insurance_fraud_data.csvをさらに分析する準備をし ます
  1. Minitab Data Center保険詐欺データ を開きます。
  2. クリーンアップ ビューが表示されていることを確認します。
  3. 列を選択し、 データ準備オプション ドロップダウンメニューを開き、列のクリーンアップオプションにアクセスします。

1.識別子の標準化

請求識別子はテキストとして扱われ、明確にフォーマットされていることを確認してください。
  • claim_number データタイプを数値から テキストに変更してください。

  • すべてのクレーム番号には # 記号を付けてください。

なぜこれが重要なのか: 数値解釈を防ぎ、フォーマットの一貫性を保ちます。

2.無効または非現実的な価値を取り除く

解析に影響を与える可能性のあるクリーンな外れ値やプレースホルダーの値。
  • フィルター age_of_driver 100≤値のみを含めるようにしてください。
  • フィルター annual_income 1より大きい値のみを含みます。

なぜこれが重要なのか: 結果を歪める可能性のある非現実的な年齢や無効な収入記録を除去します。

3.カテゴリ別値を標準化する

データセット全体で一貫性があり読みやすいラベルを確保しましょう。
  • 性別では、置き換えてください:
    • 男性→男性
    • 女性→女性
  • データタイプ address_change 数値からテキストに変更してください。
  • address_changeでは、以下を置き換えます:
    • 1 →はい
    • 0 → いいえ

なぜこれが重要なのか: 標準化されたカテゴリは、可読性、グループ化、報告性を向上させます。

4. 正しいデータ型

一部の数値フィールドは、量ではなく識別子を表します。
  • データ 型zip_code 数値からテキストに変更してください。

なぜこれが重要なのか: 先頭のゼロを保持し、意図しない数値演算を防ぎます。

5.データセットの整理

主要な変数をソートして分析のためにデータセットを準備します。 高度な並べ替え を使って並べ替え:
  • 報告された詐欺
  • injury_claim
  • zip_code

なぜこれが重要なのか: ソーティングは詐欺関連の記録を優先順位付けし、効率的に確認するのに役立ちます。

データセットの統合や再形成

データのクリーニングや標準化に加え、分析前にデータセットをまとめたり再整理したりする必要がある場合もあります。

以下の操作は、レポート作成、統計分析、ダッシュボード作成のためのデータ準備に役立ちます。
結合
関連するデータセットを1つ以上のキーフィールドで行を照合して組み合わせます。これにより列が追加され、データセットの幅が広がります。

詳細については、「 データセットの結合」をご覧ください。

ユニオン
同じ構造のデータセットを1つのデータセットにまとめます。これにより行数が増え、データセットが長くなります。

詳細は Union datasetsをご覧ください。

転置
行と列を切り替えます。これは、データが分析に理想的でない形式で整理されている場合に有用です。

詳細は 「Transpose datasets」をご覧ください。

Minitab AIを使用してデータをクリーンアップする

Minitab Data Centerクリーンアップ ビューでデータ準備を案内する会話型インターフェースを提供します。

上記の例では、 Minitab AI プロンプトに次のテキストを入力すると、個々のステップと同じ結果が得られます。

請求番号をテキストにします。番号を請求するために番号記号を追加します。100 より古いドライバーを削除します。m を男性に、f を女性に変更します。有効な収入のないドライバーを削除します。address_changeをテキストに変更します。住所変更の場合は 1 から yes、0 から no にします。詐欺、傷害請求、郵便番号で並べ替えます。

Data Centerでの Minitab AI 使用についての詳細は、「 Minitab AIを使ってデータをクリーンアップする」をご覧ください。

データ準備の手順を再利用しました

すべての準備ステップを適用した後は、同じ列を持つ将来のデータセット用に保存してください。
データ準備のエクスポート手順
手順を保存するには、手順を .mdcs ファイルとしてエクスポートします。
  1. 左側の [ステップ] ウィンドウで、ドロップダウン メニューから [ エクスポート手順 ] を選択します。
  2. ファイルはダウンロードフォルダまたはその他の保存場所に保存され、データファイルと同じ名前が使用されます。それに応じて名前を変更します。
データのインポート準備手順
手順を新しいデータ ファイルに適用するには、手順を .mdcs ファイルとしてインポートします。
ステップ ペインのドロップダウンメニューから インポート手順 を選択します。

データサマリーの探索

各列にはデータの形状と範囲を示すグラフィカルな要約と、データ型を表すアイコンがあります。

例えば、 チャンネル は3つのレベルで、 開いている日 は二峰分布を示します。

これらのコラムの統計要約の詳細については、 データ要約 を開いてください。

チャネル のデータ サマリーには、3 つのレベルのそれぞれの周波数が表示されます。

右クリックメニューを使ってグループ化ラベルを編集したり、グループをデータセットから除外したり、この値を含む行だけを表示することができます。

次の作業

オープン日数 のデータは 2 つの分布を示しているため、保険会社はこれをさらに詳しく調べたいと考えています。データの分析にアクセスします。