データの準備

データ準備ツールを使用して、データを整理し、より堅牢な分析のために準備します。

このトピックの内容

目的
データパイプラインの概要
データソースを開く
データセンターの見解を理解する
データセットを準備する
データセットの統合や再形成
Minitab AIを使用してデータをクリーンアップする
データ準備の手順を再利用しました
データサマリーの探索

目的

不正検出の傾向を分析する前に、データセットをクリーンアップし標準化する必要があります。このセクションでは、以下の内容を扱います:

正しいデータ型
無効な記録を削除する
カテゴリ別値を標準化する
分析のためにデータセットを整理する
データがどのように流れているかを理解しましょう Minitab Data Center

データパイプラインの概要

Minitab Data Center はデータパイプラインを使ってデータを準備します。パイプラインとは、生データをクリーンで分析に適したデータセットに変換する一連の接続されたステップのことです。

すべてのデータセンタープロジェクトには、データ処理ステップを表すインタラクティブなパイプライン図が含まれています。典型的なパイプラインフローには以下のノードが含まれます。

データソース → クリーンアップ → 合体/形を変える→ 出力

データソース: データに接続し、その構造を定義しましょう。
クリーンアップ: データを修正し、フィルタリングし、標準化しましょう。
合流/リシェイプ: データセットを組み合わせたり再整理したりしましょう。
出力: クリーンデータを Minitab Statistical Software や Minitab Dashboardsに送信してください。

各ステップはパイプライン内の視覚的なノードとして現れ、データ準備プロセスを理解し再利用しやすくしています。

データソースを開く

Minitab Solution Center ホームページから「データ準備」を選択します。
データを追加を選択します。
リポジトリにサインインしてください。
開く保険詐欺データ。
保険詐欺データ

データセットを開くと、デフォルトのノードで新しいパイプラインが自動的に作成されます。

データソース → クリーンアップ → 出力

データセンターの見解を理解する

Data Center には主に二つの見解があります。

クリーンアップ眺める

クリーンアップビューを使って以下を行えます:

データ型を変更します
行のフィルタリング
値の置換
データのソート
カテゴリーの標準化

データソース眺める

データセットスキーマやデータセット全体に影響を与える設定を変更する必要がある場合は、データソースファイルアイコンを選択してオプションパネルを開きます。

詳細については、「データセットスキーマの管理」または「データソースオプションの設定」へどうぞ。

データソースビューを使って以下を行えます:

データセット全体の設定を調整する
スキーマの変更(列名と型)
ファイルインポートオプションの設定

各ビューの使用タイミング:

クリーンアップを使ってデータを修正しましょう。
データソースビューを使ってデータセット構造を修正してください。

データセットを準備する

コンプライアンスチームは不正検出の精度を向上させたいと考えています。分析を始める前に、データセットの検証と標準化が必要です。次の手順に従って、insurance_fraud_data.csvをさらに分析する準備をします。

Minitab Data Centerで保険詐欺データを開きます。
クリーンアップビューが表示されていることを確認します。
列を選択し、データ準備オプションドロップダウンメニューを開き、列のクリーンアップオプションにアクセスします。

1.識別子の標準化

請求識別子はテキストとして扱われ、明確にフォーマットされていることを確認してください。

claim_number データタイプを数値から テキストに変更してください。
すべてのクレーム番号には # 記号を付けてください。

なぜこれが重要なのか: 数値解釈を防ぎ、フォーマットの一貫性を保ちます。

2.無効または非現実的な価値を取り除く

解析に影響を与える可能性のあるクリーンな外れ値やプレースホルダーの値。

フィルター age_of_driver 100≤値のみを含めるようにしてください。
フィルター annual_income 1より大きい値のみを含みます。

なぜこれが重要なのか: 結果を歪める可能性のある非現実的な年齢や無効な収入記録を除去します。

3.カテゴリ別値を標準化する

データセット全体で一貫性があり読みやすいラベルを確保しましょう。

性別では、置き換えてください:
- 男性→男性
- 女性→女性
データタイプ address_change 数値からテキストに変更してください。
address_changeでは、以下を置き換えます:
- 1 →はい
- 0 → いいえ

なぜこれが重要なのか: 標準化されたカテゴリは、可読性、グループ化、報告性を向上させます。

4. 正しいデータ型

一部の数値フィールドは、量ではなく識別子を表します。

データ 型zip_code 数値からテキストに変更してください。

なぜこれが重要なのか: 先頭のゼロを保持し、意図しない数値演算を防ぎます。

5.データセットの整理

主要な変数をソートして分析のためにデータセットを準備します。高度な並べ替えを使って並べ替え:

報告された詐欺
injury_claim
zip_code

なぜこれが重要なのか: ソーティングは詐欺関連の記録を優先順位付けし、効率的に確認するのに役立ちます。

データセットの統合や再形成

データのクリーニングや標準化に加え、分析前にデータセットをまとめたり再整理したりする必要がある場合もあります。

以下の操作は、レポート作成、統計分析、ダッシュボード作成のためのデータ準備に役立ちます。

結合: 関連するデータセットを1つ以上のキーフィールドで行を照合して組み合わせます。これにより列が追加され、データセットの幅が広がります。
詳細については、「データセットの結合」をご覧ください。
ユニオン: 同じ構造のデータセットを1つのデータセットにまとめます。これにより行数が増え、データセットが長くなります。
詳細は Union datasetsをご覧ください。
転置: 行と列を切り替えます。これは、データが分析に理想的でない形式で整理されている場合に有用です。
詳細は「Transpose datasets」をご覧ください。

Minitab AIを使用してデータをクリーンアップする

Minitab Data Center はクリーンアップビューでデータ準備を案内する会話型インターフェースを提供します。

上記の例では、 Minitab AI プロンプトに次のテキストを入力すると、個々のステップと同じ結果が得られます。

請求番号をテキストにします。番号を請求するために番号記号を追加します。100 より古いドライバーを削除します。m を男性に、f を女性に変更します。有効な収入のないドライバーを削除します。address_changeをテキストに変更します。住所変更の場合は 1 から yes、0 から no にします。詐欺、傷害請求、郵便番号で並べ替えます。

Data Centerでの Minitab AI 使用についての詳細は、「 Minitab AIを使ってデータをクリーンアップする」をご覧ください。