データの準備例

データ準備ツールを使用して、データを整理し、より堅牢な分析のために準備します。

データ準備の手順

この例では、コンプライアンス チームが自動車業界の不正検出の精度に関心を持っています。ただし、分析を開始する前にデータを準備する必要があります。次の手順に従って、insurance_fraud_data.csvをさらに分析する準備をし ます 。これらの変更を行うには、列を選択し、 データ準備オプション を開いて列のクリーンアップ オプションにアクセスします。
  1. Minitabデータセンターで 保険詐欺データ を開きます。
  2. claim_numberの場合は、データ型を数値からテキストに変更します。
  3. claim_numberの場合は、列の値の先頭に # を付加します。
  4. age_of_driverの場合は、100 年以下のドライバーのみを含めるようにフィルター処理します。
  5. 性別は、 M男性 に、 F女性に変更します。
  6. annual_incomeの場合は、1 を超えるドライバーのみを含めるようにフィルター処理します。
  7. address_changeの場合は、データ タイプを数値からテキストに変更します。
  8. address_change で、 1yes に、 0noに変更します。
  9. 郵便番号の場合は、データ型を数値からテキストに変更します。
  10. 高度な並べ替え を使用して、詐欺、傷害請求、郵便番号で並べ替えます。

データ準備のエクスポート手順

すべての準備手順を適用したら、同じ列を持つ将来のデータ セットで使用するために手順を保存します。手順を保存するには、手順を .mdcs ファイルとしてエクスポートします。
  1. [ステップ] ウィンドウで、ドロップダウン メニューから [ エクスポート手順 ] を選択します。
  2. ファイルはダウンロードフォルダまたはその他の保存場所に保存され、データファイルと同じ名前が使用されます。それに応じて名前を変更します。

データのインポート準備手順

手順を新しいデータ ファイルに適用するには、手順を .mdcs ファイルとしてインポートします。 ステップ ペインのドロップダウンメニューから インポートステップ を選択します。

データサマリーの探索

各列には、データの形状、データの範囲、およびデータ型を表すアイコンを示す概要があります。

列のグラフィカルな要約をざっと見ると、 チャネル には3つのレベルがあり、 開いている日 は二峰性の分布を示しています。

データ要約 を開くと、これらの列の要約統計量に関する詳細情報が表示されます。

チャネル のデータ サマリーには、3 つのレベルのそれぞれの周波数が表示されます。

次の作業

オープン日数 のデータは 2 つの分布を示しているため、保険会社はこれをさらに詳しく調べたいと考えています。データ分析の例にアクセスします。