データの準備

データ準備ツールを使用して、データを整理し、より堅牢な分析のために準備します。

データ ソースを開く

Minitab Solution Center のホームページから、 Minitab Data Centerにアクセスできます。
  1. ソリューション センターのホーム ページで、[ データ準備] を選択します。
  2. データを追加 を選択します。オンライン リポジトリにサインインします。また、ローカル・データ・ファイルを追加することもできます。
  3. ファイルの場所を参照し、[ 開く] を選択します。
スケマティック ダイアグラムは、データ処理ステップを表します。
クリーンアップ 眺める
クリーンアップ ビューでデータのクリーニングを開始できます。
データソース 眺める
データ・セット・スキーマまたはデータ・セット全体に影響する設定を変更する必要がある場合は、データ・ソース・ファイル・アイコンを選択して オプション パネルを開きます。

詳細は、データ・セット・スキーマの編集またはデータソースオプションを設定するを参照してください。

データ準備の手順

この例では、コンプライアンス チームが自動車業界の不正検出の精度に関心を持っています。ただし、分析を開始する前にデータを準備する必要があります。次の手順に従って、insurance_fraud_data.csvをさらに分析する準備をし ます
  1. Minitab Data Center保険詐欺データ を開きます。
  2. クリーンアップ ビューが表示されていることを確認します。
  3. 列を選択し、 データ準備オプション ドロップダウンメニューを開き、列のクリーンアップオプションにアクセスします。
  4. claim_numberの場合は、データ型を数値からテキストに変更します。
  5. claim_numberの場合は、列の値の先頭に # を付加します。
  6. age_of_driverの場合は、100 年以下のドライバーのみを含めるようにフィルター処理します。
  7. 性別は、 M男性 に、 F女性に変更します。
  8. annual_incomeの場合は、1 を超えるドライバーのみを含めるようにフィルター処理します。
  9. address_changeの場合は、データ タイプを数値からテキストに変更します。
  10. address_change で、 1yes に、 0noに変更します。
  11. 郵便番号の場合は、データ型を数値からテキストに変更します。
  12. 高度な並べ替え を使用して、詐欺、傷害請求、郵便番号で並べ替えます。

Minitab AIを使用してデータをクリーンアップする

Minitab Data Center は、 クリーンアップ ビューでデータ準備をガイドする会話型インターフェイスを提供します。上記の例では、 Minitab AI プロンプトに次のテキストを入力すると、個々のステップと同じ結果が得られます。

請求番号をテキストにします。番号を請求するために番号記号を追加します。100 より古いドライバーを削除します。m を男性に、f を女性に変更します。有効な収入のないドライバーを削除します。address_changeをテキストに変更します。住所変更の場合は 1 から yes、0 から no にします。詐欺、傷害請求、郵便番号で並べ替えます。

Data Centerでの Minitab AI の使用について詳しくは、 Minitab AIを使用したデータのクリーニングを参照してください。

データ準備のエクスポート手順

すべての準備手順を適用したら、同じ列を持つ将来のデータ セットで使用するために手順を保存します。手順を保存するには、手順を .mdcs ファイルとしてエクスポートします。
  1. 左側の [ステップ] ウィンドウで、ドロップダウン メニューから [ エクスポート手順 ] を選択します。
  2. ファイルはダウンロードフォルダまたはその他の保存場所に保存され、データファイルと同じ名前が使用されます。それに応じて名前を変更します。

データのインポート準備手順

手順を新しいデータ ファイルに適用するには、手順を .mdcs ファイルとしてインポートします。ステップ ペインのドロップダウンメニューから インポート手順 を選択します。

データサマリーの探索

各列には、データの形状、データの範囲、およびデータ型を表すアイコンを示す概要があります。

列のグラフィカルな要約をざっと見ると、 チャネル には3つのレベルがあり、 開いている日 は二峰性の分布を示しています。

データ要約 を開くと、これらの列の要約統計量に関する詳細情報が表示されます。

チャネル のデータ サマリーには、3 つのレベルのそれぞれの周波数が表示されます。

右クリック・メニューを使用して、グループ化ラベルを編集したり、データ・セットからグループを除外したり、この値を含む行のみを表示したりします。

次の作業

オープン日数 のデータは 2 つの分布を示しているため、保険会社はこれをさらに詳しく調べたいと考えています。データの分析にアクセスします。