データパイプラインの作成

Minitab Data Centerでは、1つ以上のソースからデータをクリーンアップ・変換し、すぐに使えるデータセットに変換するためのデータパイプラインを作成できます。

データパイプラインとは何ですか?

データパイプラインとは、データを収集し、変換し、分析や報告のために準備する一連のステップのことです。データパイプラインは以下のことを保証します。
  • データは一貫性があり信頼性が高いです
  • アップデートはオンデマンドで行われます
  • チームは同じ信頼できるデータセットを使用しています
  • データ使用前にエラーが特定されます

データパイプラインはインタラクティブな視覚図として現れ、ノードの追加、削除、修正を行いながらリアルタイムの処理状況やエラーメッセージを受け取ることができます。

例えば、CSVファイルとMinitabのワークシートからデータを取得し、データをクリーンアップして結合し、ダッシュボードで使う単一のデータセットを出力するパイプラインを作ることができます。

各パイプラインは最大60の処理ノードと1つの出力ノード(合計61ノード)をサポートします。最大10のデータソースノードを持つことができます。

パイプラインの図

すべての Data Center プロジェクトには、データ処理ステップを表すインタラクティブなパイプライン図が含まれています。
クリーンアップ 眺める
クリーンアップ ビューを使ってデータをクリーンアップし準備してください
データソース 眺める
データソース ビューを使ってデータセットスキーマやデータセット全体に影響を与える設定を修正してください。

詳細は、データセットスキーマの管理またはデータソースオプションを設定するを参照してください。

パイプライン表示を調整してください

パイプラインキャンバスの 拡大縮小表示に合わせる ボタンを使ってビューを調整できます。
また、ツールバーから 「Auto Layout 」を選択してパイプラインビューを最適化することもできます。

ノードをドラッグしたり位置変更したりして、最適な視覚的整理が可能です。

利用可能なノード

ほとんどのパイプラインには以下の種類のノードが含まれます:
  • データソース
  • クリーンアップ
  • マージ
  • 形を変えた
  • 出力

データソースノード

データソースノードはパイプラインをデータセットに接続します。各パイプラインは最大10のデータソースノードをサポートします。
データソースノードを追加するには、ツールバーから データを追加 を選択します。また、キャンバスのコンテキストメニューから データソースを追加 を選択することもできます。

データソースノードの詳細については、 ソースノードの基本をご覧ください。

クリーンアップノード

フォーマットの問題を修正し、エラーを削除し、その他のデータ準備作業を行います。
データセンターは柔軟な階層構造で複数のクリーンアップノードをサポートし、すべてのデータクリーニングプロセスをサポートします。
最初の クリーンアップ ノードは直列に追加され、その後のノードは以下の通り並列に並列されます。ノードの名前をいつでも変更したり、どの位置でも移動できます。

ペアレントなしのクリーンアップノードを追加するには、キャンバスのコンテキストメニューから クリーンアップを追加 を選択します。

データクリーンアップノードの詳細については、 クリーンアップステップの基本をご覧ください。

データマージノード

結合 ノードまたは ユニオン ノードを使って複数のデータセットを組み合わせましょう。
既存のノードやコネクタラインからジョインやユニオンノードを追加できます。

ペアレントなしのデータマージノードを追加するには、キャンバスのコンテキストメニューから 結合を追加 または 連合の追加 を選択します。

データマージノードの詳細については、 データセットの統合をご覧ください。

ノードの再形成

転置 操作を使ってデータセットを再構成します。
既存のノードやコネクタラインから移調ノードを追加できます。

ペアレントなしのリシェイピングノードを追加するには、キャンバスのコンテキストメニューから 転置を加える を選択します。

ノードの再形成に関する詳細は 転置データセットをご覧ください。

出力ノード

データパイプラインのターミナルノードを示します。分析ツールやダッシュボードなどの最終目的地にデータを届けます。

出力ノードを設定するには、右クリックメニューを開き、親ノードから 出力を設定 を選択します。ここから、クリーンになったデータのコピーをMinitabプロジェクトやMinitabダッシュボードに送信できます。

また、ツールバーから 開く場所: を選択して、クリーニングしたデータのコピーをMinitabプロジェクトやMinitabダッシュボードに送信することもできます。

データやデータセンター全体のパイプラインのエクスポートについての詳細は データとプロジェクトへの輸出をご覧ください。

パイプラインを更新する

リフレッシュ を使ってデータパイプライン内のデータ変換を再処理します。独立して更新できるのはデータソースノードのみです。

パイプライン全体を更新するには、ツールバーから リフレッシュ を選択します。

個々のデータソースを更新するには、ソースノードのコンテキストメニューから リフレッシュ を選択します。データソースにアクセスできない場合は、再接続またはファイルの閲覧を促されます。