注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

10 - データフローグラフを用いたパイプラインのドキュメンテーション化

📖 タスクの概要

ユーザーのチームがこの段階のパイプラインのデータフローを素早く理解できるように、データフローグラフを作成して、ユーザーのDatasourceプロジェクトの /documentation フォルダーに保存します。

🔨 タスクの説明

  1. Pipeline Builderの Pipeline outputs ウィンドウの上部にある View Lineage ボタンをCtrl+クリックします。

  2. Data Lineage画面の左上で、 Align アイコンをクリックして、スナップトグリッドの動作を有効にします。

  3. 右上の “gear” アイコンをクリックし、まだ行っていない場合は Enable curved edges を有効にします。

  4. 現在のグラフは flight_alerts_clean*_preprocessed データセットのみを表示しています。前処理されたノードを強調表示し、データフローを元の生の入力データセットまで拡張します。 データフローが表示されたら、必要に応じてノードを再配置します。

  5. Node color optionsFolder に変更し、パイプラインの段階をより明確に識別します。

    “raw” データセットが最も上流にあることを覚えておいてください。これらは外部のデータソースを シミュレート しているだけです。もしユーザーの生のデータセットの接続が、例えば、 sample-source と呼ばれる単一の外部Postgresデータベースから来ていたとしたら、ユーザーのグラフは次のようになるでしょう:

  6. この設定を可能な限りシミュレートしましょう。 shift をクリックし、グラフ上の最も左側の "Flight Alerts Raw Data" ノードをドラッグして選択ボックスを作成します。

  7. 選択した部分を右クリックし、 Group nodes... を選択します。

  8. グループ名を "Simulated External Data Source" とします。

  9. Data Lineageアプリケーションの右上部にある青い Save ボタンをクリックします。ファイルをユーザーのDatasourceプロジェクトの /documentation フォルダー(つまり、 .../Data Engineering Tutorials/Datasource Project: Flight Alerts/)に Flight Alerts Pipeline として保存します。