注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

7 - データフローグラフを使ってパイプラインを文書化する

📖 タスクの概要

データソースプロジェクトの /documentation フォルダーにデータフローグラフを作成し保存することで、チームがこのパイプラインの段階でのデータフローを迅速に理解できるようにします。

🔨 タスクの説明

  1. Pipeline Builder の Pipeline outputs ウィンドウの上部にある View Lineage ボタンを Ctrl+クリックします。

  2. データフロー画面の左上で、Align アイコンをクリックして、スナップ・トゥ・グリッド動作を有効にします。

  3. 右上の "gear" アイコンをクリックして Enable curved edges を有効にします(まだ行っていない場合)。

  4. 現在のグラフは flight_alerts_clean*_preprocessed データセットのみを表示しています。前処理済みのノードをハイライトし、元の生の入力データセットまでデータフローを展開します。データフローが現れると、必要に応じてノードを再配置します。

  5. Node color optionsFolder に変更して、パイプラインの段階をより明確に識別します。

    最も上流の "raw" データセットは単に外部データソースを シミュレート していることを忘れないでください。もし生のデータセットの接続が、例えば、 sample-source という単一の外部 Postgres データベースから来ている場合、グラフは次のようになるでしょう:

  6. この設定を可能な限りシミュレートしましょう。shift をクリックし、グラフ上の最も左側の "Flight Alerts Raw Data" ノードを選択します。

  7. 選択範囲を右クリックし、Group nodes... を選択します。

  8. グループ名を "Simulated External Data Source" にします。

  9. データフローアプリケーションの右上エリアにある青い Save ボタンをクリックします。ファイルをユーザーのデータソースプロジェクトの /documentation フォルダーに Flight Alerts Pipeline として保存します(つまり、 .../Data Engineering Tutorials/Datasource Project: Flight Alerts/)。