注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
データソースプロジェクトの /documentation
フォルダーにデータフローグラフを作成し保存することで、チームがこのパイプラインの段階でのデータフローを迅速に理解できるようにします。
Pipeline Builder の Pipeline outputs ウィンドウの上部にある View Lineage ボタンを Ctrl+クリックします。
データフロー画面の左上で、Align アイコンをクリックして、スナップ・トゥ・グリッド動作を有効にします。
右上の "gear" アイコンをクリックして Enable curved edges を有効にします(まだ行っていない場合)。
現在のグラフは flight_alerts_clean
と *_preprocessed
データセットのみを表示しています。前処理済みのノードをハイライトし、元の生の入力データセットまでデータフローを展開します。データフローが現れると、必要に応じてノードを再配置します。
Node color options を Folder に変更して、パイプラインの段階をより明確に識別します。
最も上流の "raw" データセットは単に外部データソースを シミュレート していることを忘れないでください。もし生のデータセットの接続が、例えば、 sample-source
という単一の外部 Postgres データベースから来ている場合、グラフは次のようになるでしょう:
この設定を可能な限りシミュレートしましょう。shift をクリックし、グラフ上の最も左側の "Flight Alerts Raw Data" ノードを選択します。
選択範囲を右クリックし、Group nodes... を選択します。
グループ名を "Simulated External Data Source" にします。
データフローアプリケーションの右上エリアにある青い Save ボタンをクリックします。ファイルをユーザーのデータソースプロジェクトの /documentation
フォルダーに Flight Alerts Pipeline として保存します(つまり、 .../Data Engineering Tutorials/Datasource Project: Flight Alerts/
)。