注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
ユーザーのチームがこの段階のパイプラインのデータフローを素早く理解できるように、データフローグラフを作成して、ユーザーのDatasourceプロジェクトの /documentation
フォルダーに保存します。
Pipeline Builderの Pipeline outputs ウィンドウの上部にある View Lineage ボタンをCtrl+クリックします。
Data Lineage画面の左上で、 Align アイコンをクリックして、スナップトグリッドの動作を有効にします。
右上の “gear” アイコンをクリックし、まだ行っていない場合は Enable curved edges を有効にします。
現在のグラフは flight_alerts_clean
と *_preprocessed
データセットのみを表示しています。前処理されたノードを強調表示し、データフローを元の生の入力データセットまで拡張します。
データフローが表示されたら、必要に応じてノードを再配置します。
Node color options を Folder に変更し、パイプラインの段階をより明確に識別します。
“raw” データセットが最も上流にあることを覚えておいてください。これらは外部のデータソースを シミュレート しているだけです。もしユーザーの生のデータセットの接続が、例えば、 sample-source
と呼ばれる単一の外部Postgresデータベースから来ていたとしたら、ユーザーのグラフは次のようになるでしょう:
この設定を可能な限りシミュレートしましょう。 shift をクリックし、グラフ上の最も左側の "Flight Alerts Raw Data" ノードをドラッグして選択ボックスを作成します。
選択した部分を右クリックし、 Group nodes... を選択します。
グループ名を "Simulated External Data Source" とします。
Data Lineageアプリケーションの右上部にある青い Save ボタンをクリックします。ファイルをユーザーのDatasourceプロジェクトの /documentation
フォルダー(つまり、 .../Data Engineering Tutorials/Datasource Project: Flight Alerts/
)に Flight Alerts Pipeline として保存します。