5C. [Repositories] データ変換による複数の出力10 - ユーザーのパイプラインの状況を把握する

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

10 - ユーザーのパイプラインの状況を把握する

📖 タスクの概要

ユーザーは、2つのデータソースプロジェクトと1つの変換プロジェクトのために構築した、3つの異なるスケジュールを持つマルチステージパイプラインを持っています。それらすべてをデータフローグラフに連れて行き、そのロジックを視覚化しましょう。

🔨 タスクの説明

  1. Alert Metrics Pipeline データフローグラフを開きます。

  2. 左側の「clean」ノードすべてを選択し、右クリックして Expand nodes... を選択し、すべての先祖データセットを展開します。その後、Expand parents ウィンドウで << をクリックします。

  3. ノードを必要に応じて配置します。

  4. 画面の右側にある Manage schedules ボタンをクリックします。

  5. 各スケジュールにマウスを合わせると、3つのスケジュール間の入力/出力関係がすばやく視覚化されます。

  6. Node color optionsSchedule count に変更します。グラフ上のノードごとにスケジュールは1つだけであるはずです。もし、複数のスケジュールに属するノードがあれば、この着色オプションでそれが明らかになります(その後、それは修正されるべきです)。

  7. Node color optionsout-of-date に変更します。ユーザーのパイプラインを構築してきた方法により、最も上流のデータセットが更新されると実際には修正されるであろう、データセットの新旧が不均一であることに気づくでしょう。

  8. 他のノード着色オプションもいくつか試してみてください。それには以下が含まれます:

    • リポジトリ
    • フォルダー
    • 最終構築時間