ドキュメントの検索
karat

+

K

APIリファレンス ↗
1. データパイプラインの基礎3 - サンプルデータパイプライン
Feedback

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - サンプルデータパイプライン

📖 タスクの概要

まず、ユーザーの Foundry 環境にある、flight_alerts_clean データセットを構築するパイプラインを見てみましょう。この仮定上のケースでは、ユーザーの同僚がこのパイプラインを生成し、複数のデータソースを統合して、エンドユーザーや、後でインタラクティブなユーザー向けアプリケーションを提供するためのオントロジー オブジェクトを作成するためのクリーンなデータセットを提供しています。このパイプラインを構築するためには、データ駆動のマインドセットを採用し、問題を解決するための順序的で構成要素に分解する必要がありました。

🔨 タスクの説明

  1. Data Lineage アプリケーションを開きます。

  2. 画面右上の「Search Foundry」の虫眼鏡をクリックします。

  3. 下のリストで、All projects フィルター処理するオプションを選択します。

  4. Foundry Training and Resources プロジェクトを検索し、結果が返ってきたらクリックします。次に、プロジェクトフォルダー構造を次のデータセットにたどり着くまでナビゲートし、グラフに追加します。

    /Example Projects/[Datasource] Flight Alerts/datasets/clean/flight_alerts_clean

  5. グラフ上で、flight_alerts_clean ノードの左側の < をクリックして、flight_alerts_clean データセットにフィードする親データセットを展開します。

    このデータセットを生成するために入力と出力の一連のデータセットは、データセットのデータフローを表します。データフロー グラフをパイプラインにするのは、スケジュールロジックに従って一貫してユニットを構築することです。パイプラインは、多くのデータフロー パスで構成されることがあり、データフロー パスはパイプライン全体を表さないことがあります。

    このトレーニングのデータは仮想的なものであるため、flight_alerts_clean データセットを支えるパイプラインは非常に短いです。より大きなパイプラインがどのように見えるかを確認したい場合は、ドキュメントにアクセスしてください。

  6. 右側のパネルで「Manage schedules」ボタン(カレンダーアイコン)をクリックします。これにより、グラフ上のノードで使用されるビルドスケジュールが表示されます。

  7. Training: DE - Flight Alerts Pipeline がリストに表示されるのでクリックします。後のチュートリアルでパイプラインスケジュールを詳しく説明しますが、今のところスケジュールを調べて、どのデータセットがトリガーで、どのデータセットがターゲットかを理解します。データフロー グラフからスケジュールを管理する方法について詳しく知りたい場合は、ドキュメントを参照してください。 managing schedules from the Data Lineage graph

  8. flight_alerts_clean データセットのデータフローを完全に展開していない場合、⚠️ グラフにない関連データセットを追加するように求められることがあります。グラフ上の各データセットには独自のデータフローがありますが、グラフ上のすべてのデータセットは、スケジュールで定義されたロジックを使用して一緒に構築される単一のパイプラインに属します。

  9. 画面上部近くにある青い Exit schedule ボタンをクリックします。

  10. Data lineage グラフノードのカラーオプションにより、このパイプラインの状態に関する質問をすばやく行うことができます。以下のカラーオプションを切り替えてみてください。

    • ビルドステータス
    • ビルドの所要時間
    • 過去3か月間の Spark の使用状況
    • 最後にビルドされた時間
  11. 画面上部中央付近にある Flow ボタンをクリックして、データが一方から他方へ移動し変換される様子をシミュレートします。

  12. このトラックで後ほど説明するように、プロジェクトのルートに Data Lineage のパイプラインのスナップショットを保存することがベストプラクティスです。チュートリアル中に使用するための個人用サンドボックスフォルダーをすでに作成している場合は、Data Lineage グラフをそのフォルダーに保存します。まだ作成していない場合は、Introduction to Palantir Foundry チュートリアルの Create a Sandbox Folder ページから手順を参照して作成し、Data Lineage グラフを保存します。