Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - サンプルデータパイプライン

learn.palantir.com ↗ でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

まず、ユーザーの Foundry 環境で、flight_alerts_clean データセットを構築するパイプラインを見てみましょう。この仮想的なケースでは、ユーザーの同僚がこのパイプラインを生成して、複数のデータソースを統合し、エンドユーザーにクリーンなデータセットを提供し、さらにはインタラクティブなユーザー向けアプリケーションを動かすための後でオントロジーを作成します。このパイプラインを構築するためには、データ駆動型のマインドセット を採用し、解決すべき問題をその順序的な構成要素に分解する必要がありました。

🔨 タスクの説明

  1. Data Lineage アプリケーションを開きます。

  2. 画面の右上部にある「Search Foundry」の虫眼鏡をクリックします。

  3. 下のリストから All projects フィルター処理するオプションを選択します。

  4. Foundry Training and Resources プロジェクトを検索し、結果が表示されたらクリックします。その後、プロジェクトフォルダーの構造を通じて次のデータセットに移動し、それをグラフに追加します:

    /Example Projects/[Datasource] Flight Alerts/datasets/clean/flight_alerts_clean

  5. ユーザーのグラフ上で、flight_alerts_clean ノードの左側にある < をクリックして、flight_alerts_clean データセットにフィードする親データセットを展開します。

    このデータセットが生成されるまでの一連のデータセットの入力と出力は、データセットのデータフローを表しています。データフローのグラフが パイプライン であるというのは、それがスケジューリングロジックに従って一体となって構築されるからです。パイプラインは多くのデータフローパスから構成されている可能性があり、データフローパスが必ずしもパイプライン全体を表すわけではありません。

    このトレーニングのデータは仮想的なものなので、flight_alerts_clean データセットをバックアップするパイプラインは非常に短いです。もしより大きなパイプラインがどのように見えるかを見てみたい場合は、ドキュメンテーション を参照してください。

  6. 右側のパネルにある「Manage schedules」ボタン(カレンダーアイコン)をクリックすると、グラフ上のノードが使用しているビルドスケジュールが表示されます。

  7. リストに Training: DE - Flight Alerts Pipeline が表示されたらクリックします。パイプラインスケジュールについては別のチュートリアルで詳しく説明します。今のところ、スケジュールを探索して、どのデータセットが Triggers と Targets であるかを理解します。データフローのグラフからスケジュールを管理する方法について詳しく知りたい場合は、ドキュメンテーションを参照してください。データフローのグラフからスケジュールを管理する

  8. flight_alerts_clean データセットのデータフローを完全に展開していない場合、⚠️ グラフに存在しない関連データセットを追加するように促されるかもしれません。グラフ上の各データセットにはそれぞれのデータフローがありますが、グラフ上のすべてのデータセットは、スケジュールで定義されたロジックを使用して一緒にビルドする単一のパイプラインに属しています。

  9. 画面の上部近くにある青い Exit schedule ボタンをクリックします。

  10. データフローのグラフのノードカラーオプションを使って、このパイプラインの状態について素早く質問することができます。以下のカラーオプションを切り替えてみてください:

    • ビルドステータス
    • ビルドの持続時間
    • Spark の使用状況(過去3ヶ月間)
    • 最終ビルド時刻
  11. 画面の上部中央近くにある Flow ボタンをクリックして、一方から他方へのデータの移動と変換をシミュレートします。

  12. このトラックで後ほど見るように、ユーザーのプロジェクトのルートで Data Lineage のパイプラインのスナップショットを保存することはベストプラクティスです。チュートリアルで使用するためのパーソナルなサンドボックスフォルダーをすでに作成している場合は、Data Lineage のグラフをそのフォルダーに保存します。まだ作成していない場合は、Palantir Foundry の紹介チュートリアルの Create a Sandbox Folder ページからの手順 を参照してそれを作成し、その後で Data Lineage のグラフを保存します。