注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

Pipeline Builder でバッチパイプラインを作成する

このチュートリアルでは、Pipeline Builder を使用して、フライトアラート情報の単一のデータセットを出力するシンプルなパイプラインを作成します。その後、この出力データセットを Contour や Code Workbook などのツールで分析して、最も混乱のリスクが高いフライト経路を特定することができます。

以下で使用されるデータセットは、データセットのインポート手順で名前で検索でき、ユーザーの Foundry ファイルシステム内の Foundry Reference Project にあります。 Foundry Training and Resources/Foundry Reference Project/Tutorial Reference Examples/Track: Data Engineering/Datasource Project: Flight Alerts/datasets

このチュートリアルを終えると、以下のようなパイプラインができます。

完全な Pipeline builder のスクリーンショット

パイプラインは、Flight Alerts Dataという新しいデータセット出力を生成し、さらなる探索に使用できます。

パート 1: 初期設定

まず、新しいパイプラインを作成する必要があります。

  1. Foundry にログインしたら、左側のナビゲーションバーの Apps の下にある Pipeline Builder にアクセスします。もし見つからなければ、View all をクリックして Build & Monitor Pipelines セクションの Pipeline Builder を探します。

    ナビゲーションバーの Pipeline builder リンクのスクリーンショット

  2. 次に、Pipeline Builder のランディングページの右上で、New pipeline をクリックして新しいパイプラインを作成します。Batch pipeline を選択します。

    パイプライン選択のスクリーンショット

ストリーミングパイプラインの作成機能は、すべての Foundry 環境で利用できるわけではありません。ユースケースにそれが必要な場合は、Palantir の担当者にお問い合わせください。

  1. パイプラインを保存する場所を選択します。パイプラインは個人用フォルダーには保存できません。 パイプラインの場所を選択するポップオーバーのスクリーンショット
  2. Create pipeline をクリックします。

パート 2: データセットの追加

これで、パイプラインワークフローにデータセットを追加することができます。このチュートリアルでは、概念的またはオープンソースのデータのサンプルデータセットを使用し、すべてのデータセットはユーザーの Foundry ファイルシステム内の Foundry Reference Project の一部として利用できるはずです。

Pipeline Builder ページから、Foundry から Add datasets をクリックします。

パイプラインの場所を選択するポップオーバーのスクリーンショット

または、コンピュータからファイルをドラッグアンドドロップしてデータセットとして使用することもできます。

このウォークスルーの例では、passengers_preprocessedflight_alerts_raw、および status_mapping_raw データセットを追加します。データセットの選択範囲を追加するには、データセットを選択してインラインの + アイコンをクリックするか、Add to Selection をクリックします。

データセットの場所からデータセットを追加するポップオーバーのスクリーンショット

必要なすべてのデータセットが選択されたら、Add datasets をクリックします。

パイプラインの場所を選択するポップオーバーのスクリーンショット

パート 3: データのクリーニング

生データセットを追加した後、パイプラインの定義を続けるために基本的なクリーニング変換をいくつか実行できます。生データセットのうち 3 つを変換します。

データセット 1

まず、passengers_preprocessed データセットをクリーニングしましょう。dob 列名を dob_date に変更し、値を MM/dd/yy 形式に変換するキャスト変換の設定を開始します。

キャスト変換

  1. グラフ内の passengers_preprocessed ノードをクリックします。

  2. Transform をクリックします。

    Passengers_preprocessed データセットのスクリーンショット

  3. ドロップダウンから cast 変換を検索して選択し、キャスト設定ボードを開きます。

    Passengers_preprocessed データセットの変換ビューのスクリーンショット

  4. Expression フィールドから dob を選択し、Type では Date を選択します。

  5. Format タイプに MM/dd/yy を入力します。キャスト変換が成功することを確認するために、大文字の MM を使用してください。出力列名を dob_date に変更します。

    キャストボードは以下のようになります:

    キャストボードのスクリーンショット

  6. 変換をパイプラインに追加するには、Apply をクリックします。

タイトルケース変換

次に、flyer_status 列の値を大文字で始めるようにフォーマットします。

  1. 変換検索フィールドで、Title case 変換を検索して選択し、タイトルケース設定ボードを開きます。

  2. Expression フィールドで、ドロップダウンから flyer_status 列を選択します。

    タイトルケースボードは以下のようになります:

    タイトルケースボードのスクリーンショット

  3. 変換をパイプラインに追加するには、Apply をクリックします。

  4. 変換設定ウィンドウの左上隅で、変換の名前を Passengers_Clean に変更します。

    変換のスクリーンショット

  5. パイプライングラフに戻るには、右上の Back to graph をクリックします。

    変換のスクリーンショット

データセット 2

次に、flight_alerts_raw データセットをクリーニングしましょう。まず、flight_date 列の値を MM/dd/yy 形式に変換するための別のキャスト変換を設定します。

キャスト変換

  1. グラフ内の flight_alerts_raw データセットノードをクリックします。

  2. Transform をクリックします。

    変換のスクリーンショット

  3. ドロップダウンから cast 変換を検索して選択し、キャスト設定ボードを開きます。選択ボックスの右側にリストされている関数定義を読むことで、関数について詳しく知ることができます。 関数定義のスクリーンショット

  4. Expression フィールドで、ドロップダウンから flight_date 列を選択します。

  5. Type フィールドのドロップダウンから Date を選択します。

  6. Format タイプに MM/dd/yy を入力します。キャスト変換が成功することを確認するために、大文字の MM を使用してください。

    キャストボードは以下のようになります:

    2 つ目のキャストボードのスクリーンショット

  7. 変換をパイプラインに追加するには、Apply をクリックします。

Clean string 変換

次に、category 列の値から空白を削除する Clean string 変換を追加します。例えば、変換では delay··· 文字列の値を delay に変換します。

  1. ドロップダウンから clean string 変換を検索して選択し、clean string 設定ボードを開きます。

  2. Expression フィールドで、ドロップダウンから category 列を選択します。

  3. Clean actions オプションのすべての 3 つのチェックボックスを選択します:

    • 空の文字列を null に変換
    • 複数の空白文字のシーケンスを単一の空白に削減
    • 文字列の先頭と末尾の空白を削除

    clean string ボードは以下のようになります:

    clean string ボードのスクリーンショット

  4. 変換をパイプラインに追加するには、Apply をクリックします。

  5. 変換設定ウィンドウの左上隅で、変換の名前を Flight Alerts - Clean に変更します。

  6. パイプライングラフに戻るには、右上の Back to graph をクリックします。

    Flight Alerts - Clean ノードを含むグラフのスクリーンショット

データセット 3

最後に、status_mapping_raw データセットをクリーニングしましょう。

Clean string 変換

このデータセットには Clean string 変換のみを適用します。

  1. グラフ内の status_mapping_raw データセットノードをクリックします。

  2. Transform をクリックします。

    3 番目のデータセット変換のスクリーンショット

  3. Search transforms and columns... フィールドで、ドロップダウンから mapped_value 列を選択します。

    mapped value 列の選択のスクリーンショット

  4. 同じフィールドで、ドロップダウンから clean string 変換を検索して選択します。

  5. Clean actions オプションのすべての 3 つのチェックボックスを選択します:

  • 空の文字列を null に変換

  • 複数の空白文字のシーケンスを単一の空白に削減

  • 文字列の先頭と末尾の空白を削除

    clean string ボードは以下のようになります:

    2 つ目の clean string ボードのスクリーンショット

  1. 変換をパイプラインに追加するには、Apply をクリックします。

  2. 変換設定ウィンドウの左上隅で、変換の名前を Status Mapping - Clean に変更します。

  3. パイプライングラフに戻るには、右上の Back to graph をクリックします。

    これで、追加した変換と適用したデータセットとの間の接続が表示されます。

    2 つ目の clean string ボードのスクリーンショット

パート 4: データセットを結合する

これで、joins を使ってクリーニングしたデータセットを組み合わせることができます。結合では、少なくとも 1 つの一致する列を持つデータセットを組み合わせることができます。パイプラインワークフローに 2 つの結合を追加します。

結合 1

最初の結合では、クリーニング済みのデータセットを 2 つ組み合わせます。

  1. Flight Alerts - Clean 変換ノードをクリックします。これが結合の左側になります。

  2. Join を選択します。

    結合設定オプションのスクリーンショット

  3. Status Mapping - Clean ノードをクリックして、結合の右側に追加します。

  4. Start をクリックして、結合設定ボードを開きます。

    結合設定オプションのスクリーンショット

  5. Join typeLeft join に設定されていることを確認します。

  6. Match condition 列を statusvalue が等しいように設定します。

  7. 追加の設定オプションを表示するには、Show advanced をクリックします。

  8. 右側の Status Mapping - Clean データセットの Prefixstatus に設定します。

    結合設定ボードは以下のようになります:

    入力テーブルのスクリーンショット

  9. 結合をパイプラインに追加するには、Apply をクリックします。

  10. 結合出力テーブルのプレビューを設定ウィンドウの下部にある Preview ペインで表示します。

    パイプラインプレビューペインのスクリーンショット

  11. 結合設定ウィンドウの左上隅で、結合の名前を Join Status に変更します。

  12. パイプライングラフに戻るには、右上の Back to graph をクリックします。

    パイプラインプレビューペインのスクリーンショット

  13. グラフを読みやすくするために、Layout アイコンをクリックしてデータセットを自動的に整列させるか、手動で 2 つの接続されたデータセットを隣同士に配置します。

    再編成されたグラフのスクリーンショット

結合 2

2 番目の結合では、最初の結合出力テーブルを別の生データセットと組み合わせます。

  1. Add datasets をクリックして、グラフに priority_mapping_raw データセットを追加します。

  2. 先ほどグラフに追加した Join Status ノードをクリックします。これが結合の左側になります。

  3. Join を選択します。

  4. priority_mapping_raw データセットノードをクリックして、結合の右側に追加します。

  5. Start をクリックして、設定ボードを開きます。

    パイプラインプレビューペインのスクリーンショット

  6. Join typeLeft join に設定されていることを確認します。

  7. Match condition 列を priorityvalue が等しいように設定します。

  8. 追加の設定オプションを表示するには、Show advanced をクリックします。

  9. 右側の priority_mapping_raw データセットの Prefixpriority に設定します。

    結合設定ボードは以下のようになります:

    パイプラインプレビューペインのスクリーンショット

  10. 結合をパイプラインに追加するには、Apply をクリックします。

  11. 結合出力テーブルのプレビューを設定ウィンドウの下部にある Preview ペインで表示します。

    パイプラインプレビューペインのスクリーンショット

  12. 結合設定ウィンドウの左上隅で、結合の名前を Join (2) に変更します。

  13. パイプライングラフに戻るには、右上の Back to graph をクリックします。

これで、追加した結合と適用したデータセットとの間の接続が表示されます。

パイプラインプレビューペインのスクリーンショット

パート 5: 出力を追加する

データの変換と構造化が完了したので、出力を追加しましょう。このチュートリアルでは、データセット出力を追加します。

  1. Pipeline Builder グラフの右側にある Pipeline outputs サイドバーで、出力の名前を Flight Alerts data に設定します。次に、Add dataset output をクリックします。

  2. Join (2) から出力にリンクするために、結合ノードの右側にある白い円をクリックし、Flight Alerts data データセットに接続します。

  3. 既存のスキーマを使用するには、Use input schema をクリックします。

  4. ここから、保持するデータの列を選択します。今回の場合、すべてのデータを一緒に保持します。

    スキーマ入力済みのデータセット出力ペインのスクリーンショット

パート 6: パイプラインの構築

パイプラインを構築するには、Save をクリックし、次に Deploy > Deploy pipeline をクリックしてください。

スキーマ入力済みのデータセット出力ペインのスクリーンショット

デプロイが成功したことを示す小さなアラートが表示されるはずです。アラートボックス内の View をクリックして、Build progress ページを開きます。

ビルドプログレスページのスクリーンショット

このページから、データセット出力が準備できるまでビルドの進行状況を監視できます。

成功ステータスページのビルド進行状況のスクリーンショット

データセットにアクセスするには、Actions > Open をクリックします。

データセット出力のスクリーンショット

この最後のステップで、パイプライン出力が生成されました。この出力は、Foundry 内の他のアプリ ContourCode Workbook などでさらに探索するためのデータセットです。