データ統合Pipeline Builderパイプラインの出力パイプラインのデリバリー

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

パイプラインのデリバリー

Pipeline Builder でパイプラインの記述が完了し、スキーマエラーが解決されると、パイプラインのデリバリーが可能になります。

デプロイとビルド

デプロイは、パイプラインの出力ロジックを更新し、ビルドはそのロジックを実行してロジック変更を反映させます。

ビルドは時間とリソースがかかることがあり、特にデータのスケールが大きい場合やパイプラインの入力をすべて再処理する場合です。このような理由から、パイプラインをビルドせずにデプロイすることを選択することがあります。デプロイのみを選択することで、ビルドが必要になるまでビルドのコストを先送りすることができます。

変更のデリバリー

最初のエンドツーエンドのパイプラインをデリバリーし、すべての定義済みロジックを含めたい場合は、上部ツールバーの右側にある Deploy を選択してください。

Deploy ボタンのスクリーンショット

Build 設定のドロップダウンのスクリーンショット

ロジック変更がデプロイされた後にどの出力をビルドするかを選択できます。ビルドは ジョブグループ ごとに行われるため、任意のジョブグループ内のすべての出力をビルドするか、グループ化されていない個々の出力をビルドすることができます。オントロジータイプの出力は常にビルドする必要があり、オントロジータイプの出力があるジョブグループはビルドする必要があります。

デプロイが正常に開始されると、グラフの上部に青いバナーが表示されます。View を選択して、Build details ビューにアクセスします。

Deploy のスクリーンショット

Build details ビューでは、ビルド情報、進捗指標、およびビルドスケジュールの詳細が確認できます。

Build details のスクリーンショット

  • Build info: パイプラインの状態、合計所要時間、および推定所要時間を表示します。また、開始・終了時刻、ユーザーの開始、ジョブリスト内の進捗、ビルドIDなど、さまざまなメタデータを表示することができます。

  • Build progress: パイプラインのビルドの詳細を、ガントチャートとして表示します。

  • Build schedule: パイプラインのビルドスケジュールの名前、頻度、ステータス履歴、最終更新日を表示します。

  • Progress details: ビルドが開始されているか、プロジェクトのリソースキューで待機しているか、Spark アプリケーションを初期化しているか、実行中か、終了しているかを確認するために切り替えます。

ビルド設定

パイプラインの Build settings を編集することを選択することができます。Deploy の隣にある設定アイコンをクリックします。以下のコンピューティング設定から選択できます。

  • Default: デフォルトのオートスケーリングプロファイルです。最小限のエグゼキュータコアとメモリを使用します。
  • Medium: スケールアップが遅く、スケールダウンが速いコンピューティングを提供します。
  • Large: スケールアップが遅く、スケールダウンが速いコンピューティングを提供します。
    • 注: 大きなプロファイルのビルドは、より高いコンピューティングコストがかかることがありますが、完了までの時間が短縮されることがあります。

Build settings のドロップダウンのスクリーンショット

保存

Pipeline Builder では、デプロイを開始せずにパイプラインへの変更を保存することを選択できます。この柔軟性により、本番環境へのロジック変更をコミットせずにワークフローを編集できます。

ワークフローに変更を加えた後、上部ツールバーの Save を選択します。

save ボタンのスクリーンショット

Propose を最初にクリックすると、現在の状態が自動的に保存されます。

デプロイせずに変更を保存するだけでは、パイプラインのロジックは最新の変更に 更新されません。変換ロジックの変更を反映させるには、パイプラインをデプロイする必要があります。

出力ノードからのビルド

パイプライングラフの外部であっても、パイプラインのビルドを開始することを選択できます。例えば、出力ノードを右クリックして Open を選択し、データセットのプレビューを開くことができます。その後、インターフェースの右上隅にある Build をクリックしてビルドを開始できます。

Build details のスクリーンショット

パイプライングラフの外部でのビルドオプションは、最後のデプロイ以降に行われた変更をパイプラインロジックに更新しません。ロジックを更新して出力にプッシュするには、パイプライングラフに戻って Deploy を使用してください。

ストリーミングパイプラインの追加オプション

ストリーミングパイプラインを実行している場合は、追加のオプションが利用可能になります。ストリーミングパイプラインは、一部のアカウントでのみ利用可能です。詳細については、Palantir の担当者にお問い合わせください。

Deploy ウィンドウで、パイプラインデリバリーのデータ処理の開始時間を選択します。

  • Start of input data: 入力ストリームの開始からすべてのデータが処理されます。
  • From a specified time: 処理を開始する時間値を選択します。この時間より前のデータは処理されません。例えば、過去2か月分のデータのみを含めるには、2 months ago を選択します。

ストリーミングパイプラインを実行している場合は、必要に応じて Replay on deploy を使用して、パイプラインを巻き戻し、最初のデプロイで選択した開始時間と同様の時間からビルドを再実行することができます。

Danger

パイプラインのリプレイは、長時間のダウンタイムを引き起こすことがあり、複数日にわたる可能性があります。パイプラインをリプレイすると、ストリーム履歴が失われ、すべての下流パイプラインの消費者がリプレイを要求されます。

replay on deploy ボタンのスクリーンショット