データ統合Pipeline Builder概要

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

概要

Pipeline Builder は Foundry の主要なデータ統合アプリケーションです。Pipeline Builder を使用して、生のデータソースをさらなる分析に適したクリーンな出力に変換するデータ統合パイプラインを構築できます。

Pipeline Builder と堅牢なバックエンドモデルがあれば、コードを書くユーザーと書かないユーザーがパイプラインワークフローで共同作業できます。Pipeline Builder は、長時間かかるヘルスチェックが必要なコードを書く代わりに、ユーザーが簡素化されたビルダーインターフェースを通じてデータ変換を適用できるようにします。

Pipeline Builder は、ロジック作成と実行の間に仲介役を果たすように設計された次世代のデータ変換バックエンドを使用しています。ユーザーが構築したいパイプラインを記述すると、バックエンドが変換コードを書き、パイプラインの整合性に関するチェックを行い、リファクタリングエラーを特定し、健全な構築を確保するための解決策を提供します。バックエンドがロジック作成と実行の中間層として機能することで、ビルダーはパイプラインが構築される前にスキーマの問題を解決し、計算やコードチェックにかかっていた時間を節約できます。

Pipeline のスクリーンショット

機能

Pipeline Builder には、包括的なパイプラインの作成、維持、制御に焦点を当てた機能が含まれています。

  • 直感的なユーザーインターフェース: ユーザーは、フィードバックを提供するグラフとフォームベースのインターフェースを使用してパイプラインを記述します。これには、結合キーと行のキャスト提案が含まれます。
  • 型安全な関数: 関数は強く型付けされており、ビルド時ではなくすぐにエラーを検出できます。
  • 厳格な出力チェック: 期待される出力チェックが満たされない場合、意図しない下流の破損を防ぐためにビルドが防止されます。
  • 自動ビルドパスの剪定: Pipeline Builder は、出力に接続されていない変換パスを剪定して、ビルドでの不要な計算を回避します。
  • 実装の詳細を抽象化: ユーザーは、エンドツーエンドのパイプラインと望ましい出力を記述することに集中します。ビルド、同期、およびその他のオーケストレーションは、Pipeline Builder のバックエンドによって自動的に処理されます。
  • 独立したパイプラインロジック: Pipeline Builder は、Spark、Flink、Azure インスタンスなどの異なるロジック実行エンジンに接続できます。
  • 再利用性: パイプラインロジックは、異なるパイプラインに簡単に抽出して再利用できます。
  • 完全なバージョン管理: ユーザーは、パイプラインを別々に作成したり、1 つのパイプラインで協力したり、以前のバージョンに戻したりできます。
  • ストリーミング機能: Pipeline Builder は、リアルタイムの遅延で実行されるパイプラインを記述する機能を提供します。この機能は、すべての Foundry 環境で利用できるわけではありません。ストリーミングパイプラインの利用が必要なワークフローの場合は、Palantir の担当者にお問い合わせください。

ワークフロー

Pipeline Builder は、データのインポートから健全なビルドの提供までの次の手順を含むワークフローに従います。

  • 入力: 新しいデータソースを追加するか、追加のデータセットを追加します。
  • 変換: 望ましい出力に向けてデータを変換、結合、または結合します。
  • プレビュー: 変換を適用した後、出力をプレビューします。
  • 配信: パイプラインが完了したら、パイプライン出力を構築します。
  • 出力: パイプラインのオブジェクトタイプ、リンクタイプ、データセット出力を追加します。

パイプラインのスクリーンショット

Pipeline Builder のグラフで可視化すると、このように手順が示されるかもしれません。

ステップを示す別々の行があるパイプラインのスクリーンショット

シンプルなバッチパイプラインの作成方法を学ぶか、Pipeline Builder でパイプラインの構築と管理に関する基本的な概念についてさらに詳しく知ることができます。