注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

検討事項: Pipeline Builder とコードリポジトリ

Foundry には、データパイプラインの作成と管理に利用できる 2 つの製品があります。Pipeline BuilderCode Repositories です。これらのツールは相補的であり、すべてのパイプラインニーズに対応するソリューションを提供するために連携して動作するように設計されています。以下のガイドは、どちらのツールがユーザーのユースケースに最適かを判断し、それらをどのように連携して使用するかを理解するためのものです。

Pipeline Builder

Pipeline Builder は、Foundry の主要なアプリケーションであり、データパイプラインを迅速かつ柔軟に提供し、スケーラビリティと堅牢性を保ちながらセキュリティを確保します。Pipeline Builder を使用すると、エンドユーザーやデータエンジニアが、グラフおよびフォームベースの環境でデータを統合し、ビジネスロジック変換を作成し、プロダクションパイプラインの厳格なリリースプロセスを定義するために協力することができます。ユーザーは、コードを使用することなく、リアルタイムのフィードバックを提供するパイプラインを作成することができます。また、Pipeline Builder は、完全に準拠したデータのみがプロダクションにデプロイされることを保証するヘルスチェックを使用しています。Pipeline Builder について詳しくはこちら。

Code Repositories

Code Repositories は、Foundry 内で本番環境に適したコードの作成や共同作業を行うための Web ベースの統合開発環境(IDE)を提供します。このアプリケーションは、基礎となる Git リポジトリとやり取りするためのユーザーフレンドリーな方法を提供します。Code Repositories について詳しくはこちら。

ベストプラクティス

パイプライン設計は Pipeline Builder で構築することをお勧めします。これにより以下のことが可能となります。

  • 点とクリックのインターフェースで異なるユーザーグループ間の共同作業を可能にします。
  • Pipeline Builder の安全かつ効率的なデータ変換とパイプライン管理のためのレールを利用して、パイプラインの健康状態を保護します。

Pipeline Builder では利用できない特殊なコードベースのロジックが必要な場合は、Code Repositories を使用して、そのようなステージを作成し、メインのパイプラインに追加します。このような特殊なケースの例は以下の通りです。

  • API コールの実行
  • カスタムライブラリの使用
  • コードベースの論理コンセプトの追加

Pipeline Builder と Code Repositories の両方が Foundry のデータセットを入力および出力として使用しているため、Code Repositories で構築されたパイプライン入力は、Pipeline Builder のパイプラインの前、後、中間に追加することができます。パイプラインを作成するアプリケーションに関係なく、データフローで全体のパイプラインのスケジュールとヘルスチェックを設定できます。データフローについて詳しくはこちら。

機能の概要

以下の表は、Pipeline Builder と Code Repositories で利用可能な機能とサポートを説明しています。上記で説明したように、両方のツールを一緒に使用することで、堅牢で型安全な再利用可能なパイプラインと、特殊なコードベースのロジックを作成できます。

Pipeline BuilderCode Repositories
推奨用途組織向けの本番パイプラインと、組織間の共同作業用の特殊なパイプラインを構築および維持する。パイプラインに追加する特殊なコードベースのデータ変換を作成する。
ビルドインターフェース
パイプラインインターフェースグラフおよびフォームベースWeb ベースの統合開発環境(IDE)
サポート言語ノーコードが必要Python、SQL、Java、Mesa
再利用性パイプライン全体またはパイプラインステージをコピーして貼り付ける。ユーティリティ関数やライブラリを再利用し、ファイル間でコードをコピーする。
型安全な関数強い型付け; エラーはビルド時ではなく、すぐにフラグが立てられる。コードベース; エラーはビルド時に表示される。
パラメーターパイプライン全体で使用できるユーザー定義の永続的なパラメーター。リポジトリで使用できるコード定義の定数。
サポートされているパイプライン
バッチパイプラインはいはい
ストリーミングパイプラインはいはい(上級ユーザー向け)
ファイルベースの変換はいはい
インクリメンタル計算はいはい
ファイルシステムと API アクセスいいえはい
パイプラインテスト
データプレビュー範囲全データセットに基づくプレビュー。データサンプルのプレビュー。
データプレビューのタイムラインリアルタイムでプレビューが更新される。リクエストによるプレビュー。
データプレビューチェックポイント変換ステップごとにプレビューする。デバッグモードで選択したチェックポイントの中間データフレームや変数をプレビューする。
デバッグ型安全; エラーはパイプラインの作成中に浮上し、デバッグにチェックやビルドが必要ありません。デバッガーおよび Read-Eval-Print Loop(REPL)対応。
ユニットテストいいえはい (上級ユーザー向け)
パイプライン管理
データ期待値はいはい
スケジュールはいはい
カスタムライブラリの公開いいえはい
バージョン管理ノーコード/ハイコードユーザーの共同作業に対するレール上の完全なバージョン管理ワークフロー。完全な Git ワークフロー。
ビルドメモリ管理ユーザーは承認された計算プロファイルを設定できる。コードベースの構成が利用可能。
セキュリティマーキングの管理開発中はい