注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Foundry には、データパイプラインの作成と管理に利用できる 2 つの製品があります。Pipeline Builder と Code Repositories です。これらのツールは相補的であり、すべてのパイプラインニーズに対応するソリューションを提供するために連携して動作するように設計されています。以下のガイドは、どちらのツールがユーザーのユースケースに最適かを判断し、それらをどのように連携して使用するかを理解するためのものです。
Pipeline Builder は、Foundry の主要なアプリケーションであり、データパイプラインを迅速かつ柔軟に提供し、スケーラビリティと堅牢性を保ちながらセキュリティを確保します。Pipeline Builder を使用すると、エンドユーザーやデータエンジニアが、グラフおよびフォームベースの環境でデータを統合し、ビジネスロジック変換を作成し、プロダクションパイプラインの厳格なリリースプロセスを定義するために協力することができます。ユーザーは、コードを使用することなく、リアルタイムのフィードバックを提供するパイプラインを作成することができます。また、Pipeline Builder は、完全に準拠したデータのみがプロダクションにデプロイされることを保証するヘルスチェックを使用しています。Pipeline Builder について詳しくはこちら。
Code Repositories は、Foundry 内で本番環境に適したコードの作成や共同作業を行うための Web ベースの統合開発環境(IDE)を提供します。このアプリケーションは、基礎となる Git リポジトリとやり取りするためのユーザーフレンドリーな方法を提供します。Code Repositories について詳しくはこちら。
パイプライン設計は Pipeline Builder で構築することをお勧めします。これにより以下のことが可能となります。
Pipeline Builder では利用できない特殊なコードベースのロジックが必要な場合は、Code Repositories を使用して、そのようなステージを作成し、メインのパイプラインに追加します。このような特殊なケースの例は以下の通りです。
Pipeline Builder と Code Repositories の両方が Foundry のデータセットを入力および出力として使用しているため、Code Repositories で構築されたパイプライン入力は、Pipeline Builder のパイプラインの前、後、中間に追加することができます。パイプラインを作成するアプリケーションに関係なく、データフローで全体のパイプラインのスケジュールとヘルスチェックを設定できます。データフローについて詳しくはこちら。
以下の表は、Pipeline Builder と Code Repositories で利用可能な機能とサポートを説明しています。上記で説明したように、両方のツールを一緒に使用することで、堅牢で型安全な再利用可能なパイプラインと、特殊なコードベースのロジックを作成できます。
Pipeline Builder | Code Repositories | |
---|---|---|
推奨用途 | 組織向けの本番パイプラインと、組織間の共同作業用の特殊なパイプラインを構築および維持する。 | パイプラインに追加する特殊なコードベースのデータ変換を作成する。 |
ビルドインターフェース | ||
パイプラインインターフェース | グラフおよびフォームベース | Web ベースの統合開発環境(IDE) |
サポート言語 | ノーコードが必要 | Python、SQL、Java、Mesa |
再利用性 | パイプライン全体またはパイプラインステージをコピーして貼り付ける。 | ユーティリティ関数やライブラリを再利用し、ファイル間でコードをコピーする。 |
型安全な関数 | 強い型付け; エラーはビルド時ではなく、すぐにフラグが立てられる。 | コードベース; エラーはビルド時に表示される。 |
パラメーター | パイプライン全体で使用できるユーザー定義の永続的なパラメーター。 | リポジトリで使用できるコード定義の定数。 |
サポートされているパイプライン | ||
バッチパイプライン | はい | はい |
ストリーミングパイプライン | はい | はい(上級ユーザー向け) |
ファイルベースの変換 | はい | はい |
インクリメンタル計算 | はい | はい |
ファイルシステムと API アクセス | いいえ | はい |
パイプラインテスト | ||
データプレビュー範囲 | 全データセットに基づくプレビュー。 | データサンプルのプレビュー。 |
データプレビューのタイムライン | リアルタイムでプレビューが更新される。 | リクエストによるプレビュー。 |
データプレビューチェックポイント | 変換ステップごとにプレビューする。 | デバッグモードで選択したチェックポイントの中間データフレームや変数をプレビューする。 |
デバッグ | 型安全; エラーはパイプラインの作成中に浮上し、デバッグにチェックやビルドが必要ありません。 | デバッガーおよび Read-Eval-Print Loop(REPL)対応。 |
ユニットテスト | いいえ | はい (上級ユーザー向け) |
パイプライン管理 | ||
データ期待値 | はい | はい |
スケジュール | はい | はい |
カスタムライブラリの公開 | いいえ | はい |
バージョン管理 | ノーコード/ハイコードユーザーの共同作業に対するレール上の完全なバージョン管理ワークフロー。 | 完全な Git ワークフロー。 |
ビルドメモリ管理 | ユーザーは承認された計算プロファイルを設定できる。 | コードベースの構成が利用可能。 |
セキュリティマーキングの管理 | 開発中 | はい |