注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このページでは、Pipeline Builder に関連する Foundry データ統合のコアコンセプトを紹介します。
データセット、ブランチ、トランスフォーム、および出力の概念は Pipeline Builder の基本です。最初のパイプラインを構築する前、またデータをトランスフォームしてパイプライン出力に統合する際に、これらのトピックを確認することをお勧めします。
データセットはパイプラインの構成要素です。データ統合プロセスでは、データは Foundry に到着してから オントロジー オブジェクトモデルにマップされるまで、Foundry データセットとして表現されます。
基本的に、Foundry データセット は バックファイルシステム に保存されたファイルのコレクションのラッパーです。Pipeline Builder は主に構造化データを対象としていますが、半構造化データにも使用できます。
Pipeline Builder の入力データセットについて詳しく学ぶ。
バージョン管理は健全なパイプラインワークフローを維持するために重要です。Pipeline Builder では、バージョン管理はパイプラインの ブランチ を使用して実装されており、Git のバージョン管理におけるコードブランチと同様に機能します。
パイプラインブランチは、ユーザーがメインパイプラインに保存せずに反復できるパイプラインのコピーです。ユーザーは変更を加え、プレビューし、保存し、ブランチ上でビルドすることができます。変更に満足したら、Git のプルリクエストをマージするように、メインブランチにマージを提案することができます。
Pipeline Builder のブランチについて詳しく学ぶ。
トランスフォームは関数定義と考えることができます。つまり、トランスフォームはデータセットなどの入力セットを受け取り、出力セットを生成します。パイプラインは、トランスフォームによって接続されたデータセット、データ期待値、およびターゲットデータ出力のリンクです。
Pipeline Builder のトランスフォームについて詳しく学ぶ。
Pipeline Builder の出力は、パイプラインで行われたトランスフォームの結果であり、データセットやオントロジーのコンポーネント(オブジェクトタイプ、オブジェクトリンクタイプ、時系列など)である可能性があります。出力は Quiver や Code Workbook などの他の Foundry アプリケーションで使用できます。
Pipeline Builder のパイプライン出力について詳しく学ぶ。
スケジュール と データ期待値 の概念は、健全で安定したパイプラインを維持するために役立ちます。最初のパイプラインを構築した後にこれらのトピックについて詳しく学ぶことをお勧めします。
スケジュールは、Foundry にデータが一貫して流れるようにするために、データセットビルド を定期的に実行するために使用されます。Pipeline Builder では、ビルドを特定の時間、特定の間隔、または親リソースのステータスに基づいてスケジュールすることができます。たとえば、上流のデータセットが更新されたときにビルドを実行するように設定できます。
Pipeline Builder のスケジュールについて詳しく学ぶ。
Pipeline Builder は、ユニットテストを通じて出力および中間トランスフォームに対するデータ期待値をサポートしています。データ期待値は、データセット出力に適用できる要件です。これらの要件(「期待値」として知られる)は、データパイプラインの安定性を向上させるチェックを作成するために使用できます。
データ期待値は、各パイプライン出力に設定して、結果の出力に対する期待値を定義することができます。Pipeline Builder は現在、2つのデータ期待値タイプ(主キーと行数)をサポートしています。
期待値のいずれかが失敗すると、ビルドは失敗します。ジョブ期待値ペインには、どのデータ期待値が合格し、どの期待値が失敗したかが表示されます。