注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このページでは、Pipeline Builder に関連する Foundry データ統合のコアコンセプトを紹介します。
データセット、ブランチ、変換、および出力の概念は、Pipeline Builder の基本です。最初のパイプラインを構築する前や、データを変換してパイプライン出力に統合する際に、これらのトピックを確認することをお勧めします。
データセットは、パイプラインの構成要素です。データ統合プロセスでは、データが Foundry に着地するときから、データが オントロジー オブジェクトモデルにマッピングされるまで、データは Foundry データセット として表されます。
基本的に、Foundry データセット は、バッキングファイルシステム に格納されているファイルのコレクションをラップするものです。Pipeline Builder は主に構造化データ用ですが、半構造化データにも使用できます。
Pipeline Builder での入力データセットについて詳しく学ぶ。
バージョン管理は、健全なパイプラインワークフローを維持するために不可欠です。Pipeline Builder では、パイプライン ブランチ という形でバージョン管理が実装されており、Git バージョン管理のコードブランチと同様に機能します。
パイプラインブランチは、メインパイプラインに保存することなくユーザーが反復できるパイプラインのコピーであり、Git のコードブランチと同様です。ユーザーは、ブランチで変更を加え、プレビューを表示し、保存し、ビルドを行うことができます。変更に満足したら、Main ブランチにマージを提案することができます。これは、Git プルリクエストをマージするのと同様です。
Pipeline Builder でのブランチについて詳しく学ぶ。
変換は、関数定義と考えることができます。つまり、変換は入力セット(データセットなど)を受け取り、出力セットを生成します。パイプラインは、データセット、データ期待値、およびターゲットデータ出力を変換で接続することによってリンクされます。
Pipeline Builder での変換について詳しく学ぶ。
Pipeline Builder の出力は、パイプラインで行われた変換の結果であり、データセットやオントロジーコンポーネント(オブジェクトタイプ、オブジェクトリンクタイプ、時系列など)になります。出力は、Quiver や Code Workbook などの他の Foundry アプリケーションで使用できます。
Pipeline Builder でのパイプライン出力について詳しく学ぶ。
スケジュールとデータ期待値の概念は、健全で安定したパイプラインを維持するために役立ちます。最初のパイプラインを構築したら、これらのトピックについて詳しく学ぶことをお勧めします。
スケジュール は、データセットビルド を定期的に実行して、Foundry を通じてデータが一貫して流れるようにするために使用されます。Pipeline Builder では、ビルドを特定の時間に、特定の間隔で、または親リソースのステータスに基づいてスケジュールすることができます。例えば、上流のデータセットが更新されたときにビルドが発生するように設定することができます。
Pipeline Builder でのスケジュールについて詳しく学ぶ。
データ期待値は、データセットの入力や出力に適用できる要件です。これらの要件(「期待値」として知られています)は、データパイプラインの安定性を向上させるチェックを作成するために使用できます。
データ期待値は、各パイプライン出力に設定でき、結果として得られる出力に期待値を定義します。Pipeline Builder では、主キーと行数の2つのデータ期待値タイプがサポートされています。
期待値がいずれかで失敗すると、ビルドは失敗します。ジョブ期待値ペインは、どのデータ期待値が成功し、どのデータ期待値が失敗したかを示します。