注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Foundry でのデータ統合の全体的な目標は、組織内の客観的な現実をデジタル化したビューを提供することです。この目標を達成するには、多くのソースシステムからのデータの同期、共通スキーマの適用、データセットの結合、および共通データ基盤からのユースケースの構築が通常必要となります。
このコンテキスト内で、「データパイプライン」という用語は、ソースシステムから中間データセットを経由して、最終的に高品質でキュレーションされたデータセットを生成するデータのフローを指すために広く使用されています。これらのデータセットは、オントロジーに構造化されるか、機械学習や分析ワークフローの基盤として機能します。
Foundry 内のどの 2 つのデータセットでも、変換ロジックを介して接続されている場合、パイプラインと見なすことができますが、実際には、「データパイプライン」として参照するものはより制約があります。通常、パイプラインには 所有者 の概念があります。これは、データが定期的かつ確実にパイプラインを通過してビジネスプロセスを実行することを確保するために、パイプラインを監督する個人やグループを意味します。
所有概念を超えて、高品質で本番環境に対応したデータパイプラインに関連するいくつかの他の特性があります。このドキュメントの残りの部分でこれらのアイデアを探求し、さらに学ぶための追加リソースへのリンクを提供します。
すべてのパイプラインに共通の機能に加えて、データスケール、レイテンシ要件、メンテナンスの複雑さなどの要因に基づいて、データ基盤に対して作成すべきパイプラインの種類を検討してください。Foundry で利用可能なパイプラインの主なタイプは 3 つあります。バッチ、インクリメンタル、ストリーミングです。パイプラインのタイプについて詳しくはこちら。
Foundry の Pipeline Builder は、ユーザーがポイント&クリックの直感的なインターフェースで迅速かつ簡単にパイプラインを設定できるようにします。Pipeline Builder を使用することで、ユーザーは Git スタイルの変更管理、データヘルスチェック、マルチモーダルセキュリティ、細かいデータ監査の利点を得ることができます。
技術者は、エンドツーエンドのパイプラインと望ましい出力の宣言的な説明に焦点を当てることで、以前よりも迅速にパイプラインの構築とメンテナンスを行うことができます。さらに、Pipeline Builder のポイント&クリック、フォームベースのインターフェースは、技術的でないユーザーが簡略化されたアプローチでパイプラインを作成できるようにします。
簡単に言えば、データパイプラインと見なされるためには、一連のデータ変換が定期的に実行される必要があります。Foundry でビルドスケジュールを定義することは、パイプラインの構築において基本的なステップであり、下流のデータコンシューマはデータが定期的に更新されることを期待しています。データがパイプラインを通過する頻度は、組織の要件によって異なります。一部のパイプラインは週次または日次でのみ実行される場合がありますが、他のパイプラインは、1 時間ごとやそれ以上の頻度で実行されることがあります。
以下のリソースは、Foundry でビルドのスケジューリングを始めるのに役立ちます。
パイプラインの定義を開始する初期段階では、すべてのステップで入力と出力の品質を頻繁にチェックすることをお勧めします。ソースシステムから同期されたデータには、未定義の値や整形が悪い、または一貫性のないデータが含まれることがよくあります。データのクリーニングと正規化は、パイプライン構築プロセスの中核部分です。
データセットに関する仮定をチェックするためのツールは、Foundry のあらゆる場所で利用できます。
パイプラインが確立された後は、ヘルスチェックを使用して、データが時間の経過とともに高品質であることを確認することが推奨されます。ヘルスチェックの入門に役立つリソースは次のとおりです。
Foundry のプラットフォームセキュリティプリミティブは、データ基盤を保護し、機密データが適切に処理されることを確保するための最高水準の機能を提供します。プロジェクトとマーキングという横断的な概念は、それぞれ選択的および強制的な制御をサポートし、ガバナンス要件の全範囲に対応できるようになります。
パイプライン内のデータを安全に処理する方法について詳しくは、以下のセクションを参照してください。
上記のガイドラインに従ってパイプラインが本番環境に公開された後、組織的な観点からパイプラインの長寿命を考慮することが重要です。パイプラインのメンテナンスに関するサポートプロセスを詳しく説明し、期待値を明確に定義し、ドキュメントを利用可能にして、パイプラインがあるチームから別のチームに引き継がれる際も品質が高いままであることを確保してください。
これらのベストプラクティスについて詳しくは以下をご覧ください。