注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

データパイプラインとは何ですか?

Foundry でのデータ統合の全体的な目標は、組織内の客観的な現実をデジタル化したビューを提供することです。この目標を達成するには、多くのソースシステムからのデータの同期、共通スキーマの適用、データセットの結合、および共通データ基盤からのユースケースの構築が通常必要となります。

このコンテキスト内で、「データパイプライン」という用語は、ソースシステムから中間データセットを経由して、最終的に高品質でキュレーションされたデータセットを生成するデータのフローを指すために広く使用されています。これらのデータセットは、オントロジーに構造化されるか、機械学習分析ワークフローの基盤として機能します。

Foundry 内のどの 2 つのデータセットでも、変換ロジックを介して接続されている場合、パイプラインと見なすことができますが、実際には、「データパイプライン」として参照するものはより制約があります。通常、パイプラインには 所有者 の概念があります。これは、データが定期的かつ確実にパイプラインを通過してビジネスプロセスを実行することを確保するために、パイプラインを監督する個人やグループを意味します。

所有概念を超えて、高品質で本番環境に対応したデータパイプラインに関連するいくつかの他の特性があります。このドキュメントの残りの部分でこれらのアイデアを探求し、さらに学ぶための追加リソースへのリンクを提供します。

すべてのパイプラインに共通の機能に加えて、データスケール、レイテンシ要件、メンテナンスの複雑さなどの要因に基づいて、データ基盤に対して作成すべきパイプラインの種類を検討してください。Foundry で利用可能なパイプラインの主なタイプは 3 つあります。バッチ、インクリメンタル、ストリーミングです。パイプラインのタイプについて詳しくはこちら。

パイプラインのセットアップ

Foundry の Pipeline Builder は、ユーザーがポイント&クリックの直感的なインターフェースで迅速かつ簡単にパイプラインを設定できるようにします。Pipeline Builder を使用することで、ユーザーは Git スタイルの変更管理、データヘルスチェック、マルチモーダルセキュリティ、細かいデータ監査の利点を得ることができます。

技術者は、エンドツーエンドのパイプラインと望ましい出力の宣言的な説明に焦点を当てることで、以前よりも迅速にパイプラインの構築とメンテナンスを行うことができます。さらに、Pipeline Builder のポイント&クリック、フォームベースのインターフェースは、技術的でないユーザーが簡略化されたアプローチでパイプラインを作成できるようにします。

ビルドのスケジューリング

簡単に言えば、データパイプラインと見なされるためには、一連のデータ変換が定期的に実行される必要があります。Foundry でビルドスケジュールを定義することは、パイプラインの構築において基本的なステップであり、下流のデータコンシューマはデータが定期的に更新されることを期待しています。データがパイプラインを通過する頻度は、組織の要件によって異なります。一部のパイプラインは週次または日次でのみ実行される場合がありますが、他のパイプラインは、1 時間ごとやそれ以上の頻度で実行されることがあります。

以下のリソースは、Foundry でビルドのスケジューリングを始めるのに役立ちます。

データ品質

パイプラインの定義を開始する初期段階では、すべてのステップで入力と出力の品質を頻繁にチェックすることをお勧めします。ソースシステムから同期されたデータには、未定義の値や整形が悪い、または一貫性のないデータが含まれることがよくあります。データのクリーニングと正規化は、パイプライン構築プロセスの中核部分です。

データセットに関する仮定をチェックするためのツールは、Foundry のあらゆる場所で利用できます。

  • データセットプレビューは、データセットの任意の行について統計情報を計算したり、行のサブセットにフィルター処理してすばやく期待を確認したりするのに役立ちます。
  • コードリポジトリの変換のデバッグサポートは、変換ロジックを作成中に入力データセットが期待どおりに構造化されていることを確認するために使用できます。
  • Foundry の分析スイート内のアプリケーション、特に Contour は、ポイント&クリック方式でデータセットに関する仮定を検証するのに非常に役立ちます。

パイプラインが確立された後は、ヘルスチェックを使用して、データが時間の経過とともに高品質であることを確認することが推奨されます。ヘルスチェックの入門に役立つリソースは次のとおりです。

セキュリティとガバナンス

Foundry のプラットフォームセキュリティプリミティブは、データ基盤を保護し、機密データが適切に処理されることを確保するための最高水準の機能を提供します。プロジェクトマーキングという横断的な概念は、それぞれ選択的および強制的な制御をサポートし、ガバナンス要件の全範囲に対応できるようになります。

パイプライン内のデータを安全に処理する方法について詳しくは、以下のセクションを参照してください。

サポートプロセスとドキュメント

上記のガイドラインに従ってパイプラインが本番環境に公開された後、組織的な観点からパイプラインの長寿命を考慮することが重要です。パイプラインのメンテナンスに関するサポートプロセスを詳しく説明し、期待値を明確に定義し、ドキュメントを利用可能にして、パイプラインがあるチームから別のチームに引き継がれる際も品質が高いままであることを確保してください。

これらのベストプラクティスについて詳しくは以下をご覧ください。