Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

データパイプラインとは何ですか?

Foundry でのデータ統合の全体的な目標は、ユーザーの組織内の目的の現実をデジタルビューで提供することです。この目標を達成するためには、通常、多くのソースシステムからデータを同期し、共通のスキーマを強制し、データセットを組み合わせ、チームが共通のデータ基盤からユースケースを構築できるようにする必要があります。

この文脈で、「データパイプライン」という用語は広く使用され、ソースシステムから中間データセットを経由して、最終的には オントロジー に構造化できるか、または 機械学習分析 ワークフローの基盤となる高品質でキュレーションされたデータセットを生成するデータのフローを指します。

変換ロジックを介して連結された Foundry の任意の 2 つのデータセットはパイプラインと見なすことができますが、実際には「データパイプライン」と呼ぶものはより制約があります。一般的に、パイプラインには 所有権 の概念があり、人々またはグループがパイプラインを監視して、データが定期的かつ信頼性高くビジネスプロセスを動力とするように流れることを確認します。

所有権の概念を超えて、高品質で本番準備が整ったデータパイプラインにはいくつかの他の特性が関連付けられています。このドキュメントの残りの部分でこれらのアイデアを探求し、詳細を学ぶための追加のリソースへのリンクを提供します:

すべてのパイプラインに共通する機能に加えて、データスケール、レイテンシ要件、メンテナンスの複雑さなどの要因に基づいて、ユーザーのデータ基盤にどのタイプのパイプラインを作成するべきかを考慮してください。Foundry で利用可能な主なパイプラインタイプは 3 つあります:バッチ、インクリメンタル、ストリーミングです。パイプラインの種類について詳しく学びます。

パイプラインの設定

Foundry の Pipeline Builder を利用すると、ユーザーはポイントアンドクリックの直感的なインターフェースでパイプラインを迅速かつ簡単に設定できます。Pipeline Builder を使うと、ユーザーは Git スタイルの変更管理、データヘルスチェック、マルチモーダルセキュリティ、細かいデータ監査の利点を得ることができます。

技術的なユーザーは以前よりも迅速にパイプラインを構築し、維持することができ、エンドツーエンドのパイプラインと望ましい出力の宣言的な説明に焦点を当てます。さらに、Pipeline Builder のポイントアンドクリック、フォームベースのインターフェースは、技術的でないユーザーが単純化されたアプローチを通じてパイプラインを作成することを可能にします。

ビルドスケジューリング

単純に言えば、一連のデータ変換が定期的に実行されなければ、データパイプラインとみなすことはできません。Foundry でビルド スケジュール を定義することは、パイプラインを構築する基本的なステップであり、下流のデータ消費者はデータが定期的に更新されることを期待しています。データがパイプラインを通過する頻度は組織の要件によります:一部のパイプラインは週に一度または日に一度しか実行されないかもしれませんが、他のパイプラインは1時間ごとまたはさらに頻繁に実行されます。

以下のリソースは、Foundry でビルドのスケジューリングを開始するのに役立ちます:

データ品質

パイプラインを定義する初期段階では、各ステップで入力と出力の品質を頻繁にチェックすることをお勧めします。ソースシステムから同期されたデータには、未定義の値や、形式が悪い、または一貫性のないデータが含まれることがよくあります。データのクリーニングと正規化は、パイプライン構築プロセスの中心的な部分です。

データセットに対する仮定をチェックするツールは、Foundry 全体で利用可能です:

  • データセットプレビューは、データセットの任意の列の統計を計算したり、行のサブセットにフィルター処理することで期待をすばやくチェックすることをサポートします。
  • Code Repositories の デバッグトランスフォーム のサポートは、変換ロジックを作成する際に入力データセットが期待通りに構造化されていることをチェックするために使用できます。
  • Foundry の分析スイートのアプリケーション、特に Contour は、データセットについての仮定をポイントアンドクリック方式で検証するのに非常に役立ちます。

パイプラインが確立された後は、ヘルスチェック がデータが時間とともに高品質であることを確認する推奨の方法です。ヘルスチェックの始め方については、次のリソースを参照してください:

セキュリティとガバナンス

Foundry のプラットフォームセキュリティ原始機能は、データ基盤を安全に保つため、そして機密データが適切に扱われることを確保するための最先端の機能を提供します。プロジェクトマーキング という横断的な概念は、それぞれ裁量的なコントロールと必須のコントロールをサポートし、ガバナンス要件全体を満たすために使用できます。

ユーザーのパイプラインでデータを安全に扱う方法について詳しく知るために、次のセクションを参照してください:

サポートプロセスとドキュメンテーション

上記のガイドラインに従ってパイプラインが本番環境に公開されると、組織の観点からパイプラインの長寿命について考えることが重要です。パイプラインのメンテナンスのためのサポートプロセスを詳細に説明し、期待値を明確に定義し、ドキュメンテーションを利用可能にすることで、パイプラインは一つのチームから別のチームへ引き継がれても高品質を維持します。

これらのベストプラクティスについて詳しく学びます: