データ統合パイプラインのビルド概要

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

概要

データパイプラインを作成する最初のステップは、組織のデータソースを Foundry に接続し、データをシステムを通して流すことです。初期段階では、データが高品質であり、ユースケース開発、モデル開発、分析の信頼できる基盤となることを確認することに重点を置くべきです。

この文書のセクションでは、パイプラインを作成する初期段階に焦点を当てています。ビジネス要件がまだ流動的であり、パイプラインロジックの変更が頻繁に行われている時期です。この段階では、目標とするユースケースをサポートし、将来的なパイプラインメンテナンスを可能にするための、堅固な基盤を築くことに重点を置いています。

初期段階

ほとんどの場合、パイプライン開発の初期段階では以下の手順を守るべきです:

  • 推奨されるプロジェクト構造を設定し、開発プロセスの最初からデータセキュリティとガバナンスが整理されるようにします。
  • Pipeline Builder または Code Repositoriesでバッチパイプラインを作成し、入力データセットを処理し、データのクリーニングとフィルター処理を行い、他のデータセットと結合して、ワークフロー開発をサポートする オントロジー に供給できる高品質なデータセットを作成します。
  • 最終的なデータセットをオントロジーの オブジェクトタイプ および リンクタイプにマッピングします。
  • スケジュールを設定して、データが定期的に流れるようにします。

これらの手順を超えて、ユニットテストの追加、ブランチングとリリースプロセスの設定、ヘルスチェックの定義など、パイプラインをより堅牢かつスケーラブルにするための手順がいくつかあります。パイプライン開発のベストプラクティスについて学ぶ

インクリメンタルパイプライン

パイプラインに流れ込む入力データの変更規模が大きい場合、変更されたデータを効率的に処理するために インクリメンタルパイプライン を作成することが最善の方法であるかもしれません。ほとんどの場合、バッチパイプラインから始めて、パフォーマンスを改善し、遅延を減らすために後からインクリメンタルパイプラインを設定できます。

いくつかのケースでは、パイプラインに流れ込む新しいデータの規模が非常に大きいことがわかっている場合、特に、パイプラインを最初からインクリメンタルに設計することが望ましいです。しかし、インクリメンタルパイプラインの作成と維持は、バッチパイプラインよりもはるかに複雑です。Foundry の異なるタイプのパイプラインについて詳しく学ぶ

ストリーミングパイプライン

データの遅延要件が非常に低い場合、入力データを効率的に処理するために ストリーミングパイプライン を作成することが最善の方法であるかもしれません。ストリーミングパイプラインは、最も遅いコンポーネントの速度にしかならないため、パイプラインは最初から設計されるべきで、パイプラインが目標の遅延時間とスループットを達成できるようにするべきです。より微妙な分析のために、ストリーミングとバッチプロセスの 比較 をご覧ください。