データ統合パイプラインのメンテナンス概要

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

概要

データパイプラインがさまざまなユースケースをサポートするために作成され、本番環境に移行すると、一部のパイプラインはアクティブな開発が行われなくなり、パイプラインの保守が主な焦点となる場合があります。

このページでは、パイプライン保守担当者の責任と、パイプラインを保守モードに移行するための前提条件について説明しています。

このセクションの残りの部分では、パイプライン保守のためのベストプラクティスとアプローチについて説明しています。

前提条件と期待値

パイプラインの保守を開始する前に、パイプラインに対して明確な期待値を定義しておくことが重要です。これにより、リアルなアラートの閾値を設定し、パイプラインの保守作業やアラートを優先順位付けし、チーム間の責任を明確にし、最も重要なことに、パイプラインがユーザーのニーズを満たすことを確認できます。

このセクション全体のベストプラクティスは、次の期待値をキャプチャしていることを前提としています。

  • パイプラインの範囲内のデータ
  • 提供されるデータ
  • データが提供されるタイミング
  • データが構築されるべきタイミング
    • 特に、週末にパイプラインが実行されるかどうか
  • データが理想的に更新される頻度
  • データが重大に古いとみなされるタイミング

パイプライン保守の責任

パイプライン保守担当者の責任には、以下が含まれます。

  • パイプライン監視の技術面の設定
  • パイプラインが壊れた場合のデバッグ(ヘルスチェックが失敗した場合)
  • 必要に応じてコードの変更や監視設定の変更
  • データが誤っているか、期限内に受け取れない場合は、上流チームに連絡する

これらの責任を果たすために、パイプライン保守担当者には以下のスキルとアクセスが推奨されます。

  • データアクセス(可能であれば推奨):適切なデータアクセスにより、データに問題がある場合に適切にデバッグできます。
  • 技術スキル(推奨):パイプライン監視チームのメンバーは、コードリポジトリ、ビルド、データフロー、データヘルスなどのパイプライン開発ツールを読み取り、ナビゲートできるようにする必要があります。これにより、パイプライン全体の問題を効果的に解釈し、トリアージできます。
  • パイプラインアーキテクチャへの熟知度(任意):チームメンバーは、監視を開始する前にパイプラインに慣れるべきです。これは、ドキュメントやインフラストラクチャの知識管理を通じて促進できます。