データ統合パイプラインのメンテナンス大規模監視

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

大規模監視

大規模監視は、Foundry リソースの監視を時間をかけずに行う新機能を導入します。

すでに check groups を使用している場合、これをリソースの監視に追加のオプションと考えてください。既に設定しているワークフローまたはチェックグループを置き換えるものではありません。

用語と定義

  • メトリクス: リソースはメトリクス、またはログを発行します。これらのメトリクスの上にモニターが作成され、特定のリソースに対するユーザーのパフォーマンス基準が設定されます。
  • リソース: Foundry 内で監視可能な「もの」で、データセット、エージェント、スケジュール、オブジェクト、リンクタイプなどが含まれます。
  • スコープ: スコープとは、しきい値が設定されたリソースの集合に対する境界です。リソースは異なるスコープタイプで監視することができます:
    • シングル: モニターは特定のリソースにのみ適用されます。
    • プロジェクト: モニターは、指定されたタイプのリソースに対してプロジェクト内、または複数のプロジェクト内で適用されます。
  • 監視ルール: 特定のスコープ内のリソースのメトリクスに設定されたしきい値または一連のしきい値で、以下を含みます:
    • リソースタイプ
    • メトリクスのしきい値の許容範囲
    • 重要度レベルの割り当て
  • 監視ビュー: サブスクライバーのグループが関心を持つ監視ルールの集合です。
  • サブスクライバー: 監視ビューに登録されたユーザーです。
  • アラート: 低、中、高の割り当てを持つ通知で、サブスクライバーに送信されます。

リソースの監視を開始する

リソースの監視は2つの方法で行うことができます:

  • 既存のチェックグループを監視ビューにアップグレードする
  • 新しい監視ビューを作成する

既存のチェックグループを監視ビューにアップグレードする

既存のチェックグループをアップグレードするには、Data Health アプリケーションでチェックグループを開き、上部のバナーで Upgrade to Monitoring View を選択します。

新しい監視ビューを作成するか、すべてのチェックを既存の監視ビューに移動することができます。

  • 監視ビューはファイルシステムリソースです。新しい監視ビューを作成する場合は、潜在的なサブスクライバーがアクセスできるプロジェクトに保存するようにしてください。
  • チェックグループをアップグレードした後も、チェックは現在とまったく同じようにサポートされ続けます。メールダイジェスト、アラート、サブスクリプション、またはヘルスチェックに関連する他のワークフローに変更はありません。
  • 各チェックグループは単一の監視ビューにリンクすることができ、その逆も同様です。したがって、単一の既存の監視ビューに対して1つのチェックグループをアップグレードするか、適切なものが存在しない場合は新しい監視ビューを作成することしかできません。

新しい監視ビューを作成する

新しい監視ビューを作成するには、Data Health アプリの右上隅にある Monitoring View タブに移動し、新しい監視ビューを作成します。

監視ルールを作成する

監視ルールを作成するには、Manage monitors タブに移動します。まず、監視するリソースタイプを選択します。リソースタイプにより、シングルスコープでそのリソースのみを監視するか、あるいは単一または複数のプロジェクトスコープでそのタイプのすべてのリソースを監視することができます。

リソースを監視し、それらに関するアラートを受信するには、リソースへのアクセス許可が必要です。

モニターを設定する

モニターはリソースが発行するメトリクスに設定されます。モニターを設定する際には、Foundry の健康基準に基づいた特定の設定を提案します。ただし、値を変更したり、特定のメトリクスのみを監視するように選択したりすることができます。また、アラートが失敗した場合の警告レベルを決定することもできます。現在、低、中、高の3つの重要度タイプがあります。

モニターを編集する

モニターのリストから選択し、表示されるサイドパネルで Edit を選択することで、モニターを編集することができます。

アラートの購読

アラートの購読を行うには、Manage subscriptions タブに移動します。ここにはすべての購読ユーザーが表示されます。ユーザーとユーザーグループを追加し、そのアラートを重要度に基づいて設定することができます。モニタールールがアラートをトリガーすると、そのアラートが含まれる監視ビューを購読しているユーザーは、メールと Foundry の通知で通知を受け取ります。

PagerDuty との統合

監視ビューは、Foundry 内で生成された同等のアラートに対応する PagerDuty のアラートをトリガーし、解決することができます。この統合は PagerDuty V2 Events API を使用し、サービスユーザー、メール、または大部分のスタックでのカスタムホワイトリストまたはエグレス設定は必要ありません。単一の統合は、監視ビュー内の特定の重要度のすべてのアラートを、PagerDuty サービス内で定義された Events V2 API 統合にマップします。注意していただきたいのは、監視ビュー内で定義された複数の統合が同じ PagerDuty 統合キーにマップできるということです。

PagerDuty サービスの Events V2 API 統合を作成する

希望するエスカレーションポリシー、緊急度設定、サポート時間で PagerDuty サービスを設定します。サービスの Integrations タブで、新しい統合を追加します。統合タイプとして Events API V2 を選択し、Add をクリックします。(これは Most popular integrations セクションに表示されます。)統合が追加されると、歯車のシンボルをクリックすると詳細が表示され、次のステップで必要な Integration Key が表示されます。

監視ビューに新しい PagerDuty 統合を作成する

監視ビューの Manage subscriptions タブに移動し、Pagerduty Notifications セクションでプラス記号 (+) をクリックして新しい PagerDuty 統合を作成します。統合の名前、前のステップでの統合キー、および重要度レベルを指定する必要があります。適用可能な各重要度レベルについて繰り返します。

ヘルスチェック用の PagerDuty を有効にする

デフォルトでは、監視ビューは監視ルールのアラートのための PagerDuty アラートを生成します。また、監視ビューにアップグレード/リンクされたチェックグループに属するレガシーヘルスチェックのために PagerDuty アラートをトリガーし、解決することも可能です。この機能を有効にするには、Enable PagerDuty for health checks チェックボックスを選択します。注意してください、中程度の重要度のヘルスチェックは MEDIUM 重要度の統合を使用し、重大な重要度のヘルスチェックは HIGH 重要度の統合を使用します。

FAQ

どのリソースを監視することができますか?

以下のものを監視することができます:

リソースタイプ対応スコープ
エージェントシングル、プロジェクト
オブジェクトタイプシングル
リンクタイプシングル
スケジュールシングル、プロジェクト
ストリーミングデータセットシングル、プロジェクト
ライブデプロイメントプロジェクト
データセット (近日公開)プロジェクト

すべてのヘルスチェックは現在、監視ルールとして存在しますか?

すべてのヘルスチェックが監視ルールとして存在するわけではありませんが、最も重要なヘルスチェックには対応する監視ルールがあります。リンクされたチェックグループ内の監視ルールとヘルスチェックの組み合わせを使用することをお勧めします。監視ビューとヘルスチェックからのカバレッジをまとめると:

  1. 監視ビューでのみ監視可能なリソース: データ接続エージェント、Object Storage V2 (OSv2) のオブジェクトとリンク、ストリーミングデータセット、モデルのライブデプロイメント
  2. データセットレベルのチェックはヘルスチェックとしてのみ存在します: コンテンツ、新鮮さ、スキーマチェック、データ期待値、OSv1 (phonograph) および foundry-sync チェック
  3. ヘルスチェックの機能を置き換える監視ルール: 連続するスケジュールの失敗(スケジュールステータスチェックの置き換え)とスケジュール期間モニター

最も包括的なカバレッジを得るために、監視ビューを現在監視ビューで利用できないヘルスチェックで構成されたチェックグループにリンクすることをお勧めします。

ヘルスチェックよりもモニターを使用する理由は何ですか?

モニターは単一のリソースではなく、全体のスコープをカバーします。つまり、そのスコープに追加のリソースが追加されたとき、そのルールによって自動的にカバーされます。例えば、プロジェクト内のすべてのエージェントを監視するように設定された監視ルールは、後からそのプロジェクトに追加された他のエージェントも監視します。

新しい監視ビューを作成するのではなく、既存のビューに新しいルールを追加するのはいつですか?

良い方法は、単一の監視ビューをチェックグループと同じように考えることです。一つの監視ビューは、そのビュー内のモニターに関心を持つユーザーのセットに関連するべきです。特定のユーザーセット [a, b, c] が特定のプロジェクト [x, y, z] に関心がある場合、それらのプロジェクト内のすべてのリソースで単一の監視ビューを作成します。特定のユーザーセットがエージェントの監視だけを気にしている場合、すべてのプロジェクトのすべてのエージェントを監視する単一の監視ビューを作成すべきです。

監視ビューにはどのような権限が必要ですか?

監視ビューはファイルシステムリソースであるため、ユーザーは ビューが保存されているプロジェクトまたはフォルダー への権限が必要です。アラートを受け取るためにリソース上に監視ルールを設定するには、ユーザーは監視したい プロジェクトリソース へのアクセスが必要です。すべての必要な権限を持つユーザーがユーザーまたはグループを監視ビューに登録しても、その新しいサブスクライバーはその監視ビューへの明示的なアクセス許可がない限り、どのリソースに対するアラートも受け取ることはありません。