データ統合Data Healthヘルスチェックチェックの参照

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

チェックの参照

ステータスチェック

ビルドステータス

最新のデータセットのビルドが成功したか失敗したかをチェックします。

ルールコンポーネント説明例のオプション必須?
Severityチェックの失敗のSeverityModerate, CriticalY
Escalate連続した失敗後に重大性をエスカレートするかどうかY, NN
Notes追加の文脈を提供するためのメモを追加するTextN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

ビルドステータスチェックは、最終的なデータセットがビルドされるまでの全体のプロセスのステータスを与える代表的なものになる予定です。その結果、この最終データセットの作成や更新に至る各ステップ全体のステータスを提供します。プロセス中に更新されるか作成される中間データセットがビルドステータスの健康チェックを持っている場合、これらは更新されず、これらの中間データセットすべてのジョブステータスが更新されることに注意してください。

ジョブステータス

データセット上で最も最近のジョブが成功したか失敗したかをチェックします。

ルールコンポーネント説明例のオプション必須?
Severityチェックの失敗のSeverityModerate, CriticalY
Escalate連続した失敗後に重大性をエスカレートするかどうかY, NN
Notes追加の文脈を提供するためのメモを追加するTextN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

ジョブステータスチェックは、データセットがリフレッシュされたり作成されたりするビルドから独立してトリガーされます。つまり、該当のデータセットが特定のビルドの最終出力であるかどうかにかかわらず、ジョブステータスチェックは特定のデータセットの各ビルドで実行されます。

ジョブステータスとビルドステータス、どちらを使用するべきか?

データセットがビルドの出力であり、全てのデータセット(このデータセットを含む)での全ビルドが成功したかどうかをチェックしたいときは、ビルドステータスチェックを使用します。データセットがビルドの中間データセットであり、データセットが更新されたかどうかをチェックしたい(ビルド内の他のデータセットが正常に更新されたかどうかにかかわらず)場合は、ジョブステータスチェックを使用します。

データセットがビルドの唯一の出力であれば、ビルドステータスとジョブステータスは同等となります。データセットが中間データセットである場合や、ビルドに複数の出力があり、データセットのジョブが成功する(または実行しない)が、ビルド内の他のジョブが失敗し、ビルドが失敗する場合、ビルドステータスとジョブステータスは異なる可能性があります。

同期ステータス

データセットの最新の同期が別のデータベースに対して成功したか失敗したかをチェックします。

ルールコンポーネント説明例のオプション必須?
Sync Destinationデータセットのどの同期を監視するか、特にデータセットが複数の宛先に同期する場合に関連します。phonograph2-cache-worker, jdbc-workerY
Severityチェックの失敗のSeverityModerate, CriticalY
Escalate連続した失敗後に重大性をエスカレートするかどうかY, NN
Notes追加の文脈を提供するためのメモを追加するTextN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

時間チェック

ビルド時間

ビルドが完了するまでの合計時間が一定の閾値を満たすかどうかをチェックします。

ルールコンポーネント説明例のオプション必須?
Build Durationビルドが完了するまでの合計時間(日、分、または時間)12 の間, 1 以上, 1 以下, 1 と等しいN
Median Deviation最近のビルドが完了するまでの中央値からの差(標準偏差でおおよそ1 標準偏差, 10 最近のビルドN
Severityチェックの失敗のSeverityModerate, CriticalY
Notes追加の文脈を提供するためのメモを追加するTextN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

ビルドステータスと同様に、ビルド時間はビルドの最終出力のみが更新されます。より大きなビルドの一部である中間データセットがビルド時間チェックを持っている場合、これらは更新されません。

データの新鮮度

データセットの最新のトランザクションの時間とタイムスタンプ列の最大値を比較します。列のタイムスタンプが行が追加されたときを表す場合、これを使用してデータの新鮮度を正確に測定できます。

ルールコンポーネント説明例のオプション必須?
行名最後の更新の時間を含む列の行名。LAST_UPDATEDY
Freshness Range列の最新のデータを「新鮮」とみなす時間範囲(日、分、または時間)12 の間, 1 以上, 1 以下, 1 と等しいY
Severityチェックの失敗のSeverityModerate, CriticalY
Notes追加の文脈を提供するためのメモを追加するTextN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

同期時間

同期が完了するまでの合計時間が一定の閾値を満たすかどうかをチェックします。

ルールコンポーネント説明例のオプション必須?
Sync Destinationデータセットのどの同期を監視するか、特にデータセットが複数の宛先に同期する場合に関連します。phonograph2-cache-worker, jdbc-workerY
Sync Duration同期が完了するまでの合計時間(日、分、または時間)12 の間, 1 以上, 1 以下, 1 と等しいN
Median Deviation最近の同期が完了するまでの中央値からの差(標準偏差でおおよそ1 標準偏差, 10 最近のビルドN
Severityチェックの失敗のSeverityModerate, CriticalY
Notes追加の文脈を提供するためのメモを追加するTextN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

同期の新鮮度

データセットの最新の同期の時間と日時列の最大値を比較します。列のタイムスタンプが行が追加されたときを表す場合、これを使用してデータの新鮮度を正確に測定できます。

ルールコンポーネント説明例のオプション必須?
行名最後の更新の時間を含む列の行名。LAST_UPDATEDY
Freshness Range列の最新のデータを「新鮮」とみなす時間範囲(日、分、または時間)12 の間, 1 以上, 1 以下, 1 と等しいY
Severityチェックの失敗のSeverityModerate, CriticalY
Notes追加の文脈を提供するためのメモを追加するTextN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

最終更新からの経過時間

データセットが更新されてから(つまり、新しいトランザクションがあってから)の合計時間が一定の閾値を満たすかどうかをチェックします。

ルールコンポーネント説明例のオプション必須?
Last Updatedデータセットが更新されてからの合計時間(日、分、または時間)12 の間, 1 以上, 1 以下, 1 と等しいN
Median Deviation最近のビルドの更新時間の中央値からの差(標準偏差でおおよそ1 標準偏差, 10 最近のビルドN
Ignore Empty Transactions更新された時間/中央偏差のチェック時に空のトランザクションを除外するかどうか。 ファイルがないトランザクションは無視されます、まるで存在していなかったかのように。Y, NY
Severityチェックの失敗のSeverityModerate, CriticalY
Scheduleチェックを自動的にまたは手動で実行するScheduleAutomatic, Custom ScheduleY
Notes追加の文脈を提供するためのメモを追加するTextN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

シンク最終更新からの経過時間

データセットが何らかのデスティネーションに最後に同期されてからの合計時間が一定の閾値を満たすかどうかをチェックします。

ルール コンポーネント説明例のオプション必須か?
Last Syncデータセットが何らかのデスティネーションに最後に同期されてからの合計時間(日、分、または時間)12 の間、1 以上、1 以下、1 と等しいN
Median Deviation最近のビルドの中央更新時間からの違い(おおよその標準偏差 単位)1 標準偏差、10 最近のビルドN
Severityチェックの失敗の重要度Moderate(中程度)、Critical(重大)Y
Notes追加のコンテキストを提供するためのメモを追加テキストN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

サイズチェック

データセットファイル数

データセットの最新のビューに含まれるファイルの総数をチェックします。

ルール コンポーネント説明例のオプション必須か?
File Countデータセットの最新のビューに含まれるファイルの総数12 の間、1 以上、1 以下、1 と等しいY
Severityチェックの失敗の重要度Moderate(中程度)、Critical(重大)Y
Median Deviation最近のビルドの中央ファイル数からの差(おおよその標準偏差 単位)1 標準偏差、10 最近のビルドN
Notes追加のコンテキストを提供するためのメモを追加テキストN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

データセットパーティション

データセットのパーティションがパフォーマンス上適切であるかどうかをチェックします。

ルール コンポーネント説明例のオプション必須か?
Notesパーティションチェックは以下のように機能します:
- ファイルが合計 50 未満の場合、チェックは常に成功します。
- ファイルが合計 50 以上の場合、ファイルの 90% 以上が 96MB 以上のサイズである場合にチェックが成功します。

チェックが失敗した場合、データのファイル間での分割がパフォーマンス上最適でなく、データのパーティションをより適切に行う必要があります。
設定するオプションはありませんN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

行数

データセット内の行数の合計をチェックします。

ルール コンポーネント説明例のオプション必須か?
Row Countデータセット内の行数の合計5001000 の間、100 以上、1000 以下、10 と等しいY
Severityチェックの失敗の重要度Moderate(中程度)、Critical(重大)Y
Median Deviation最近のビルドの中央行数からの差(おおよその標準偏差 単位)1 標準偏差、10 最近のビルドN
Notes追加のコンテキストを提供するためのメモを追加テキストN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

行数チェックが前回成功したチェック結果に対して設定されている場合、チェックは前回成功したチェックで記録された行数に基づいて基準を評価し、失敗したチェックの結果は考慮しません。

トランザクションファイル数

ログファイルを除く、1つのトランザクションでコミットされたファイルの総数をチェックします。

ルール コンポーネント説明例のオプション必須か?
File Sizeトランザクションでコミットされたファイルの総数12 の間、1 以上、1 以下、1 と等しいN
Severityチェックの失敗の重要度Moderate(中程度)、Critical(重大)Y
Median Deviation最近のビルドの中央ファイル数からの差(おおよその標準偏差 単位)1 標準偏差、10 最近のビルドN
Notes追加のコンテキストを提供するためのメモを追加テキストN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

トランザクションファイルサイズ

ログファイルを除く、1 つのトランザクションでコミットされたファイルの合計サイズをチェックします。

ルール コンポーネント説明例のオプション必須か?
File Sizeトランザクションでコミットされたすべてのファイルの合計サイズ(MB または KB 単位)12 の間、1 以上、1 以下、1 と等しいN
Severityチェックの失敗の重要度Moderate(中程度)、Critical(重大)Y
Median Deviation最近のビルドの中央ファイルサイズからの差(おおよその標準偏差 単位)1 標準偏差、10 最近のビルドN
Notes追加のコンテキストを提供するためのメモを追加テキストN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

コンテンツチェック

許可された行の値

行の値が許可された値のリストと一致するかどうかをチェックします。

ルール コンポーネント説明例のオプション必須か?
Column Name対象となる行の名前FIRST_NAMEY
Allowed Values上記の行に対する許可された可能な値John, JaneY
Severityチェックの失敗の重要度Moderate(中程度)、Critical(重大)Y
Notes追加のコンテキストを提供するためのメモを追加テキストN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

おおよその一意の割合

行の値の一意性の割合をチェックします。この割合は おおよその 値です。これは、このチェックが主キー(100%一意の値)かどうかをチェックするのに適していないことを意味します。代わりに、主キーチェック を使用してください。

ルール コンポーネント説明例のオプション必須か?
Column Name対象となる行の名前FIRST_NAMEY
Unique Percentage一意の値が占める行の割合(% 単位)1020 の間、50 以上、50 以下、1 と等しいY
Severityチェックの失敗の重要度Moderate(中程度)、Critical(重大)Y
Notes追加のコンテキストを提供するためのメモを追加テキストN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

行の正規表現

行の値が特定の正規表現と一致するかどうかをチェックします。

ルール コンポーネント説明例のオプション必須か?
Column Name対象となる行の名前FIRST_NAMEY
Regex行が一致するべき正規表現^Pre, post$, .*any.*Y
Severityチェックの失敗の重要度Moderate(中程度)、Critical(重大)Y
Notes追加のコンテキストを提供するためのメモを追加テキストN
Issuesこのチェックが失敗したときに自動的に問題を作成するY, NN

おおよその行関連性(廃止)

このチェックは、2つの行の類似性をパーセンテージで見積もります。正確なチェックを行うには、代わりにdata expectationsを使用してください。

ルールコンポーネント説明例のオプション必須?
他のデータセットチェック対象のデータセット/Users/John Appleseed/Stock_Prices_LatestY
行 1 名チェックが設定されているデータセットの行名FIRST_NAMEY
行 2 名他のデータセットの行名f_nameY
パーセンテージマッチ2つの行がどの程度一致しているか(%で)85% の値が等しいY
備考追加のコンテキストを提供するためのメモを追加するテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

日付範囲

日付行の値の範囲をチェックします。

ルールコンポーネント説明例のオプション必須?
行名チェックする行の名前LAST_UPDATEDY
許容される日付範囲行に許容される日付範囲2017-01-01 – 2018-01-01Y
備考追加のコンテキストを提供するためのメモを追加するテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

Null パーセンテージ

行の値のパーセンテージが null であるかをチェックします。

ルールコンポーネント説明例のオプション必須?
行名チェックする行の名前CUSTOMER_IDY
Null パーセンテージ行の値のパーセンテージが null であるか(%で)12 の間、1 以上、1 以下、1 と等しいN
重症度チェック失敗の重症度中等度、重度Y
中央値からの偏差最近のビルドの中央の null パーセンテージからの差(おおよその標準偏差で)1 標準偏差、10 回の最近のビルドN
備考追加のコンテキストを提供するためのメモを追加するテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

数値の平均

数値行の平均が一定の閾値を満たすかどうかをチェックします。

ルールコンポーネント説明例のオプション必須?
行名チェックする数値行の名前NUM_FAILURESY
平均行の希望する平均12 の間、1 以上、1 以下、1 と等しいN
重症度チェック失敗の重症度中等度、重度Y
前回のチェックからの差異現在の行の平均を、最後にチェックを実行した時の行の平均と比較し、任意の定数を±する前回のチェック + 5 より大きいN
備考追加のコンテキストを提供するためのメモを追加するテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

数値の中央値

数値行の中央値が一定の閾値を満たすかどうかをチェックします。

ルールコンポーネント説明例のオプション必須?
行名チェックする数値行の名前NUM_FAILURESY
中央値行の希望する中央値12 の間、1 以上、1 以下、1 と等しいN
重症度チェック失敗の重症度中等度、重度Y
前回のチェックからの差異現在の行の平均を、最後にチェックを実行した時の行の平均と比較し、任意の定数を±する前回のチェック + 5 より大きいN
備考追加のコンテキストを提供するためのメモを追加するテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

数値範囲

数値行の値の範囲をチェックします。

ルールコンポーネント説明例のオプション必須?
行名チェックする数値行の名前NUM_FAILURESY
許容範囲行に許容される範囲3-5Y
重症度チェック失敗の重症度中等度、重度Y
備考追加のコンテキストを提供するためのメモを追加するテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

主キー

行の値が100%一意で、nullでないことを確認します。

ルールコンポーネント説明例のオプション必須?
行の名前確認する行の名前PART_IDY
ノート追加のコンテキストを提供するための注釈を追加しますテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

スキーマチェック

行の存在とタイプを確認します。

ルールコンポーネント説明例のオプション必須?
行の名前確認する行の名前PART_IDY
存在行の存在をチェックYY
タイプ行のタイプIntegerY
ノート追加のコンテキストを提供するための注釈を追加しますテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

行数

データセットの行数を確認します。

ルールコンポーネント説明例のオプション必須?
行数データセットの行数50Y
ノート追加のコンテキストを提供するための注釈を追加しますテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

スキーマ

データセットのスキーマを確認し、選択した比較タイプがスキーマを尊重していることを確認します(利用可能な比較タイプの詳細は以下を参照してください)。

ルールコンポーネント説明例のオプション必須?
データセットの行とタイプを列挙 - 完全なタイプの一致または行の存在のみを選択できますタイプ: 文字列Y
比較タイプ使用する比較ポリシーを指定しますテキストY
ノート追加のコンテキストを提供するための注釈を追加しますテキストN
問題このチェックが失敗したときに自動的に問題を作成するY, NN

利用可能なスキーマチェックタイプは次のとおりです。

比較許容度
EXACT_MATCH_ORDERED_COLUMNS行の順序、名前、タイプ、そして行数を確認します。
EXACT_MATCH_UNORDERED_COLUMNS行の名前とタイプ、そして行数を確認します。順序は問題ではありません。
COLUMN_ADDITIONS_ALLOWED行の名前とタイプを確認します。追加の行は許可されますが、行が欠落してはなりません。
COLUMN_ADDITIONS_ALLOWED_STRICTCOLUMN_ADDITIONS_ALLOWED と同様ですが、新しい行がデータセットに追加されると、その行がチェックに追加されます。その後、追加された行が欠落することはありません。

おおよその標準偏差

データセットのビルドは容易に外れ値を持つ可能性があるため、真の標準偏差を使用しません。代わりに、我々は中央絶対偏差(MAD)を使用します。これは変動性のより堅牢な尺度です。

MADは、データの中央値からの絶対偏差の中央値として定義されます。値 x_1, ..., x_n で中央値 X がある場合、これは MAD = median(|x_i - X|) を意味します。

中央絶対偏差は、定数を掛けることで標準偏差を近似するために使用できます。 私たちの計算は σ = MAD * 1.4826 です。

詳細な情報については、Median Absolute Deviation - Wikipediaを参照してください。