注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

チェックリファレンス

ステータスチェック

スケジュールステータス

最新のスケジュールビルドが成功したか失敗したかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Escalate	連続した失敗後にSeverityをエスカレートするかどうか	Y, N	N
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

スケジュールステータスチェックは、常に一緒にビルドされるパイプラインまたはデータセットのセットのステータスを表します。その結果、最終データセットの作成または更新に至るさまざまなステップ全体のステータスを提供します。

ビルドステータス

最新のデータセットビルドが成功したか失敗したかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Escalate	連続した失敗後にSeverityをエスカレートするかどうか	Y, N	N
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

ビルドステータスチェックは、最終データセットのビルドに至る全プロセスのステータスを表します。その結果、最終データセットの作成または更新に至るさまざまなステップ全体のステータスを提供します。プロセス中に更新または作成される中間データセットにもビルドステータスのヘルスチェックがある場合、それらは更新されません。ただし、これらの中間データセットのジョブステータスは更新されます。

ジョブステータス

最新のジョブがデータセット上で成功したか失敗したかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Escalate	連続した失敗後にSeverityをエスカレートするかどうか	Y, N	N
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

ジョブステータスチェックは、データセットが更新または作成されるビルドとは独立してトリガーされます。つまり、関係するデータセットが特定のビルドの最終出力であるかどうかに関係なく、特定のデータセットの各ビルドに対してジョブステータスチェックが実行されます。

ジョブステータスまたはビルドステータスチェックを使用するタイミング

データセットがビルドの出力であり、すべてのデータセットでのビルド全体が成功したかどうかを確認したい場合は、ビルドステータスチェックを使用します。データセットがビルドの中間データセットであり、他のデータセットが正常に更新されたかどうかに関係なく、そのデータセットが更新されたかどうかを確認したい場合は、ジョブステータスチェックを使用します。

ビルドステータスとジョブステータスは、データセットがビルドの唯一の出力である場合は同等です。データセットが中間データセットである場合、またはビルドに複数の出力があり、データセットのジョブが成功した（または実行されなかった）場合、他のジョブが失敗してビルドが失敗した場合、それらは異なる可能性があります。

同期ステータス

データセットの他のデータベースへの最新の同期が成功したか失敗したかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Sync destination	データセットのどの同期を監視するか、特にデータセットが複数の宛先に同期される場合に関連。	`phonograph2-cache-worker`, `jdbc-worker`	Y
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Escalate	連続した失敗後にSeverityをエスカレートするかどうか	Y, N	N
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

時間チェック

ビルド時間

ビルドが完了するまでの総時間がある閾値を満たしているかどうかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Build duration	ビルドが完了するまでの総時間（日、分、または時間）	Between `1` and `2`, Greater than or equal to `1`, Less than or equal to `1`, Equal to `1`	N
Median deviation	最近のビルドの中央値からの差異（approximate standard deviations）	`1` Standard deviations, `10` Recent builds	N
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

ビルドステータスチェックの場合と同様に、ビルド時間チェックはビルドの最終出力に対してのみ更新されます。より大きなビルドの一部であり、ビルド時間チェックが設定されている中間データセットは更新されません。

データの鮮度

データセットの最新トランザクションの時間をタイムスタンプ列の最大値と比較します。列のタイムスタンプが行が追加された時点を表している場合、正確なデータの鮮度を測定するために使用できます。

ルールコンポーネント	説明	例示オプション	必須かどうか
Column name	最終更新の時間を含む列の列名	`LAST_UPDATED`	Y
Freshness range	最新データを「新鮮」と見なす時間範囲（日、分、または時間）	Between `1` and `2`, Greater than or equal to `1`, Less than or equal to `1`, Equal to `1`	Y
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

同期時間

同期が完了するまでの総時間がある閾値を満たしているかどうかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Sync destination	データセットのどの同期を監視するか、特にデータセットが複数の宛先に同期される場合に関連。	`phonograph2-cache-worker`, `jdbc-worker`	Y
Sync duration	同期が完了するまでの総時間（日、分、または時間）	Between `1` and `2`, Greater than or equal to `1`, Less than or equal to `1`, Equal to `1`	N
Median deviation	最近の同期の中央値からの差異（approximate standard deviations）	`1` Standard deviations, `10` Recent builds	N
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

同期の鮮度

データセットの最新の同期の時間を、日時列の最大値と比較します。列のタイムスタンプが行が追加された時点を表している場合、正確なデータの鮮度を測定するために使用できます。

ルールコンポーネント	説明	例示オプション	必須かどうか
Column name	最終更新の時間を含む列の列名	`LAST_UPDATED`	Y
Freshness range	最新データを「新鮮」と見なす時間範囲（日、分、または時間）	Between `1` and `2`, Greater than or equal to `1`, Less than or equal to `1`, Equal to `1`	Y
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

最終更新からの経過時間

データセットが更新された（新しいトランザクションがあった）からの総時間がある閾値を満たしているかどうかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Last updated	データセットが更新されたからの総時間（日、分、または時間）	Between `1` and `2`, Greater than or equal to `1`, Less than or equal to `1`, Equal to `1`	N
Median deviation	最近のビルドの中央値からの差異（approximate standard deviations）	`1` Standard deviations, `10` Recent builds	N
Ignore empty transactions	更新後の時間/中央値の差異をチェックする際に空のトランザクションを除外するかどうか。ファイルのないトランザクションは存在しなかったかのように無視される	Y, N	Y
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Schedule	Schedule チェックを自動的または手動で実行	Automatic, Custom Schedule	Y
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

最終同期からの経過時間

データセットが最後にある宛先に同期されてからの総時間がある閾値を満たしているかどうかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Last Sync	データセットが最後にある宛先に同期されてからの総時間（日、分、または時間）	Between `1` and `2`, Greater than or equal to `1`, Less than or equal to `1`, Equal to `1`	N
Median deviation	最近のビルドの中央値からの差異（approximate standard deviations）	`1` Standard deviations, `10` Recent builds	N
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

サイズチェック

データセットファイル数

データセットの最新のviewに含まれるファイルの総数をチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
File count	データセットの最新ビューに含まれるファイルの総数	Between `1` and `2`, Greater than or equal to `1`, Less than or equal to `1`, Equal to `1`	Y
Severity	チェック失敗のSeverity	Moderate, Critical	Y
Median deviation	最近のビルドのファイル数の中央値からの差異（approximate standard deviations）	`1` Standard deviations, `10` Recent builds	N
Notes	追加のコンテキストを提供するメモを追加	Text	N
Issues	このチェックが失敗したときに自動的にcreate an issue	Y, N	N

データセットパーティション

データセットのパーティション分割が効率的であるかどうかをチェックします。

ルールコンポーネント	説明	例示オプション	必須かどうか
Notes	パーティションチェックは以下のように機能します： - 合計ファイル数が 50 未満の場合、チェックは常に合格します。 - 合計ファイル数が 50 以上の場合、ファイルの少なくとも 90% が 96MB 以上であればチェックは合格します。 <

列の正規表現

列の値が特定の正規表現と一致するかどうかを確認します。

ルールコンポーネント	説明	例	必須か
列名	チェックする列名	`FIRST_NAME`	Y
正規表現	列が一致すべき正規表現	`^Pre`, `post$`, `.any.`	Y
重大度	チェック失敗時の重大度	Moderate, Critical	Y
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

おおよその列関係 (非推奨)

このチェックは 2 つの列間の類似性をパーセンテージで推定します。正確なチェックを行うには、代わりにデータの期待値を使用してください。

ルールコンポーネント	説明	例	必須か
他のデータセット	チェックするデータセット	`/Users/John Appleseed/Stock_Prices_Latest`	Y
列 1 名	チェックが設定されているデータセットの列名	`FIRST_NAME`	Y
列 2 名	他のデータセットの列名	`f_name`	Y
一致率	2 つの列がどの程度一致する必要があるか (パーセンテージで)	`85%` の値が等しい	Y
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

日付範囲

日付列の値の範囲をチェックします。

ルールコンポーネント	説明	例	必須か
列名	チェックする列の名前	`LAST_UPDATED`	Y
許可される日付範囲	列の許可される日付範囲	`2017-01-01 – 2018-01-01`	Y
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

Null パーセンテージ

列の値が null である割合をチェックします。

ルールコンポーネント	説明	例	必須か
列名	チェックする列の名前	`CUSTOMER_ID`	Y
Null パーセンテージ	列の値が null である割合 (パーセンテージで)	`1` と `2` の間、 `1` 以上、 `1` 以下、 `1` と等しい	N
重大度	チェック失敗時の重大度	Moderate, Critical	Y
中央値の偏差	最近のビルドの中央値 null パーセンテージからのおおよその標準偏差の差	`1` 標準偏差、 `10` 最近のビルド	N
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

数値平均

数値列の平均がしきい値を満たしているかどうかを確認します。

ルールコンポーネント	説明	例	必須か
列名	チェックする数値列の名前	`NUM_FAILURES`	Y
平均	列の望ましい平均	`1` と `2` の間、 `1` 以上、 `1` 以下、 `1` と等しい	N
重大度	チェック失敗時の重大度	Moderate, Critical	Y
前回のチェックからの差異	列の現在の平均を最後のチェック実行時の列の平均と比較し、± オプション定数を加える	前回のチェックより大きい + `5`	N
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

数値中央値

数値列の中央値がしきい値を満たしているかどうかを確認します。

ルールコンポーネント	説明	例	必須か
列名	チェックする数値列の名前	`NUM_FAILURES`	Y
中央値	列の望ましい中央値	`1` と `2` の間、 `1` 以上、 `1` 以下、 `1` と等しい	N
重大度	チェック失敗時の重大度	Moderate, Critical	Y
前回のチェックからの差異	列の現在の平均を最後のチェック実行時の列の平均と比較し、± オプション定数を加える	前回のチェックより大きい + `5`	N
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

数値範囲

数値列の値の範囲をチェックします。

ルールコンポーネント	説明	例	必須か
列名	チェックする数値列の名前	`NUM_FAILURES`	Y
許可される範囲	列の許可される範囲	`3-5`	Y
重大度	チェック失敗時の重大度	Moderate, Critical	Y
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

主キー

列の値が 100% 一意かつ null でないことを確認します。

ルールコンポーネント	説明	例	必須か
列名	チェックする列の名前	`PART_ID`	Y
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

スキーマチェック

列

列の存在とタイプをチェックします。

ルールコンポーネント	説明	例	必須か
列名	チェックする列の名前	`PART_ID`	Y
存在するか	列の存在を確認	Y	Y
タイプ	列のタイプ	`Integer`	Y
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

列数

データセット内の列の総数をチェックします。

ルールコンポーネント	説明	例	必須か
列数	データセット内の列の総数	`50`	Y
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

スキーマ

スキーマチェックは、選択した比較タイプが尊重されていることを検証します（以下で利用可能なものの詳細を参照）。

ルールコンポーネント	説明	例	必須か
列	データセットの列とタイプを列挙 - 完全なタイプ一致または列の存在のみを選択できる	タイプ: String	Y
比較タイプ	使用される比較ポリシーを指定	Text	Y
ノート	追加のコンテキストを提供するためのノートを追加	Text	N
Issues	このチェックが失敗した場合に自動的にissue を作成	Y, N	N

利用可能なスキーマチェックタイプは以下の通りです：

値	比較許容
`EXACT_MATCH_ORDERED_COLUMNS`	列の順序、名前、タイプ、および列数をチェックします。
`EXACT_MATCH_UNORDERED_COLUMNS`	列の名前とタイプ、および列数をチェックします。順序は関係ありません。
`COLUMN_ADDITIONS_ALLOWED`	列の名前とタイプをチェックします。追加の列は許可されますが、列が欠けることはできません。
`COLUMN_ADDITIONS_ALLOWED_STRICT`	`COLUMN_ADDITIONS_ALLOWED`と同様です。しかし、データセットに新しい列が追加されるたびに、その列がチェックに追加されます。追加された列はその後欠けることはできません。

おおよその標準偏差

データセットビルドには外れ値が簡単に含まれるため、真の標準偏差は使用しません。代わりに、より堅牢な変動性の指標である中央値絶対偏差 (MAD) を使用します。

MAD はデータの中央値からの絶対偏差の中央値として定義されます。値 x_1, ..., x_n が中央値 X の場合、これは MAD = median(|x_i - X|) となります。

中央値絶対偏差は定数を掛けることで標準偏差をおおよそ近似するために使用されます。

我々の計算は σ = MAD * 1.4826 です。

詳細な情報については Median Absolute Deviation - Wikipedia ↗ を参照してください。