注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

チェックリファレンス

ステータスチェック

スケジュールステータス

最新のスケジュールビルドが成功したか失敗したかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Severityチェック失敗のSeverityModerate, CriticalY
Escalate連続した失敗後にSeverityをエスカレートするかどうかY, NN
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

スケジュールステータスチェックは、常に一緒にビルドされるパイプラインまたはデータセットのセットのステータスを表します。その結果、最終データセットの作成または更新に至るさまざまなステップ全体のステータスを提供します。

ビルドステータス

最新のデータセットビルドが成功したか失敗したかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Severityチェック失敗のSeverityModerate, CriticalY
Escalate連続した失敗後にSeverityをエスカレートするかどうかY, NN
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

ビルドステータスチェックは、最終データセットのビルドに至る全プロセスのステータスを表します。その結果、最終データセットの作成または更新に至るさまざまなステップ全体のステータスを提供します。プロセス中に更新または作成される中間データセットにもビルドステータスのヘルスチェックがある場合、それらは更新されません。ただし、これらの中間データセットのジョブステータスは更新されます。

ジョブステータス

最新のジョブがデータセット上で成功したか失敗したかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Severityチェック失敗のSeverityModerate, CriticalY
Escalate連続した失敗後にSeverityをエスカレートするかどうかY, NN
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

ジョブステータスチェックは、データセットが更新または作成されるビルドとは独立してトリガーされます。つまり、関係するデータセットが特定のビルドの最終出力であるかどうかに関係なく、特定のデータセットの各ビルドに対してジョブステータスチェックが実行されます。

ジョブステータスまたはビルドステータスチェックを使用するタイミング

データセットがビルドの出力であり、すべてのデータセットでのビルド全体が成功したかどうかを確認したい場合は、ビルドステータスチェックを使用します。データセットがビルドの中間データセットであり、他のデータセットが正常に更新されたかどうかに関係なく、そのデータセットが更新されたかどうかを確認したい場合は、ジョブステータスチェックを使用します。

ビルドステータスとジョブステータスは、データセットがビルドの唯一の出力である場合は同等です。データセットが中間データセットである場合、またはビルドに複数の出力があり、データセットのジョブが成功した(または実行されなかった)場合、他のジョブが失敗してビルドが失敗した場合、それらは異なる可能性があります。

同期ステータス

データセットの他のデータベースへの最新の同期が成功したか失敗したかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Sync destinationデータセットのどの同期を監視するか、特にデータセットが複数の宛先に同期される場合に関連。phonograph2-cache-worker, jdbc-workerY
Severityチェック失敗のSeverityModerate, CriticalY
Escalate連続した失敗後にSeverityをエスカレートするかどうかY, NN
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

時間チェック

ビルド時間

ビルドが完了するまでの総時間がある閾値を満たしているかどうかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Build durationビルドが完了するまでの総時間(日、分、または時間)Between 1 and 2, Greater than or equal to 1, Less than or equal to 1, Equal to 1N
Median deviation最近のビルドの中央値からの差異(approximate standard deviations1 Standard deviations, 10 Recent buildsN
Severityチェック失敗のSeverityModerate, CriticalY
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

ビルドステータスチェックの場合と同様に、ビルド時間チェックはビルドの最終出力に対してのみ更新されます。より大きなビルドの一部であり、ビルド時間チェックが設定されている中間データセットは更新されません。

データの鮮度

データセットの最新トランザクションの時間をタイムスタンプ列の最大値と比較します。列のタイムスタンプが行が追加された時点を表している場合、正確なデータの鮮度を測定するために使用できます。

ルールコンポーネント説明例示オプション必須かどうか
Column name最終更新の時間を含む列の列名LAST_UPDATEDY
Freshness range最新データを「新鮮」と見なす時間範囲(日、分、または時間)Between 1 and 2, Greater than or equal to 1, Less than or equal to 1, Equal to 1Y
Severityチェック失敗のSeverityModerate, CriticalY
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

同期時間

同期が完了するまでの総時間がある閾値を満たしているかどうかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Sync destinationデータセットのどの同期を監視するか、特にデータセットが複数の宛先に同期される場合に関連。phonograph2-cache-worker, jdbc-workerY
Sync duration同期が完了するまでの総時間(日、分、または時間)Between 1 and 2, Greater than or equal to 1, Less than or equal to 1, Equal to 1N
Median deviation最近の同期の中央値からの差異(approximate standard deviations1 Standard deviations, 10 Recent buildsN
Severityチェック失敗のSeverityModerate, CriticalY
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

同期の鮮度

データセットの最新の同期の時間を、日時列の最大値と比較します。列のタイムスタンプが行が追加された時点を表している場合、正確なデータの鮮度を測定するために使用できます。

ルールコンポーネント説明例示オプション必須かどうか
Column name最終更新の時間を含む列の列名LAST_UPDATEDY
Freshness range最新データを「新鮮」と見なす時間範囲(日、分、または時間)Between 1 and 2, Greater than or equal to 1, Less than or equal to 1, Equal to 1Y
Severityチェック失敗のSeverityModerate, CriticalY
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

最終更新からの経過時間

データセットが更新された(新しいトランザクションがあった)からの総時間がある閾値を満たしているかどうかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Last updatedデータセットが更新されたからの総時間(日、分、または時間)Between 1 and 2, Greater than or equal to 1, Less than or equal to 1, Equal to 1N
Median deviation最近のビルドの中央値からの差異(approximate standard deviations1 Standard deviations, 10 Recent buildsN
Ignore empty transactions更新後の時間/中央値の差異をチェックする際に空のトランザクションを除外するかどうか。ファイルのないトランザクションは存在しなかったかのように無視されるY, NY
Severityチェック失敗のSeverityModerate, CriticalY
ScheduleSchedule チェックを自動的または手動で実行Automatic, Custom ScheduleY
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

最終同期からの経過時間

データセットが最後にある宛先に同期されてからの総時間がある閾値を満たしているかどうかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Last Syncデータセットが最後にある宛先に同期されてからの総時間(日、分、または時間)Between 1 and 2, Greater than or equal to 1, Less than or equal to 1, Equal to 1N
Median deviation最近のビルドの中央値からの差異(approximate standard deviations1 Standard deviations, 10 Recent buildsN
Severityチェック失敗のSeverityModerate, CriticalY
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

サイズチェック

データセットファイル数

データセットの最新のviewに含まれるファイルの総数をチェックします。

ルールコンポーネント説明例示オプション必須かどうか
File countデータセットの最新ビューに含まれるファイルの総数Between 1 and 2, Greater than or equal to 1, Less than or equal to 1, Equal to 1Y
Severityチェック失敗のSeverityModerate, CriticalY
Median deviation最近のビルドのファイル数の中央値からの差異(approximate standard deviations1 Standard deviations, 10 Recent buildsN
Notes追加のコンテキストを提供するメモを追加TextN
Issuesこのチェックが失敗したときに自動的にcreate an issueY, NN

データセットパーティション

データセットのパーティション分割が効率的であるかどうかをチェックします。

ルールコンポーネント説明例示オプション必須かどうか
Notesパーティションチェックは以下のように機能します:
- 合計ファイル数が 50 未満の場合、チェックは常に合格します。
- 合計ファイル数が 50 以上の場合、ファイルの少なくとも 90% が 96MB 以上であればチェックは合格します。
<

列の正規表現

列の値が特定の正規表現と一致するかどうかを確認します。

ルールコンポーネント説明必須か
列名チェックする列名FIRST_NAMEY
正規表現列が一致すべき正規表現^Pre, post$, .*any.*Y
重大度チェック失敗時の重大度Moderate, CriticalY
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

おおよその列関係 (非推奨)

このチェックは 2 つの列間の類似性をパーセンテージで推定します。正確なチェックを行うには、代わりにデータの期待値を使用してください。

ルールコンポーネント説明必須か
他のデータセットチェックするデータセット/Users/John Appleseed/Stock_Prices_LatestY
列 1 名チェックが設定されているデータセットの列名FIRST_NAMEY
列 2 名他のデータセットの列名f_nameY
一致率2 つの列がどの程度一致する必要があるか (パーセンテージで)85% の値が等しいY
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

日付範囲

日付列の値の範囲をチェックします。

ルールコンポーネント説明必須か
列名チェックする列の名前LAST_UPDATEDY
許可される日付範囲列の許可される日付範囲2017-01-01 – 2018-01-01Y
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

Null パーセンテージ

列の値が null である割合をチェックします。

ルールコンポーネント説明必須か
列名チェックする列の名前CUSTOMER_IDY
Null パーセンテージ列の値が null である割合 (パーセンテージで)12 の間、 1 以上、 1 以下、 1 と等しいN
重大度チェック失敗時の重大度Moderate, CriticalY
中央値の偏差最近のビルドの中央値 null パーセンテージからのおおよその標準偏差の差1 標準偏差、 10 最近のビルドN
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

数値平均

数値列の平均がしきい値を満たしているかどうかを確認します。

ルールコンポーネント説明必須か
列名チェックする数値列の名前NUM_FAILURESY
平均列の望ましい平均12 の間、 1 以上、 1 以下、 1 と等しいN
重大度チェック失敗時の重大度Moderate, CriticalY
前回のチェックからの差異列の現在の平均を最後のチェック実行時の列の平均と比較し、± オプション定数を加える前回のチェックより大きい + 5N
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

数値中央値

数値列の中央値がしきい値を満たしているかどうかを確認します。

ルールコンポーネント説明必須か
列名チェックする数値列の名前NUM_FAILURESY
中央値列の望ましい中央値12 の間、 1 以上、 1 以下、 1 と等しいN
重大度チェック失敗時の重大度Moderate, CriticalY
前回のチェックからの差異列の現在の平均を最後のチェック実行時の列の平均と比較し、± オプション定数を加える前回のチェックより大きい + 5N
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

数値範囲

数値列の値の範囲をチェックします。

ルールコンポーネント説明必須か
列名チェックする数値列の名前NUM_FAILURESY
許可される範囲列の許可される範囲3-5Y
重大度チェック失敗時の重大度Moderate, CriticalY
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

主キー

列の値が 100% 一意かつ null でないことを確認します。

ルールコンポーネント説明必須か
列名チェックする列の名前PART_IDY
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

スキーマチェック

列の存在とタイプをチェックします。

ルールコンポーネント説明必須か
列名チェックする列の名前PART_IDY
存在するか列の存在を確認YY
タイプ列のタイプIntegerY
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

列数

データセット内の列の総数をチェックします。

ルールコンポーネント説明必須か
列数データセット内の列の総数50Y
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

スキーマ

スキーマチェックは、選択した比較タイプが尊重されていることを検証します(以下で利用可能なものの詳細を参照)。

ルールコンポーネント説明必須か
データセットの列とタイプを列挙 - 完全なタイプ一致または列の存在のみを選択できるタイプ: StringY
比較タイプ使用される比較ポリシーを指定TextY
ノート追加のコンテキストを提供するためのノートを追加TextN
Issuesこのチェックが失敗した場合に自動的にissue を作成Y, NN

利用可能なスキーマチェックタイプは以下の通りです:

比較許容
EXACT_MATCH_ORDERED_COLUMNS列の順序、名前、タイプ、および列数をチェックします。
EXACT_MATCH_UNORDERED_COLUMNS列の名前とタイプ、および列数をチェックします。順序は関係ありません。
COLUMN_ADDITIONS_ALLOWED列の名前とタイプをチェックします。追加の列は許可されますが、列が欠けることはできません。
COLUMN_ADDITIONS_ALLOWED_STRICTCOLUMN_ADDITIONS_ALLOWEDと同様です。しかし、データセットに新しい列が追加されるたびに、その列がチェックに追加されます。追加された列はその後欠けることはできません。

おおよその標準偏差

データセットビルドには外れ値が簡単に含まれるため、真の標準偏差は使用しません。代わりに、より堅牢な変動性の指標である中央値絶対偏差 (MAD) を使用します。

MAD はデータの中央値からの絶対偏差の中央値として定義されます。値 x_1, ..., x_n が中央値 X の場合、これは MAD = median(|x_i - X|) となります。

中央値絶対偏差は定数を掛けることで標準偏差をおおよそ近似するために使用されます。

我々の計算は σ = MAD * 1.4826 です。

詳細な情報については Median Absolute Deviation - Wikipedia ↗ を参照してください。