注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
最新のスケジュールビルドが成功したか失敗したかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Escalate | 連続した失敗後にSeverityをエスカレートするかどうか | Y, N | N |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
スケジュールステータスチェックは、常に一緒にビルドされるパイプラインまたはデータセットのセットのステータスを表します。その結果、最終データセットの作成または更新に至るさまざまなステップ全体のステータスを提供します。
最新のデータセットビルドが成功したか失敗したかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Escalate | 連続した失敗後にSeverityをエスカレートするかどうか | Y, N | N |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
ビルドステータスチェックは、最終データセットのビルドに至る全プロセスのステータスを表します。その結果、最終データセットの作成または更新に至るさまざまなステップ全体のステータスを提供します。プロセス中に更新または作成される中間データセットにもビルドステータスのヘルスチェックがある場合、それらは更新されません。ただし、これらの中間データセットのジョブステータスは更新されます。
最新のジョブがデータセット上で成功したか失敗したかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Escalate | 連続した失敗後にSeverityをエスカレートするかどうか | Y, N | N |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
ジョブステータスチェックは、データセットが更新または作成されるビルドとは独立してトリガーされます。つまり、関係するデータセットが特定のビルドの最終出力であるかどうかに関係なく、特定のデータセットの各ビルドに対してジョブステータスチェックが実行されます。
データセットがビルドの出力であり、すべてのデータセットでのビルド全体が成功したかどうかを確認したい場合は、ビルドステータスチェックを使用します。データセットがビルドの中間データセットであり、他のデータセットが正常に更新されたかどうかに関係なく、そのデータセットが更新されたかどうかを確認したい場合は、ジョブステータスチェックを使用します。
ビルドステータスとジョブステータスは、データセットがビルドの唯一の出力である場合は同等です。データセットが中間データセットである場合、またはビルドに複数の出力があり、データセットのジョブが成功した(または実行されなかった)場合、他のジョブが失敗してビルドが失敗した場合、それらは異なる可能性があります。
データセットの他のデータベースへの最新の同期が成功したか失敗したかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Sync destination | データセットのどの同期を監視するか、特にデータセットが複数の宛先に同期される場合に関連。 | phonograph2-cache-worker , jdbc-worker | Y |
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Escalate | 連続した失敗後にSeverityをエスカレートするかどうか | Y, N | N |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
ビルドが完了するまでの総時間がある閾値を満たしているかどうかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Build duration | ビルドが完了するまでの総時間(日、分、または時間) | Between 1 and 2 , Greater than or equal to 1 , Less than or equal to 1 , Equal to 1 | N |
Median deviation | 最近のビルドの中央値からの差異(approximate standard deviations) | 1 Standard deviations, 10 Recent builds | N |
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
ビルドステータスチェックの場合と同様に、ビルド時間チェックはビルドの最終出力に対してのみ更新されます。より大きなビルドの一部であり、ビルド時間チェックが設定されている中間データセットは更新されません。
データセットの最新トランザクションの時間をタイムスタンプ列の最大値と比較します。列のタイムスタンプが行が追加された時点を表している場合、正確なデータの鮮度を測定するために使用できます。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Column name | 最終更新の時間を含む列の列名 | LAST_UPDATED | Y |
Freshness range | 最新データを「新鮮」と見なす時間範囲(日、分、または時間) | Between 1 and 2 , Greater than or equal to 1 , Less than or equal to 1 , Equal to 1 | Y |
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
同期が完了するまでの総時間がある閾値を満たしているかどうかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Sync destination | データセットのどの同期を監視するか、特にデータセットが複数の宛先に同期される場合に関連。 | phonograph2-cache-worker , jdbc-worker | Y |
Sync duration | 同期が完了するまでの総時間(日、分、または時間) | Between 1 and 2 , Greater than or equal to 1 , Less than or equal to 1 , Equal to 1 | N |
Median deviation | 最近の同期の中央値からの差異(approximate standard deviations) | 1 Standard deviations, 10 Recent builds | N |
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
データセットの最新の同期の時間を、日時列の最大値と比較します。列のタイムスタンプが行が追加された時点を表している場合、正確なデータの鮮度を測定するために使用できます。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Column name | 最終更新の時間を含む列の列名 | LAST_UPDATED | Y |
Freshness range | 最新データを「新鮮」と見なす時間範囲(日、分、または時間) | Between 1 and 2 , Greater than or equal to 1 , Less than or equal to 1 , Equal to 1 | Y |
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
データセットが更新された(新しいトランザクションがあった)からの総時間がある閾値を満たしているかどうかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Last updated | データセットが更新されたからの総時間(日、分、または時間) | Between 1 and 2 , Greater than or equal to 1 , Less than or equal to 1 , Equal to 1 | N |
Median deviation | 最近のビルドの中央値からの差異(approximate standard deviations) | 1 Standard deviations, 10 Recent builds | N |
Ignore empty transactions | 更新後の時間/中央値の差異をチェックする際に空のトランザクションを除外するかどうか。ファイルのないトランザクションは存在しなかったかのように無視される | Y, N | Y |
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Schedule | Schedule チェックを自動的または手動で実行 | Automatic, Custom Schedule | Y |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
データセットが最後にある宛先に同期されてからの総時間がある閾値を満たしているかどうかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Last Sync | データセットが最後にある宛先に同期されてからの総時間(日、分、または時間) | Between 1 and 2 , Greater than or equal to 1 , Less than or equal to 1 , Equal to 1 | N |
Median deviation | 最近のビルドの中央値からの差異(approximate standard deviations) | 1 Standard deviations, 10 Recent builds | N |
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
データセットの最新のviewに含まれるファイルの総数をチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
File count | データセットの最新ビューに含まれるファイルの総数 | Between 1 and 2 , Greater than or equal to 1 , Less than or equal to 1 , Equal to 1 | Y |
Severity | チェック失敗のSeverity | Moderate, Critical | Y |
Median deviation | 最近のビルドのファイル数の中央値からの差異(approximate standard deviations) | 1 Standard deviations, 10 Recent builds | N |
Notes | 追加のコンテキストを提供するメモを追加 | Text | N |
Issues | このチェックが失敗したときに自動的にcreate an issue | Y, N | N |
データセットのパーティション分割が効率的であるかどうかをチェックします。
ルールコンポーネント | 説明 | 例示オプション | 必須かどうか |
---|---|---|---|
Notes | パーティションチェックは以下のように機能します: - 合計ファイル数が 50 未満の場合、チェックは常に合格します。 - 合計ファイル数が 50 以上の場合、ファイルの少なくとも 90% が 96MB 以上であればチェックは合格します。 < |
列の値が特定の正規表現と一致するかどうかを確認します。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列名 | チェックする列名 | FIRST_NAME | Y |
正規表現 | 列が一致すべき正規表現 | ^Pre , post$ , .*any.* | Y |
重大度 | チェック失敗時の重大度 | Moderate, Critical | Y |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
このチェックは 2 つの列間の類似性をパーセンテージで推定します。正確なチェックを行うには、代わりにデータの期待値を使用してください。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
他のデータセット | チェックするデータセット | /Users/John Appleseed/Stock_Prices_Latest | Y |
列 1 名 | チェックが設定されているデータセットの列名 | FIRST_NAME | Y |
列 2 名 | 他のデータセットの列名 | f_name | Y |
一致率 | 2 つの列がどの程度一致する必要があるか (パーセンテージで) | 85% の値が等しい | Y |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
日付列の値の範囲をチェックします。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列名 | チェックする列の名前 | LAST_UPDATED | Y |
許可される日付範囲 | 列の許可される日付範囲 | 2017-01-01 – 2018-01-01 | Y |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
列の値が null である割合をチェックします。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列名 | チェックする列の名前 | CUSTOMER_ID | Y |
Null パーセンテージ | 列の値が null である割合 (パーセンテージで) | 1 と 2 の間、 1 以上、 1 以下、 1 と等しい | N |
重大度 | チェック失敗時の重大度 | Moderate, Critical | Y |
中央値の偏差 | 最近のビルドの中央値 null パーセンテージからのおおよその標準偏差の差 | 1 標準偏差、 10 最近のビルド | N |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
数値列の平均がしきい値を満たしているかどうかを確認します。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列名 | チェックする数値列の名前 | NUM_FAILURES | Y |
平均 | 列の望ましい平均 | 1 と 2 の間、 1 以上、 1 以下、 1 と等しい | N |
重大度 | チェック失敗時の重大度 | Moderate, Critical | Y |
前回のチェックからの差異 | 列の現在の平均を最後のチェック実行時の列の平均と比較し、± オプション定数を加える | 前回のチェックより大きい + 5 | N |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
数値列の中央値がしきい値を満たしているかどうかを確認します。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列名 | チェックする数値列の名前 | NUM_FAILURES | Y |
中央値 | 列の望ましい中央値 | 1 と 2 の間、 1 以上、 1 以下、 1 と等しい | N |
重大度 | チェック失敗時の重大度 | Moderate, Critical | Y |
前回のチェックからの差異 | 列の現在の平均を最後のチェック実行時の列の平均と比較し、± オプション定数を加える | 前回のチェックより大きい + 5 | N |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
数値列の値の範囲をチェックします。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列名 | チェックする数値列の名前 | NUM_FAILURES | Y |
許可される範囲 | 列の許可される範囲 | 3-5 | Y |
重大度 | チェック失敗時の重大度 | Moderate, Critical | Y |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
列の値が 100% 一意かつ null でないことを確認します。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列名 | チェックする列の名前 | PART_ID | Y |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
列の存在とタイプをチェックします。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列名 | チェックする列の名前 | PART_ID | Y |
存在するか | 列の存在を確認 | Y | Y |
タイプ | 列のタイプ | Integer | Y |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
データセット内の列の総数をチェックします。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列数 | データセット内の列の総数 | 50 | Y |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
スキーマチェックは、選択した比較タイプが尊重されていることを検証します(以下で利用可能なものの詳細を参照)。
ルールコンポーネント | 説明 | 例 | 必須か |
---|---|---|---|
列 | データセットの列とタイプを列挙 - 完全なタイプ一致または列の存在のみを選択できる | タイプ: String | Y |
比較タイプ | 使用される比較ポリシーを指定 | Text | Y |
ノート | 追加のコンテキストを提供するためのノートを追加 | Text | N |
Issues | このチェックが失敗した場合に自動的にissue を作成 | Y, N | N |
利用可能なスキーマチェックタイプは以下の通りです:
値 | 比較許容 |
---|---|
EXACT_MATCH_ORDERED_COLUMNS | 列の順序、名前、タイプ、および列数をチェックします。 |
EXACT_MATCH_UNORDERED_COLUMNS | 列の名前とタイプ、および列数をチェックします。順序は関係ありません。 |
COLUMN_ADDITIONS_ALLOWED | 列の名前とタイプをチェックします。追加の列は許可されますが、列が欠けることはできません。 |
COLUMN_ADDITIONS_ALLOWED_STRICT | COLUMN_ADDITIONS_ALLOWED と同様です。しかし、データセットに新しい列が追加されるたびに、その列がチェックに追加されます。追加された列はその後欠けることはできません。 |
データセットビルドには外れ値が簡単に含まれるため、真の標準偏差は使用しません。代わりに、より堅牢な変動性の指標である中央値絶対偏差 (MAD) を使用します。
MAD はデータの中央値からの絶対偏差の中央値として定義されます。値 x_1, ..., x_n
が中央値 X
の場合、これは MAD = median(|x_i - X|)
となります。
中央値絶対偏差は定数を掛けることで標準偏差をおおよそ近似するために使用されます。
我々の計算は σ = MAD * 1.4826
です。
詳細な情報については Median Absolute Deviation - Wikipedia ↗ を参照してください。