注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
最新のデータセットのビルドが成功したか失敗したかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
Severity | チェックの失敗のSeverity | Moderate, Critical | Y |
Escalate | 連続した失敗後に重大性をエスカレートするかどうか | Y, N | N |
Notes | 追加の文脈を提供するためのメモを追加する | Text | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
ビルドステータスチェックは、最終的なデータセットがビルドされるまでの全体のプロセスのステータスを与える代表的なものになる予定です。その結果、この最終データセットの作成や更新に至る各ステップ全体のステータスを提供します。プロセス中に更新されるか作成される中間データセットがビルドステータスの健康チェックを持っている場合、これらは更新されず、これらの中間データセットすべてのジョブステータスが更新されることに注意してください。
データセット上で最も最近のジョブが成功したか失敗したかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
Severity | チェックの失敗のSeverity | Moderate, Critical | Y |
Escalate | 連続した失敗後に重大性をエスカレートするかどうか | Y, N | N |
Notes | 追加の文脈を提供するためのメモを追加する | Text | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
ジョブステータスチェックは、データセットがリフレッシュされたり作成されたりするビルドから独立してトリガーされます。つまり、該当のデータセットが特定のビルドの最終出力であるかどうかにかかわらず、ジョブステータスチェックは特定のデータセットの各ビルドで実行されます。
ジョブステータスとビルドステータス、どちらを使用するべきか?
データセットがビルドの出力であり、全てのデータセット(このデータセットを含む)での全ビルドが成功したかどうかをチェックしたいときは、ビルドステータスチェックを使用します。データセットがビルドの中間データセットであり、データセットが更新されたかどうかをチェックしたい(ビルド内の他のデータセットが正常に更新されたかどうかにかかわらず)場合は、ジョブステータスチェックを使用します。
データセットがビルドの唯一の出力であれば、ビルドステータスとジョブステータスは同等となります。データセットが中間データセットである場合や、ビルドに複数の出力があり、データセットのジョブが成功する(または実行しない)が、ビルド内の他のジョブが失敗し、ビルドが失敗する場合、ビルドステータスとジョブステータスは異なる可能性があります。
データセットの最新の同期が別のデータベースに対して成功したか失敗したかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
Sync Destination | データセットのどの同期を監視するか、特にデータセットが複数の宛先に同期する場合に関連します。 | phonograph2-cache-worker , jdbc-worker | Y |
Severity | チェックの失敗のSeverity | Moderate, Critical | Y |
Escalate | 連続した失敗後に重大性をエスカレートするかどうか | Y, N | N |
Notes | 追加の文脈を提供するためのメモを追加する | Text | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
ビルドが完了するまでの合計時間が一定の閾値を満たすかどうかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
Build Duration | ビルドが完了するまでの合計時間(日、分、または時間) | 1 と 2 の間, 1 以上, 1 以下, 1 と等しい | N |
Median Deviation | 最近のビルドが完了するまでの中央値からの差(標準偏差でおおよそ) | 1 標準偏差, 10 最近のビルド | N |
Severity | チェックの失敗のSeverity | Moderate, Critical | Y |
Notes | 追加の文脈を提供するためのメモを追加する | Text | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
ビルドステータスと同様に、ビルド時間はビルドの最終出力のみが更新されます。より大きなビルドの一部である中間データセットがビルド時間チェックを持っている場合、これらは更新されません。
データセットの最新のトランザクションの時間とタイムスタンプ列の最大値を比較します。列のタイムスタンプが行が追加されたときを表す場合、これを使用してデータの新鮮度を正確に測定できます。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行名 | 最後の更新の時間を含む列の行名。 | LAST_UPDATED | Y |
Freshness Range | 列の最新のデータを「新鮮」とみなす時間範囲(日、分、または時間) | 1 と 2 の間, 1 以上, 1 以下, 1 と等しい | Y |
Severity | チェックの失敗のSeverity | Moderate, Critical | Y |
Notes | 追加の文脈を提供するためのメモを追加する | Text | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
同期が完了するまでの合計時間が一定の閾値を満たすかどうかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
Sync Destination | データセットのどの同期を監視するか、特にデータセットが複数の宛先に同期する場合に関連します。 | phonograph2-cache-worker , jdbc-worker | Y |
Sync Duration | 同期が完了するまでの合計時間(日、分、または時間) | 1 と 2 の間, 1 以上, 1 以下, 1 と等しい | N |
Median Deviation | 最近の同期が完了するまでの中央値からの差(標準偏差でおおよそ) | 1 標準偏差, 10 最近のビルド | N |
Severity | チェックの失敗のSeverity | Moderate, Critical | Y |
Notes | 追加の文脈を提供するためのメモを追加する | Text | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
データセットの最新の同期の時間と日時列の最大値を比較します。列のタイムスタンプが行が追加されたときを表す場合、これを使用してデータの新鮮度を正確に測定できます。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行名 | 最後の更新の時間を含む列の行名。 | LAST_UPDATED | Y |
Freshness Range | 列の最新のデータを「新鮮」とみなす時間範囲(日、分、または時間) | 1 と 2 の間, 1 以上, 1 以下, 1 と等しい | Y |
Severity | チェックの失敗のSeverity | Moderate, Critical | Y |
Notes | 追加の文脈を提供するためのメモを追加する | Text | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
データセットが更新されてから(つまり、新しいトランザクションがあってから)の合計時間が一定の閾値を満たすかどうかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
Last Updated | データセットが更新されてからの合計時間(日、分、または時間) | 1 と 2 の間, 1 以上, 1 以下, 1 と等しい | N |
Median Deviation | 最近のビルドの更新時間の中央値からの差(標準偏差でおおよそ) | 1 標準偏差, 10 最近のビルド | N |
Ignore Empty Transactions | 更新された時間/中央偏差のチェック時に空のトランザクションを除外するかどうか。 ファイルがないトランザクションは無視されます、まるで存在していなかったかのように。 | Y, N | Y |
Severity | チェックの失敗のSeverity | Moderate, Critical | Y |
Schedule | チェックを自動的にまたは手動で実行するSchedule | Automatic, Custom Schedule | Y |
Notes | 追加の文脈を提供するためのメモを追加する | Text | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
データセットが何らかのデスティネーションに最後に同期されてからの合計時間が一定の閾値を満たすかどうかをチェックします。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
Last Sync | データセットが何らかのデスティネーションに最後に同期されてからの合計時間(日、分、または時間) | 1 と 2 の間、1 以上、1 以下、1 と等しい | N |
Median Deviation | 最近のビルドの中央更新時間からの違い(おおよその標準偏差 単位) | 1 標準偏差、10 最近のビルド | N |
Severity | チェックの失敗の重要度 | Moderate(中程度)、Critical(重大) | Y |
Notes | 追加のコンテキストを提供するためのメモを追加 | テキスト | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
データセットの最新のビューに含まれるファイルの総数をチェックします。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
File Count | データセットの最新のビューに含まれるファイルの総数 | 1 と 2 の間、1 以上、1 以下、1 と等しい | Y |
Severity | チェックの失敗の重要度 | Moderate(中程度)、Critical(重大) | Y |
Median Deviation | 最近のビルドの中央ファイル数からの差(おおよその標準偏差 単位) | 1 標準偏差、10 最近のビルド | N |
Notes | 追加のコンテキストを提供するためのメモを追加 | テキスト | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
データセットのパーティションがパフォーマンス上適切であるかどうかをチェックします。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
Notes | パーティションチェックは以下のように機能します: - ファイルが合計 50 未満の場合、チェックは常に成功します。 - ファイルが合計 50 以上の場合、ファイルの 90% 以上が 96MB 以上のサイズである場合にチェックが成功します。 チェックが失敗した場合、データのファイル間での分割がパフォーマンス上最適でなく、データのパーティションをより適切に行う必要があります。 | 設定するオプションはありません | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
データセット内の行数の合計をチェックします。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
Row Count | データセット内の行数の合計 | 500 と 1000 の間、100 以上、1000 以下、10 と等しい | Y |
Severity | チェックの失敗の重要度 | Moderate(中程度)、Critical(重大) | Y |
Median Deviation | 最近のビルドの中央行数からの差(おおよその標準偏差 単位) | 1 標準偏差、10 最近のビルド | N |
Notes | 追加のコンテキストを提供するためのメモを追加 | テキスト | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
行数チェックが前回成功したチェック結果に対して設定されている場合、チェックは前回成功したチェックで記録された行数に基づいて基準を評価し、失敗したチェックの結果は考慮しません。
ログファイルを除く、1つのトランザクションでコミットされたファイルの総数をチェックします。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
File Size | トランザクションでコミットされたファイルの総数 | 1 と 2 の間、1 以上、1 以下、1 と等しい | N |
Severity | チェックの失敗の重要度 | Moderate(中程度)、Critical(重大) | Y |
Median Deviation | 最近のビルドの中央ファイル数からの差(おおよその標準偏差 単位) | 1 標準偏差、10 最近のビルド | N |
Notes | 追加のコンテキストを提供するためのメモを追加 | テキスト | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
ログファイルを除く、1 つのトランザクションでコミットされたファイルの合計サイズをチェックします。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
File Size | トランザクションでコミットされたすべてのファイルの合計サイズ(MB または KB 単位) | 1 と 2 の間、1 以上、1 以下、1 と等しい | N |
Severity | チェックの失敗の重要度 | Moderate(中程度)、Critical(重大) | Y |
Median Deviation | 最近のビルドの中央ファイルサイズからの差(おおよその標準偏差 単位) | 1 標準偏差、10 最近のビルド | N |
Notes | 追加のコンテキストを提供するためのメモを追加 | テキスト | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
行の値が許可された値のリストと一致するかどうかをチェックします。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
Column Name | 対象となる行の名前 | FIRST_NAME | Y |
Allowed Values | 上記の行に対する許可された可能な値 | John , Jane | Y |
Severity | チェックの失敗の重要度 | Moderate(中程度)、Critical(重大) | Y |
Notes | 追加のコンテキストを提供するためのメモを追加 | テキスト | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
行の値の一意性の割合をチェックします。この割合は おおよその 値です。これは、このチェックが主キー(100%一意の値)かどうかをチェックするのに適していないことを意味します。代わりに、主キーチェック を使用してください。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
Column Name | 対象となる行の名前 | FIRST_NAME | Y |
Unique Percentage | 一意の値が占める行の割合(% 単位) | 10 と 20 の間、50 以上、50 以下、1 と等しい | Y |
Severity | チェックの失敗の重要度 | Moderate(中程度)、Critical(重大) | Y |
Notes | 追加のコンテキストを提供するためのメモを追加 | テキスト | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
行の値が特定の正規表現と一致するかどうかをチェックします。
ルール コンポーネント | 説明 | 例のオプション | 必須か? |
---|---|---|---|
Column Name | 対象となる行の名前 | FIRST_NAME | Y |
Regex | 行が一致するべき正規表現 | ^Pre , post$ , .*any.* | Y |
Severity | チェックの失敗の重要度 | Moderate(中程度)、Critical(重大) | Y |
Notes | 追加のコンテキストを提供するためのメモを追加 | テキスト | N |
Issues | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
このチェックは、2つの行の類似性をパーセンテージで見積もります。正確なチェックを行うには、代わりにdata expectationsを使用してください。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
他のデータセット | チェック対象のデータセット | /Users/John Appleseed/Stock_Prices_Latest | Y |
行 1 名 | チェックが設定されているデータセットの行名 | FIRST_NAME | Y |
行 2 名 | 他のデータセットの行名 | f_name | Y |
パーセンテージマッチ | 2つの行がどの程度一致しているか(% で) | 85% の値が等しい | Y |
備考 | 追加のコンテキストを提供するためのメモを追加する | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
日付行の値の範囲をチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行名 | チェックする行の名前 | LAST_UPDATED | Y |
許容される日付範囲 | 行に許容される日付範囲 | 2017-01-01 – 2018-01-01 | Y |
備考 | 追加のコンテキストを提供するためのメモを追加する | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
行の値のパーセンテージが null であるかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行名 | チェックする行の名前 | CUSTOMER_ID | Y |
Null パーセンテージ | 行の値のパーセンテージが null であるか(% で) | 1 と 2 の間、1 以上、1 以下、1 と等しい | N |
重症度 | チェック失敗の重症度 | 中等度、重度 | Y |
中央値からの偏差 | 最近のビルドの中央の null パーセンテージからの差(おおよその標準偏差で) | 1 標準偏差、10 回の最近のビルド | N |
備考 | 追加のコンテキストを提供するためのメモを追加する | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
数値行の平均が一定の閾値を満たすかどうかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行名 | チェックする数値行の名前 | NUM_FAILURES | Y |
平均 | 行の希望する平均 | 1 と 2 の間、1 以上、1 以下、1 と等しい | N |
重症度 | チェック失敗の重症度 | 中等度、重度 | Y |
前回のチェックからの差異 | 現在の行の平均を、最後にチェックを実行した時の行の平均と比較し、任意の定数を±する | 前回のチェック + 5 より大きい | N |
備考 | 追加のコンテキストを提供するためのメモを追加する | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
数値行の中央値が一定の閾値を満たすかどうかをチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行名 | チェックする数値行の名前 | NUM_FAILURES | Y |
中央値 | 行の希望する中央値 | 1 と 2 の間、1 以上、1 以下、1 と等しい | N |
重症度 | チェック失敗の重症度 | 中等度、重度 | Y |
前回のチェックからの差異 | 現在の行の平均を、最後にチェックを実行した時の行の平均と比較し、任意の定数を±する | 前回のチェック + 5 より大きい | N |
備考 | 追加のコンテキストを提供するためのメモを追加する | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
数値行の値の範囲をチェックします。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行名 | チェックする数値行の名前 | NUM_FAILURES | Y |
許容範囲 | 行に許容される範囲 | 3-5 | Y |
重症度 | チェック失敗の重症度 | 中等度、重度 | Y |
備考 | 追加のコンテキストを提供するためのメモを追加する | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
行の値が100%一意で、nullでないことを確認します。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行の名前 | 確認する行の名前 | PART_ID | Y |
ノート | 追加のコンテキストを提供するための注釈を追加します | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
行の存在とタイプを確認します。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行の名前 | 確認する行の名前 | PART_ID | Y |
存在 | 行の存在をチェック | Y | Y |
タイプ | 行のタイプ | Integer | Y |
ノート | 追加のコンテキストを提供するための注釈を追加します | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
データセットの行数を確認します。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行数 | データセットの行数 | 50 | Y |
ノート | 追加のコンテキストを提供するための注釈を追加します | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
データセットのスキーマを確認し、選択した比較タイプがスキーマを尊重していることを確認します(利用可能な比較タイプの詳細は以下を参照してください)。
ルールコンポーネント | 説明 | 例のオプション | 必須? |
---|---|---|---|
行 | データセットの行とタイプを列挙 - 完全なタイプの一致または行の存在のみを選択できます | タイプ: 文字列 | Y |
比較タイプ | 使用する比較ポリシーを指定します | テキスト | Y |
ノート | 追加のコンテキストを提供するための注釈を追加します | テキスト | N |
問題 | このチェックが失敗したときに自動的に問題を作成する | Y, N | N |
利用可能なスキーマチェックタイプは次のとおりです。
値 | 比較許容度 |
---|---|
EXACT_MATCH_ORDERED_COLUMNS | 行の順序、名前、タイプ、そして行数を確認します。 |
EXACT_MATCH_UNORDERED_COLUMNS | 行の名前とタイプ、そして行数を確認します。順序は問題ではありません。 |
COLUMN_ADDITIONS_ALLOWED | 行の名前とタイプを確認します。追加の行は許可されますが、行が欠落してはなりません。 |
COLUMN_ADDITIONS_ALLOWED_STRICT | COLUMN_ADDITIONS_ALLOWED と同様ですが、新しい行がデータセットに追加されると、その行がチェックに追加されます。その後、追加された行が欠落することはありません。 |
データセットのビルドは容易に外れ値を持つ可能性があるため、真の標準偏差を使用しません。代わりに、我々は中央絶対偏差(MAD)を使用します。これは変動性のより堅牢な尺度です。
MADは、データの中央値からの絶対偏差の中央値として定義されます。値 x_1, ..., x_n
で中央値 X
がある場合、これは MAD = median(|x_i - X|)
を意味します。
中央絶対偏差は、定数を掛けることで標準偏差を近似するために使用できます。
私たちの計算は σ = MAD * 1.4826
です。
詳細な情報については、Median Absolute Deviation - Wikipediaを参照してください。