注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
データの期待値は、データセットの入力や出力に適用できる要件です。これらの要件("期待値"と称される)は、データパイプラインの安定性を向上させるチェックを作成するために使用できます。
データの期待値は、各パイプライン出力に設定でき、結果として得られる出力に対する期待値を定義します。現在、Pipeline Builder は主キーと行数の2つのデータ期待値をサポートしています。
期待値のいずれかが満たされない場合、ビルドは失敗します。ジョブ期待値パネルには、どのデータ期待値が成功し、どのデータ期待値が失敗したかが表示されます。
主キーの期待値は、1つまたは複数の行名を提供し、以下を確認します:
特定の行が選択された場合、その下のすべてのエントリが一意であることを確認します。
2つの行が選択された場合、両方の行の組み合わせが一意であることを確認します。
ここでは、id
とtime
という2つの行がデータセットに存在するという例を使用します。
例のデータセット:
id | time |
---|---|
1 | 8pm |
1 | 9pm |
2 | 8pm |
3 | 8pm |
上記の例では、チェックが通ります。これは、1
と8pm
が個々に繰り返されているにもかかわらず、id
とtime
の組み合わせは一意であるからです。
逆に、次の例は失敗します:
id | time |
---|---|
1 | 8pm |
2 | 9pm |
1 | 8pm |
このテーブルでは、1
と8pm
の組み合わせが繰り返されるため、チェックに失敗します。
行数の期待値は、最小および/または最大の行数を提供します。
最小行数が提供されると、期待値は指定された行数以上があることを確認します。
最大行数が提供されると、その行数以下であることを期待値は確認します。