ドキュメントの検索
karat

+

K

APIリファレンス ↗
データ統合Pipeline Builderパイプラインの出力パイプラインのプレビュー
Feedback

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

パイプラインのプレビュー

プレビューパネルでは、パイプライン内の単一の選択されたノードのロジックと行の統計をプレビューすることができます。ノードを選択し、プレビュー をクリックしてパイプラインを実行します。これにより、プレビューパネルが開き、選択されたノードまでの生データセットからロジックが実行されます。

プレビュー選択のためのデータセット上での右クリックを示すスクリーンショット

データセットのデータプレビューパネルのスクリーンショット

また、グラフの右下にあるアイコンをクリックしてプレビューパネルを展開することもできます。次に、データをプレビューするためにノードをクリックします。

データセットのデータプレビューパネルのスクリーンショット

統計情報を表示するには、行を右クリックして統計を表示をクリックします。

データセットのデータプレビューパネルのスクリーンショット

文字列の行の場合、統計表示には値と値の長さのヒストグラム、文字列のケース数、空白、およびnullのインスタンス数が含まれます。数値の行の場合、値の分布が表示され、最小値、最大値、平均値、標準偏差、および異なる値の数などの基本統計情報が表示されます。

行数を表示するには、プレビューパネルの右下で行数を計算を選択します。

プレビュー行数

デフォルトでは、Pipeline Builder はプレビューテーブルで最大 500 行を処理します。この実装では、データセットに 500 行の入力行が必要な場合がありますが、フィルター処理する結合重複削除などの多くの操作では、500 行のプレビューを生成するために追加の行が必要になることがあります。

プレビューを高速化するには、入力サンプリング戦略を追加して、プレビューの計算に使用可能な入力行数を制限します。入力サンプリング戦略はプレビューにのみ影響し、ビルドには影響しません。

行数と統計計算は、サンプリングされた入力全体で実行されます。つまり、フルデータセットが使用される場合、行数と統計はフルビルドと一致しますが、サンプル戦略が入力データセットの一部のみを使用するように設定されている場合、行数と統計はこのサンプル全体でのみ計算されます。

例として、600 行の入力データセットがあるとします。

idvalue
1row_1
2row_2
......
600row_600

プレビューは 500 行に制限されます。これらは必ずしも入力の最初の 500 行ではありません。

idvalue
1row_1
2row_2
......
500row_500

入力戦略に小さなパーセンテージを設定すると、入力が少量のサンプルに制限され、プレビュー計算が高速化されます。プレビューでわずか 6 行が残されているとしましょう。

idvalue
1row_1
12row_12
33row_33
62row_62
126row_126
527row_527

次に、定数列 hello に値 world を追加する変換を使用すると、プレビューでは 6 行のサンプル行に対して変換が計算されます。

idvaluehello
1row_1world
12row_12world
33row_33world
62row_62world
126row_126world
527row_527world

行数を計算すると、6 行が返され、統計はこれら 6 行だけで計算されます。

最終的にパイプラインをビルドすると、サンプリング戦略は影響せず、変換は 600 行の入力行全体で計算されます。