データ統合Pipeline Builderパイプラインの出力データセットの出力を追加する

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

データセットの出力を追加する

Pipeline Builder では、データセットの出力を追加して、パイプラインのインテグレーションをクリーンで変換されたデータに向けて導くことができます。異なる出力タイプについて詳しく学んでください。

データセット出力を作成する

まず、グラフの右側にある出力パネルで、データセットタイプの隣にある 追加 をクリックします。

出力タイプ

これで新しい出力データセットが作成されました。パイプラインの最初のビルド後、出力データセットはパイプラインと同じフォルダーに作成されます。例えば、Demo Pipeline の Vendor データセット出力は次のファイルパスになります:/Palantir/Pipeline Builder/Demo Pipeline/Vendor

出力データセットの名前を変更するには、名前フィールドをクリックします。行を追加 を選択して出力スキーマに手動で行を追加するか、変換ノードを接続してその出力スキーマを 更新されたスキーマを使用 で使用します。

データセット出力の初期設定を行う

出力スキーマを追加したら、列を検索... フィールドを使用してデータセット内の列をすばやく見つけます。出力スキーマのエラーのみを表示するには、エラーのみを表示 ボタンを切り替えます。

エラーのあるデータセット出力の設定

出力データセットを追加した後、すべての出力に戻る をクリックして、パイプライン内のすべての出力のリストを表示します。各出力のステータスを一目で理解し、出力スキーマが入力変換ノードスキーマと一致しているかどうかを含めます。以下の3つの出力は、出力スキーマが持つことができる異なるステータスを表しています:

  • データセット 1 は必要な行が 5/5 あり、これは入力変換ノードのすべての行が出力データセットにビルドされることを意味します。
  • データセット 2 は必要な行が 3/3 で、2つが削除されています。これは、入力変換ノードに 5 行あるが、出力データセットには 3 行しかビルドされないことを意味します。これは、入力変換ノードに不要な列がある場合に望ましいです。
  • データセット 3 は必要な行が 5/7 あり、これはエラー状態です。2つの欠けている列が入力変換ノードの列にマッピングされるまで、パイプラインをデプロイすることはできません。

編集 をクリックして、出力スキーマをいつでも更新します。

データセット出力のリスト

データセットのスキーマについては、データ統合で詳しく学んでください。

出力設定を構成する

スキーマ設定に加えて、各個別の出力にはカスタマイズ可能なデフォルト設定の多種多様があります。

出力設定の設定 1 出力設定の設定 2

期待値を設定する

出力データセットに期待値を追加して、パイプラインの安定性を強制します。パイプラインのビルド中にチェックが失敗すると、ビルドは失敗します。

出力期待値の設定

書き込みモードの設定

データが将来のデプロイメントでデータセット出力に追加される方法を定義します。

出力書き込みモードの設定

デフォルト: 結果を SNAPSHOT トランザクションとして出力します。SNAPSHOT トランザクションについて詳しく学んでください。

常に行を追加: 結果を APPEND トランザクションとして出力し、行が既存の出力データセットに追加されます。APPEND トランザクションについて詳しく学んでください。

新しい行のみを追加: 結果を APPEND トランザクションとして出力し、新たに見つけたプライマリーキーとして定義された新しい行のみが出力に追加されます。現在のトランザクション内に重複した行が存在する場合、ランダムに1つが削除されます。前回の出力に存在するプライマリーキーを持つ行は削除されます。

Changelog: Object Storage v1 のみに使用します。 APPEND トランザクションの一連の出力を全てのレコードの変更履歴を含むようにします。Changelog データセットについて詳しく学んでください。

Snapshot difference: 結果を SNAPSHOT トランザクションとして出力し、新たに見つけたプライマリーキーを持つ行のみが出力に保持されます。現在のトランザクション内に重複した行が存在する場合、それらは保持されます。他のすべての行は削除されます。

Snapshot replace: 結果を SNAPSHOT トランザクションとして出力し、新しいデータが前回の出力とマージされます。前回の出力に存在するプライマリーキーは新しい行に優先して削除されます。現在のトランザクション内に重複した行が存在する場合、出力はプライマリーキーごとに1行だけになるようにランダムに1つだけが削除されます。

Snapshot replace and remove: これは Snapshot replace に続いて、古いデータから行を選択的に削除するためのフィルター処理ステージが続くものと同等です。 結果を SNAPSHOT トランザクションとして出力し、新しいデータが前回の出力とマージされ、その後に前回のトランザクションから行を削除するためのフィルター処理ステージが続きます。これは、提供されたブール値の post_filtering_column に基づいています。前回の出力に存在するプライマリーキーは post_filtering_column = TRUE の新しい行に優先して削除されます。ただし、現在のトランザクションで post_filtering_column = FALSE の行がある場合、古いデータからの対応する行はフィルター処理されます(ただし、これは post_filtering_column = TRUE の新しい行が保存されることを上書きしません)。現在のトランザクション内に post_filtering_column = TRUE の重複した行が存在する場合、出力はプライマリーキーごとに1行だけになるようにランダムに1つだけが削除されます。

データセットの書き込み形式

データセットの出力ファイル形式は、初回のデプロイメント後に変更することができ、次回のパイプラインのデプロイメント時に適用されます。ファイル形式について詳しく学んでください。

書き込み形式の設定

データセットの上書き

既存のデータセットの所有権を Pipeline Builder の新しい出力に一度だけ付与するアクションです。このアクションは、Pipeline Builder の外部で追加のアクションを必要とする場合があります。

出力データセットの上書き

データセット出力をビルドする

データセット出力をパイプラインに追加したら、必ず変更を保存してください。データの変換とパイプラインワークフローの定義が完了したら、パイプラインをデプロイし、データセット出力をビルドする準備ができています。パイプラインをデプロイした後、最終的なデータセット出力を オントロジーマネージャー のオントロジービルドの基礎として使用します。

パイプラインをデプロイする方法を学んでください。