注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Pipeline Builder では、データセットの出力を追加して、パイプラインのインテグレーションをクリーンで変換されたデータに向けて導くことができます。異なる出力タイプについて詳しく学んでください。
まず、グラフの右側にある出力パネルで、データセットタイプの隣にある 追加 をクリックします。
これで新しい出力データセットが作成されました。パイプラインの最初のビルド後、出力データセットはパイプラインと同じフォルダーに作成されます。例えば、Demo Pipeline の Vendor
データセット出力は次のファイルパスになります:/Palantir/Pipeline Builder/Demo Pipeline/Vendor
。
出力データセットの名前を変更するには、名前フィールドをクリックします。行を追加 を選択して出力スキーマに手動で行を追加するか、変換ノードを接続してその出力スキーマを 更新されたスキーマを使用 で使用します。
出力スキーマを追加したら、列を検索... フィールドを使用してデータセット内の列をすばやく見つけます。出力スキーマのエラーのみを表示するには、エラーのみを表示 ボタンを切り替えます。
出力データセットを追加した後、すべての出力に戻る をクリックして、パイプライン内のすべての出力のリストを表示します。各出力のステータスを一目で理解し、出力スキーマが入力変換ノードスキーマと一致しているかどうかを含めます。以下の3つの出力は、出力スキーマが持つことができる異なるステータスを表しています:
編集 をクリックして、出力スキーマをいつでも更新します。
データセットのスキーマについては、データ統合で詳しく学んでください。
スキーマ設定に加えて、各個別の出力にはカスタマイズ可能なデフォルト設定の多種多様があります。
出力データセットに期待値を追加して、パイプラインの安定性を強制します。パイプラインのビルド中にチェックが失敗すると、ビルドは失敗します。
データが将来のデプロイメントでデータセット出力に追加される方法を定義します。
デフォルト: 結果を SNAPSHOT
トランザクションとして出力します。SNAPSHOT
トランザクションについて詳しく学んでください。
常に行を追加: 結果を APPEND
トランザクションとして出力し、行が既存の出力データセットに追加されます。APPEND
トランザクションについて詳しく学んでください。
新しい行のみを追加: 結果を APPEND
トランザクションとして出力し、新たに見つけたプライマリーキーとして定義された新しい行のみが出力に追加されます。現在のトランザクション内に重複した行が存在する場合、ランダムに1つが削除されます。前回の出力に存在するプライマリーキーを持つ行は削除されます。
Changelog: Object Storage v1 のみに使用します。 APPEND
トランザクションの一連の出力を全てのレコードの変更履歴を含むようにします。Changelog データセットについて詳しく学んでください。
Snapshot difference: 結果を SNAPSHOT
トランザクションとして出力し、新たに見つけたプライマリーキーを持つ行のみが出力に保持されます。現在のトランザクション内に重複した行が存在する場合、それらは保持されます。他のすべての行は削除されます。
Snapshot replace: 結果を SNAPSHOT
トランザクションとして出力し、新しいデータが前回の出力とマージされます。前回の出力に存在するプライマリーキーは新しい行に優先して削除されます。現在のトランザクション内に重複した行が存在する場合、出力はプライマリーキーごとに1行だけになるようにランダムに1つだけが削除されます。
Snapshot replace and remove: これは Snapshot replace に続いて、古いデータから行を選択的に削除するためのフィルター処理ステージが続くものと同等です。 結果を SNAPSHOT
トランザクションとして出力し、新しいデータが前回の出力とマージされ、その後に前回のトランザクションから行を削除するためのフィルター処理ステージが続きます。これは、提供されたブール値の post_filtering_column
に基づいています。前回の出力に存在するプライマリーキーは post_filtering_column = TRUE
の新しい行に優先して削除されます。ただし、現在のトランザクションで post_filtering_column = FALSE
の行がある場合、古いデータからの対応する行はフィルター処理されます(ただし、これは post_filtering_column = TRUE
の新しい行が保存されることを上書きしません)。現在のトランザクション内に post_filtering_column = TRUE
の重複した行が存在する場合、出力はプライマリーキーごとに1行だけになるようにランダムに1つだけが削除されます。
データセットの出力ファイル形式は、初回のデプロイメント後に変更することができ、次回のパイプラインのデプロイメント時に適用されます。ファイル形式について詳しく学んでください。
既存のデータセットの所有権を Pipeline Builder の新しい出力に一度だけ付与するアクションです。このアクションは、Pipeline Builder の外部で追加のアクションを必要とする場合があります。
データセット出力をパイプラインに追加したら、必ず変更を保存してください。データの変換とパイプラインワークフローの定義が完了したら、パイプラインをデプロイし、データセット出力をビルドする準備ができています。パイプラインをデプロイした後、最終的なデータセット出力を オントロジーマネージャー のオントロジービルドの基礎として使用します。
パイプラインをデプロイする方法を学んでください。