データ統合Pipeline Builder変換データの結合

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

データの結合

Pipeline Builder でデータを変換し、構造を整える別の方法は、結合を適用することです。結合は、2つのデータセットを結合して、各データセットからすべての行を含むようにします。Pipeline Builder では、結合はすべての行、重複を含めて保持します。

データセットの選択

2つのデータセットを結合するには、ワークスペースで最初のデータセットノードを選択し、Union をクリックします。

結合選択のスクリーンショット

最初に選択したデータセットは、Left 側のデータセットです。Right 側のデータセットになる別のデータセットノードを選択します。Start をクリックして、結合出力のプレビューページに移動します。

結合選択のスクリーンショット

結合のプレビュー

プレビューペインで、Create union をクリックし、出力データセットのプレビューを表示します。

結合選択のスクリーンショット

結合には、すべての入力が同じスキーマを持つことが必要です。入力スキーマがすべて一致していない場合、結合は欠落している行のリストとともにエラーメッセージを表示します。

解決するためには、欠落している行への参照を削除するか、入力を再確認します。

結合の適用

結合の作成が完了したら、Apply をクリックして結合をワークフローに追加します。グラフ内で、2つの結合されたデータセットに接続された結合ノードを見ることができます。新しい結合には Union と名付け、それは元の Correct columnsVendor Cut 2 - demo data データセットの直接の出力です。

結合選択のスクリーンショット

結合ノードをクリックして選択し、Edit を選択することで、結合の名前を変更したり編集したりすることができます。

ノード上の白または灰色の円をドラッグして、接続を変更したり、グラフ上のリンクを削除します。結合ノード上の灰色の楕円をクリックして、複数の接続を削除します。

覚えておいてください、結合は右と左のデータセットからすべての行を保持します、重複した行も含めて。重複した行を削除するには、結合出力に Drop duplicates 変換を追加します。

変換についての詳細を学ぶ