注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Pipeline Builder でデータを変換し、構造を整える別の方法は、結合を適用することです。結合は、2つのデータセットを結合して、各データセットからすべての行を含むようにします。Pipeline Builder では、結合はすべての行、重複を含めて保持します。
2つのデータセットを結合するには、ワークスペースで最初のデータセットノードを選択し、Union をクリックします。
最初に選択したデータセットは、Left 側のデータセットです。Right 側のデータセットになる別のデータセットノードを選択します。Start をクリックして、結合出力のプレビューページに移動します。
プレビューペインで、Create union をクリックし、出力データセットのプレビューを表示します。
結合には、すべての入力が同じスキーマを持つことが必要です。入力スキーマがすべて一致していない場合、結合は欠落している行のリストとともにエラーメッセージを表示します。
解決するためには、欠落している行への参照を削除するか、入力を再確認します。
結合の作成が完了したら、Apply をクリックして結合をワークフローに追加します。グラフ内で、2つの結合されたデータセットに接続された結合ノードを見ることができます。新しい結合には Union
と名付け、それは元の Correct columns
と Vendor Cut 2 - demo data
データセットの直接の出力です。
結合ノードをクリックして選択し、Edit を選択することで、結合の名前を変更したり編集したりすることができます。
ノード上の白または灰色の円をドラッグして、接続を変更したり、グラフ上のリンクを削除します。結合ノード上の灰色の楕円をクリックして、複数の接続を削除します。
覚えておいてください、結合は右と左のデータセットからすべての行を保持します、重複した行も含めて。重複した行を削除するには、結合出力に Drop duplicates
変換を追加します。