分析概要ボードデータ型
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。


データ型

Tip

結果のセットを確認し、データ型が期待通りであることを確認します。

union board を使用する際には、ユーザーの列のデータ型に注意してください。互換性のある列の型はキャストされます。具体的な例として、2つのデータセットを使用しましょう。

データセット1

ID (int)Name (string)
555Alice
666Bob

データセット2

ID (long)Name (string)
555Alice
999Chloe

データセット1から始めて、データセット2から位置による行の追加を行うと、結果のセットは以下のようになります:

ID (long)Name (string)
555Alice
666Bob
555Alice
999Chloe

データセット1から始めて、データセット2位置により表示される行を保持すると、結果のセットは以下のようになります:

ID (long)Name (string)
555Alice

開始セットには列 ID が int 型として含まれていたにもかかわらず、結果のセットでは long 型になっていることに注意してください。表示される行を保持するは、spark の Intersect 関数を使用します。

データセット1から始めて、データセット2位置により表示される行を削除すると、結果のセットは以下のようになります:

ID (long)Name (string)
666Bob

同様に、開始セットには列 ID が int 型として含まれていたにもかかわらず、結果のセットでは long 型になっていることに注意してください。表示される行を削除するは、spark の Except 関数を使用します。


パフォーマンスに関する考慮事項

  • 2つのテーブルを結合するためのキーを選択する際には、可能な限り一意の ID (プライマリーキーなど) を使用することを推奨します。外部キーによる結合は、Spark をクラッシュさせる可能性があるため、強く 推奨しません。
  • 複雑な結合や式の後には、データセットとして保存機能を使用して作業を「保存」してから続行することを推奨します。これにより、結合がディスクに永続化されるため、下流のクエリのパフォーマンスが向上します。

結果の確認

データセットを結合した後、結果が期待通りであるかを確認するために、結合セットのテーブルを見ることをお勧めします。アクションリボンでテーブルを選択し、新しく結合されたセットをスクロールします。