注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Pipeline Builder では、ユニーク ID はデータの追跡、処理、および分析を容易にし、各レコードが個別に識別され、適切に処理されることを保証します。このため、レコードのユニーク識別子(ID)を作成することがよく必要です。このセクションでは、単調に増加する ID の使用が最善の方法ではない理由と、ユニーク ID を生成するための推奨される方法である文字列列の連結に続いて SHA256 ハッシュを使用する理由について説明します。
ユニーク ID を生成する最善の方法は、入力データから文字列列を連結し、連結された文字列の SHA256 ハッシュを作成することです。
Pipeline Builder でこの方法を使用してユニーク ID を生成するには、Pipeline Builder の変換パス内で以下の手順を実行します。
この方法にはいくつかの利点があります。
文字列列の連結に続いて SHA256 ハッシュを使用することで、スケーラブルで安全かつ一貫したユニーク ID を生成できるため、データパイプラインアプリケーションに最適な選択肢となります。
単調増加 ID は Pipeline Builder ではサポートされていませんが、Spark に精通したデータエンジニアによく使用されます。単調増加 ID は、1、2、3 などのように順番に生成されます。このアプローチは本質的にシンプルですが、いくつかの欠点があります。
これらの欠点から、データパイプラインアプリケーションでユニーク識別子を生成するための最善の方法として、単調増加 ID の使用は適切ではありません。代わりに、前のセクションで詳述したように、文字列列の連結に続いて SHA256 ハッシュを使用することをお勧めします。
ビルドやプレビュー間で一貫性が保たれないことに注意してください。この方法は、ユニークな列のセットが特定できない場合の最後の手段として使用すべきです。
データにユニークな行を定義する列のセットがない場合は、ランダムな数のハッシュを使用して ID を作成できます。この方法で ID を作成するには、Pipeline Builder の変換パス内で以下の手順を実行します。