注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Pipeline Builder では、一意の ID によってデータの追跡、処理、および分析が容易になり、各レコードが個別に識別され適切に処理されることを保証します。このため、レコードに一意の識別子 (ID) を作成する必要があることがよくあります。このセクションでは、単調増加する ID を使用することが最適ではない理由と、一意の ID を生成するための推奨方法が文字列列の連結とその後の SHA256 ハッシュである理由を説明します。
一意の ID を生成する最良の方法は、入力データから文字列列を連結し、連結された文字列の SHA256 ハッシュを作成することです。
Pipeline Builder のトランスフォームパス内でこの方法を使用して一意の ID を生成するには、次の手順に従います。
この方法にはいくつかの利点があります。
文字列列の連結とその後の SHA256 ハッシュを使用することで、スケーラブルで安全かつ一貫性のある一意の ID を生成でき、データパイプラインアプリケーションに最適な選択肢となります。
単調増加する ID は Pipeline Builder ではサポートされていませんが、Spark に精通しているデータエンジニアがよく使用します。単調増加する ID は、1、2、3 などのように順次生成されます。このアプローチには固有のシンプルさがありますが、いくつかの欠点があります。
これらの欠点は、データパイプラインアプリケーションで一意の識別子を生成するための最適なアプローチではないことを示しています。代わりに、前のセクションで詳述したように、文字列列の連結とその後の SHA256 ハッシュを使用することをお勧めします。
ビルドやプレビュー間で一貫性がないことに注意してください。この方法は、一意の列セットを特定できない場合の最後の手段としてのみ使用するべきです。
データ内の一意の行を定義する列セットがない場合、ランダム数のハッシュを使用して ID を作成できます。この方法で ID を作成するには、Pipeline Builder のトランスフォームパス内で以下の手順に従います。