注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Pipeline Builder は、Foundry でデータを変換するための柔軟で強力で使いやすいインターフェースを提供します。既存のツール(例えば、Spark や SQL など)でデータ変換を書くことは、非コーダーや経験豊富なソフトウェア開発者にとっても難しく、エラーが発生しやすいものです。また、既存のツールは、特定の実行エンジンに結びついていることが多く、データ変換を表現するためにコードライブラリを使用する必要があります。
Pipeline Builder は、データ変換を記述するための一般的なモデルを使用します。このバックエンドは、変換の記述に使用されるツールと、変換の実行の間の中間層です。
Pipeline Builder の基礎となるアーキテクチャは、データセット、オントロジカルオブジェクト、ストリーム、時系列、外部システムへのエクスポートなど、あらゆる種類の出力に対応するように設計されています。データセット、オブジェクトタイプ、リンクタイプ、またはストリーミングデータセットに対応するストリーミングパイプラインのバッチパイプラインを実行できます。
Pipeline Builder では、2 種類のデータ変換を使用できます。式と変換です。式はテーブルの行を入力として受け取り、1 つの行を出力する(例えば Split string
)、一方、変換はテーブル全体を入力として受け取り、テーブル全体を返します(例えば、Pivot
や Filter
)。
式と変換を同じ設定インターフェースにまとめています。たとえば、Drop columns
変換を Cast
や Concatenate strings
といった式のそばに見つけることができます。これにより、同じパスで式と変換を一緒に使用したり、1 つの設定フォームで変換内に式を埋め込むことができます。以下の Filter
変換に Length
式を挿入することで示されています。
他のデータ構造化変換、すなわち Join と Union は、それぞれ独自の設定ペインを持ち、Pipeline Builder インターフェースの一意のアイコンでマークされています。
簡単のために、すべての種類のデータ変換を変換と呼ぶことが一般的です。
結合は、少なくとも1つの一致する行を持つ2つのデータセットを結合します。設定した結合の種類によって、一致する行を結合し、一致しない行を除外した結合出力が得られます。
連結は、すべての行を含む2つのデータセットを結合します。
連結変換では、すべての入力が同じスキーマを持つ必要があります。入力スキーマがすべて一致しない場合、連結は欠落している列のリストを含むエラーメッセージを表示します。
既存の変換オプションでデータを操作できない場合や、外部 Java ライブラリを組み込みたい場合、またはパイプライン間で複雑なロジックを再利用したい場合は、独自の ユーザー定義関数(UDF) を作成することができます。ユーザー定義関数では、バージョン管理やアップグレードが可能な Pipeline Builder で独自の任意の Java コードを実行することができます。
ユーザー定義関数は必要な場合にのみ使用してください。可能な場合は、Pipeline Builder 内の最適化された 変換ボード を使用することをお勧めします。
パイプラインワークフローに 変換を追加 する方法を学びましょう。