データ統合Pipeline Builder変換概要

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

概要

Pipeline Builder は、Foundry でデータを変換するための柔軟で強力で使いやすいインターフェースを提供します。既存のツール(例えば、Spark や SQL など)でデータ変換を書くことは、非コーダーや経験豊富なソフトウェア開発者にとっても難しく、エラーが発生しやすいものです。また、既存のツールは、特定の実行エンジンに結びついていることが多く、データ変換を表現するためにコードライブラリを使用する必要があります。

Pipeline Builder は、データ変換を記述するための一般的なモデルを使用します。このバックエンドは、変換の記述に使用されるツールと、変換の実行の間の中間層です。

Pipeline Builder のバックエンドの仕組みを示すグラフィック

Pipeline Builder の基礎となるアーキテクチャは、データセット、オントロジカルオブジェクト、ストリーム、時系列、外部システムへのエクスポートなど、あらゆる種類の出力に対応するように設計されています。データセット、オブジェクトタイプ、リンクタイプ、またはストリーミングデータセットに対応するストリーミングパイプラインのバッチパイプラインを実行できます。

Pipeline Builder での変換の使用

Pipeline Builder では、2 種類のデータ変換を使用できます。式と変換です。式はテーブルの行を入力として受け取り、1 つの行を出力する(例えば Split string)、一方、変換はテーブル全体を入力として受け取り、テーブル全体を返します(例えば、PivotFilter)。

式と変換を同じ設定インターフェースにまとめています。たとえば、Drop columns 変換を CastConcatenate strings といった式のそばに見つけることができます。これにより、同じパスで式と変換を一緒に使用したり、1 つの設定フォームで変換内に式を埋め込むことができます。以下の Filter 変換に Length 式を挿入することで示されています。

フィルター変換を示す設定のスクリーンショット

他のデータ構造化変換、すなわち JoinUnion は、それぞれ独自の設定ペインを持ち、Pipeline Builder インターフェースの一意のアイコンでマークされています。

操作選択メニューのスクリーンショット

簡単のために、すべての種類のデータ変換を変換と呼ぶことが一般的です。

Join

結合は、少なくとも1つの一致する行を持つ2つのデータセットを結合します。設定した結合の種類によって、一致する行を結合し、一致しない行を除外した結合出力が得られます。

Union

連結は、すべての行を含む2つのデータセットを結合します。

連結変換では、すべての入力が同じスキーマを持つ必要があります。入力スキーマがすべて一致しない場合、連結は欠落している列のリストを含むエラーメッセージを表示します。

ユーザー定義関数

既存の変換オプションでデータを操作できない場合や、外部 Java ライブラリを組み込みたい場合、またはパイプライン間で複雑なロジックを再利用したい場合は、独自の ユーザー定義関数(UDF) を作成することができます。ユーザー定義関数では、バージョン管理やアップグレードが可能な Pipeline Builder で独自の任意の Java コードを実行することができます。

ユーザー定義関数は必要な場合にのみ使用してください。可能な場合は、Pipeline Builder 内の最適化された 変換ボード を使用することをお勧めします。

次のステップ

パイプラインワークフローに 変換を追加 する方法を学びましょう。