注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

Marketplace プロダクトにデータセット変換を追加する [ベータ]

Foundry DevOps を使用して、データセット変換を Marketplace プロダクト に含め、他のユーザーがインストールして再利用できるようにします。最初のプロダクトを作成する方法を学びます。

サポートされている機能

データセット変換(およびそれを生成するコードリポジトリ)をパッケージ化する際、必要なすべての依存関係が製品の一部として保存されます。これにより、変換が自己完結型であることが保証され、どこでも正常に実行できます。リポジトリは、Maven、PyPI、Conda の依存関係を持ち込むことができます。

Python、Java、SQL の変換がサポートされています。変換は、最近のテンプレートを持つリポジトリから生成されなければならず、そうでない場合はパッケージ化エラーが発生することがあります。デバッグするには、Code Repositories アプリケーションでリポジトリをアップグレードします。変換が正常にパッケージ化できる場合、インストールや実行時にエラーは発生しません。

ソース入力データセットのすべてのデータセット行(例えば、データセット変換に入力として使用される airplane データセット)は、データセット変換で参照されているかどうかに関係なく、インストール時に必要な入力となります。

サポートされている機能は以下の通りです。

  • インクリメンタル変換
  • マーキング解除ワークフロー
  • Spark プロファイル
  • テレメトリー
  • ライブラリ
  • 外部変換
  • スキーマレスデータセット

プロダクトにデータセット変換を追加する

データセット変換をプロダクトに追加するには、まず プロダクトを作成 します。データセット変換 を追加することを選択した後、変換を生成するリポジトリを選択し、含める変換を選択することで、変換が追加されます。

データセット変換を追加する

場合によっては、1つの変換が複数の出力データセットを生成することがあります。その場合、生成されたすべてのデータセットをプロダクトに含める必要があります。

リポジトリパッケージ化の選択

リポジトリパッケージ化オプション

リポジトリをパッケージ化する方法は 3 つあります。

  • すべてのソースコードを除外: リポジトリはソースコードなしでパッケージ化されます。リポジトリの唯一の目的は、変換の実行時に必要な依存関係を保持することです。この方法では、コンパイル済みのユーザーコードとすべての推移的依存関係が含まれます。
  • 最新のソースコードを含めるが、バージョン履歴は除外: リポジトリにはソースコードと必要な作成物が含まれますが、Git 履歴(タグを含む)は保持されません。これは、リポジトリを読み取り専用のドキュメントとして出荷するための推奨される方法です。
  • ソースコードと完全なバージョン履歴を含める: リポジトリは、そのままの状態で製品に保存されます。Git 履歴全体がパッケージ化時に保存され、インストール時に復元されます。これは、インストール後に Code Repositories アプリケーション内でチェックを実行し、変換を再構築できる唯一のモードです。