データ統合Code Repositoriesトランスフォームトランスフォームのプレビュー

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

トランスフォームのプレビュー

Code Repositories のプレビューツールを使用して、入力データセットの限定されたサンプルでコードを実行し、出力を素早くプレビューします。プレビューは、変更をコミットしたり、チェックを実行したり、Foundry でデータセットをマテリアライズすることなく、サンプル出力を生成します。プレビューを使用すると、開発サイクルが加速し、コード変更をテストするためにビルドをトリガーする必要がなくなります。

ヒント

プレビューは、ファイルモデル を含むすべての Foundry データセットで動作します。

プレビューの実行

プレビューは Code Repositories 内の以下の 2 つの場所からトリガーできます。

(1) コードエディタのオプションパネルでプレビューを選択します。

コードエディタオプションからのプレビューの実行

(2) ヘルパーパネルでプレビューを選択します。

ヘルパーパネルからのプレビューの実行 - ステップ 1

ヘルパーパネルからのプレビューの実行 - ステップ 2

プレビューが実行されると、出力が表示されます。

プレビュー出力

ファイルを使用したプレビューの設定

プレビューは、非構造化ファイル を含むデータセットで使用できます。ファイルを含むデータセットで初めてプレビューを実行する場合、サンプル内で使用されるファイルを設定する必要があります。

ファイルの設定

ファイルの選択

サンプルファイルが選択されると、入力リストから関連する入力を選択して再設定できます。設定を保存すると、プレビューは選択したファイルのサンプルでコードを実行します。プレビューを再度実行する場合、入力ファイルを再設定する必要はありません。プレビューが実行された後、サンプル出力を行またはファイルとして表示できます。必要な権限がある場合は、出力ファイルをダウンロードすることもできます。

モデルを使用したプレビューの設定

Model Asset

追加の設定を必要とせずに、Foundry でトレーニングされた model asset や、事前トレーニング済みのファイルでバックアップされたモデル、インポートされた言語モデル などのプレビューがサポートされています。

コンテナバックアップモデル および 外部ホストモデル は、現在プレビューがサポートされていません。

モデル入力用の Model Preview

データセットバックアップモデル

データセットバックアップモデル との連携にプレビューを設定するプロセスは、ファイルを使用したプレビューの設定 と同じです。プレビューが正常に実行されるように、必要なモデリング固有のファイルをすべて選択してください。Code Repositories でモデルを開発する方法についての詳細は、Model Asset のトレーニング を参照してください。

ファイルの再選択

トランスフォームジェネレータで作成したトランスフォームのプレビュー

トランスフォームジェネレータ で作成されたトランスフォームは、関数の名前を共有します。プレビューで意図したトランスフォームを選択しやすくするために、生成されたトランスフォームの __name__ 属性を変更して意味のある名前を生成します。たとえば:

Copied!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 from transforms.api import transform_df, Output # 変換を生成する関数 def generate_transforms(): transforms = [] # 変換のリスト # 出力データセット名ごとに繰り返し for output_dataset_name in ["One", "Two", "Three"]: @transform_df( Output(f"/output/path/{output_dataset_name}")) # 定義された変換関数 def my_transform(ctx, output_dataset_name=output_dataset_name): # 生成された変換はデフォルトで`my_transform (1)`、`my_transform (2)`...という名前になる cols = ['id', 'value'] # カラム名 vals = [ (0, f'{output_dataset_name}'), (1, f'{output_dataset_name}'), (2, f'{output_dataset_name}') ] # 値 df = ctx.spark_session.createDataFrame(vals, cols) # DataFrameを作成 return df transforms.append(my_transform) # 変換リストに追加 # 変換の名前を上書き transforms[-1].__name__ = f'{output_dataset_name}_{transforms[-1].__name__}' return transforms # 変換を生成してリストに格納 TRANSFORMS = generate_transforms()