2. [Repositories] データ変換入門7 - データセットの構築

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

7 - データセットの構築

📖 タスクの概要

コードを開発し、プレビューし、コミットした後、CI チェックがエラーなく通過すると、ユーザーのブランチ 上で出力データセットを生成するデータセットビルドを開始できます。Foundry のデータセットは、リポジトリと同様にブランチに存在するため、そのブランチの基本となるコードを反映したデータの異なるバージョンを持つことができます。製品ドキュメントで言及されているように、パイプラインのすべての段階で統一されたブランチ名を使用して、下流のブランチが正しい上流のブランチから読み取ることを確認する必要があります。

📚 推薦文献(約10分間の読書)

リポジトリ、データセット、フォールバックブランチに関するこのドキュメントページを一度見直して、ブランチ名が上流と下流のデータ変換にどのように影響するかを学んでください。

🔨 タスクの説明

  1. コードリポジトリのコードエディターから、画面右上のビルドを選択します。

    リポジトリの状態によっては、ビルドの開始で新しい CI チェックがトリガーされることがあります。もしそうなった場合は、完了するまで数分間待ちます。チェックプロセスを監視したい場合は、画面下部の ビルド ヘルパーウィンドウの 詳細を表示 リンクをクリックし、必要に応じて コード タブに戻ります。

  2. データセットビルドが開始されると、ビルド ヘルパーウィンドウのプログレスバーで進捗状況を確認できます。ビルドプロセス(Spark の動作を含む)に関する追加情報が必要な場合は、ヘルパーウィンドウの ビルドを表示 ボタンを ctrl+選択 して、ジョブトラッカーアプリケーションでビルドを監視します。今後のチュートリアルでもジョブトラッカーに戻ります。

  3. ビルドが正常に完了したら、いくつかの方法で出力データセットにアクセスできます。コードの 6 行目の出力パスを Ctrl+クリック して、新しいタブでデータセットを開きます。これがうまくいかない場合は、ブラウザを更新してください。コードエディターから Foundry に正常にビルドされたすべての変換出力は、その場所にハイパーリンクされています。

    データセットは、データセットアプリケーションのユーザーのブランチで開きます。

  4. コードリポジトリに戻ります。

  5. リポジトリは、Shrinkwrap というリソースを使用して、入力/出力パスを実際のデータセットリソース ID(RID)にマッピングします。これにより、Foundry 内で入力/出力ファイルを移動しても、変換(現在はファイルパスのみをリストしています)が混乱しないようになります。

    コードエディターの 4 行目と 5 行目の間で、ハイパーリンクされたテキスト「パスを RID に置き換える」をクリックします。これにより、入力と出力の値が、正確にどのデータセットを指すかを明確に示すことができます(潜在的に古いファイルパスではなく)。

  6. このコードの変更をブランチにコミットする必要があります。コミットボタンをクリックし、短く意味のあるコミットメッセージを入力します。例えば、「リファクタ:パスを RID に置き換え」。