2. [Repositories] Introduction to Data Transformations7 - データセットの構築
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

7 - ユーザーのデータセットの構築

この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点からここに掲載しています。

📖 タスクの概要

一度ユーザーがコードを開発し、プレビューしてコミットし、CI チェックがエラーなく通過したら、ユーザーのブランチ上で出力データセットを生成するデータセットのビルドを開始することができます。リポジトリと同様に、Foundry のデータセットもブランチ上に存在するため、そのブランチ上の基礎となるコードを反映したデータの異なるバージョンを持つことができます。製品ドキュメンテーションで述べられているように、下流のブランチが正しい上流のブランチから読み取ることを確認するために、パイプラインのすべてのステージで一様なブランチ名を使用する必要があります。

📚 推薦文献 (~10 分読む)

リポジトリ、データセット、フォールバックブランチに関するこのドキュメンテーションページを一度見直して、ブランチ名が上流と下流のデータ変換にどのように影響するかを学びましょう。

🔨 タスクの説明

  1. ユーザーのコードリポジトリのコードエディタから、画面右上の Build を選択します。

    リポジトリの状態によっては、ビルドの開始が新しい CI チェックをトリガーするかもしれません。もしトリガーされた場合は、完了するまで数分間待ちます。チェックプロセスを監視したい場合は、画面下部の Build ヘルパーウィンドウ内の View details リンクをクリックし、必要に応じて Code タブに戻ることができます。

  2. データセットのビルドが開始されると、Build ヘルパーウィンドウ内のプログレスバーで進行状況を確認できます。ビルドプロセスに関する追加情報(Spark の動作を含む)を取得するためには、ヘルパーウィンドウ内の View build ボタンを ctrl+select し、Job Tracker アプリケーションでビルドを監視します。私たちは将来のチュートリアルで Job Tracker に戻ってきます。

  3. ビルドが成功裏に完了すると、出力データセットにはいくつかの方法でアクセスできます。ユーザーのコードの6行目にある出力パスを Ctrl+click して、新しいタブでデータセットを開きます。これが機能しない場合は、ブラウザを更新してください。成功裏にビルドされたすべての変換出力は、コードエディタから Foundry 内のその場所へのハイパーリンクとなっています。

    データセットはユーザーのブランチ上のデータセットアプリケーションで開きます。

  4. ユーザーのコードリポジトリに戻ります。

  5. ユーザーのリポジトリは、入力/出力パスを実際のデータセットリソース ID (RID) にマッピングするためのリソース、Shrinkwrap を使用します。これにより、ユーザーの変換 (現在はファイルパスのみをリストしています) を混乱させることなく、ユーザーの入力/出力ファイルを Foundry 内で移動することができます。

    ユーザーのコードエディタで4行目と5行目の間をクリックして、ハイパーリンクされたテキスト "Replace paths with RIDs." をクリックします。これにより、ユーザーの入力と出力の値が、潜在的に古いファイルパスではなく、明確に参照しているデータセットを明確に示すようになります。

  6. ユーザーのコードへのこの変更は、ブランチにコミットする必要があります。Commit ボタンをクリックし、"refactor: replace paths with RIDs." のような短くて意味のある コミットメッセージ ↗ を入力します。