3. [Repositories] Creating a Project Output6 - データ検証のための Contour の使用
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

6 - データ検証のための Contour の利用

learn.palantir.com ↗でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

提案されたデータや型の変更をテストすることは、下流でのエラーを最小限に抑える上で重要です。Foundry はデータ検証の方法をいくつか提供しています。例えば:

  • データセットアプリケーションの最下部にあるビジュアルと統計を使用して、行に null 値がないことを確認する。
  • Preparation アプリケーションを使用して、型の変更(例えば、整数から倍精度浮動小数点数へ)の影響を試作する。
  • Code Workbook を使用して、Python コードの変更が下流のビジュアルにどのような影響を与えるかをテストする。
  • Contour を使用して、行と列を素早く解析するか、またはジョインを試作する。

この演習では、Contour を使用して、ユーザーのクリーンなフライトアラートデータセットの alert_display_name 行が適切なプライマリキーであり、そして重要なことに、そのキーが ユニーク であることを確認します。実際には、このクイックバリデーションを行う方法はいくつかありますが、この方法では、ユーザーのデータソースプロジェクトの /analysis フォルダーに Contour 解析を保存する機会も得られます。

🔨 タスクの説明

  1. ユーザーの flight_alerts_clean データセットがユーザーのブランチで正常にビルドされていることを確認します。 もしビルドが成功していたら、"パスを RID で置き換える"オプションをクリックすることを検討してみてください。リポジトリがこのオプションを提示するためには、ブラウザを再読み込みする必要があるかもしれません。パスを RID で置き換えることを選択した場合、"refactor: update output path to use RID"というメッセージでコードを再度コミットする必要があります。

  2. 出力データセット (flight_alerts_clean) を、次のいずれかの方法で開きます:

    • ユーザーの変換コードの6行目のデータセット名を Ctrl+クリックする。
    • 画面の左下にある Foundry Explorer ヘルパータブを開き、ヘルパーウィンドウの左側にある Output dataset リンクを選択します。次に、ヘルパーの Details パネルで、データセット名を ctrl + select します。

    Foundry Explorer helper は、すべてのファイルとフォルダーを素早く閲覧できるファイルナビゲーションインターフェースです。

  3. データセットがデータセットアプリケーションで開かれていることを確認し、データセット名のすぐ下を確認して、ユーザーがフィーチャーブランチにいることを確認します。下の画像を参照してください。

  4. データセットプレビューの右上にある青い Analyze ボタンをクリックして、データを Contour で開きます。

    ℹ️ Contour は、パイプライン開発プロセス中のデバッグと意味チェックに役立つツールで、他の利用可能な方法よりも速いことが多いです。

  5. すぐに保存場所を求められた場合は、それをユーザーの .../Datasource Project: Flight Alert/analysis フォルダーに "Flight Alerts Primary Key Analysis" として配置します。

    そこに保存できない場合は、ユーザーの .../Datasource Project: Flight Alert/analysis フォルダーに移動し、新しい解析を作成します(画面の右上にある緑色の ➕ New ボタンを使用して)。タイトルは "Flight Alerts Primary Key Analysis" とし、flight_alerts_clean データセットを選択します。

  6. 解析が開いたら、ユーザーの出発ボードがユーザーのブランチの flight_alerts_clean データセットを操作していることを示していることに注意してください。

  7. ヒストグラムボードを追加します。Y-AXIS 行のドロップダウンで alert_display_name を選択し、X-AXIS の集計にはデフォルトの Count を使用します。

  8. ヒストグラム設定ウィンドウの右下にある Compute を選択します。

    ヒストグラムは値をカウントで *降順に並べ替えます。したがって、最上行が値(カウント)1を持つ場合、この行のすべての値はユニークであることがわかります。

    このトラックの後半では、行値のユニーク性を強制する方法を学びます。

  9. 解析を保存するように求められていなかった場合、上記のステップ5の指示を使用して、今すぐ保存します。

    ℹ️ 必要に応じて、完成した例の Contour 解析の場所を参照してください:.../Foundry Training & Resources/Example Projects/[Datasource] Flight Alerts/analysis/Flight Alerts PK Analysis