3. [Repositories] プロジェクト出力の作成6 - データ検証のための Contour の使用

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

6 - データ検証のための Contour の使用

📖 タスクの概要

提案されたデータやタイプの変更をテストすることは、下流でのエラーを最小限に抑えるために重要であり、Foundry はデータ検証のためのいくつかの方法を提供しています。例えば、以下のようなものがあります。

  • データセットアプリケーションの下部にある視覚化と統計を使って、行に null 値がないことを確認する。
  • Preparation アプリケーションを使って、タイプの変更(例:整数から倍精度浮動小数点数)の影響をプロトタイプ化する。
  • Code Workbook を使って、Python コードの変更が下流の視覚化にどのような影響を与えるかをテストする。
  • Contour を使って、行と列をすばやく分析したり、結合をプロトタイプ化する。

この演習では、Contour を使って、clean flight alerts データセットの alert_display_name 行が適切な主キーであることを確認し、その主キーが *ユニークであることを確認するために使用します。実際には、このような簡単な検証を行う方法はいくつかありますが、この方法では、データソースプロジェクトの /analysis フォルダーに Contour 分析を保存する機会も得られます。

🔨 タスクの説明

  1. 作成したブランチで flight_alerts_clean データセットが正常に構築されていることを確認してください。 もし構築されていれば、「パスを RID に置き換える」オプションをクリックしてみてください。ブラウザを再読み込みする必要があるかもしれませんが、このオプションが表示されます。パスを RID に置き換えることを選択した場合、コードを再度コミットして、「refactor: update output path to use RID」というメッセージを付ける必要があります。

  2. 以下の3つの方法でアプリケーションにアクセスできます。

    • トランスフォームコードの行 6 にあるデータセット名を Ctrl + クリックしてください。
    • 画面左下にある Foundry Explorer ヘルパータブを開き、ヘルパーウィンドウの左側にある Output dataset リンクを選択してください。次に、ヘルパーの Details パネルで、データセット名を ctrl + select してください。

    Foundry Explorer ヘルパー は、すべてのファイルとフォルダーをすばやく参照できるファイルナビゲーション インターフェースです。

  3. データセットアプリケーションでデータセットを開いた状態で、左上のデータセット名のすぐ下を確認し、下の画像のように、フィーチャーブランチになっていることを確認してください。

  4. データセットプレビューの右上にある青い Analyze ボタンをクリックして、データを Contour で開きます。

    ℹ️ Contour は、パイプライン開発プロセス中に役立つデバッグやセンスチェックツールであり、他の利用可能な方法よりも高速です。

  5. すぐに保存場所が求められた場合は、「Flight Alerts Primary Key Analysis」として、.../Datasource Project: Flight Alert/analysis フォルダーに配置してください。

    そこに保存できない場合は、.../Datasource Project: Flight Alert/analysis フォルダーに移動し、「Flight Alerts Primary Key Analysis」というタイトルの新しい分析を作成して(画面右上の緑の ➕ New ボタンを使って)、flight_alerts_clean データセットを選択してください。

  6. 分析が開いたときに、開始ボード(開始データセットをリストアップする)に注意してください。これは、flight_alerts_clean データセットのブランチで操作していることを示しています。

  7. ヒストグラムボードを追加します。Y-AXIS 行のドロップダウンで alert_display_name を選択し、デフォルトの X-AXIS 集計である Count を使用します。

  8. ヒストグラム設定ウィンドウの右下にある Compute を選択します。

    ヒストグラムは、値をカウントで *降順に並べるため、最上行が 1 の値(カウント)を持っていれば、この行のすべての値が一意であることがわかります。

    このトラックの後半で、行の値の一意性を強制する方法を学ぶことができます。

  9. 以前に分析の保存を求められていなかった場合は、上記のステップ 5 の手順を使用して、今すぐ保存してください。

    ℹ️ 必要に応じて、ここで完了した Contour 分析の例を参照してください。.../Foundry Training & Resources/Example Projects/[Datasource] Flight Alerts/analysis/Flight Alerts PK Analysis