Foundry でのデータ分析入門4 - 表形式のデータ問題のレビュー

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

4 - 表形式のデータ問題のレビュー

このデータセットは何ファイルで構成されていますか?

データセットアプリケーションの 詳細 タブには、データセット ファイルの数と、通常はデータベースファイルの数+トランザクション中に生成された Spark ログファイルの数を示す 全ファイル の数が表示されます。

答えは Spark が変換をどのように実行したかによりますが、その数はおそらく5から8の間でしょう。これは、表形式のデータを使用する Contour や Code Workbook などのアプリケーションのパフォーマンスが、Spark がこれらのデータセットファイルをどれだけ効率的に生成したか(つまり、ファイルのサイズと数量)に依存するため、データアナリストにとって関連性があります。Spark の動作について詳しくは、Spark の概念を確認するか、録画された Spark 最適化トレーニング(外部ビデオ)を視聴することを検討してください。

最後に成功したトランザクションでこれらのファイルを一貫したデータセットに組み立てたのはいつですか?

履歴 タブでは、このデータセットのすべての試みられたビルドを表示できます。ユーザーのリストでは、成功したジョブ、失敗したジョブ、実行されなかったジョブなどがあるかもしれません。現在のデータセットビューの日付、ステータス、トランザクションのタイプを最も早く確認するためには、詳細 タブを開き、画面の左側にある 現在のトランザクションビュー オプションをクリックします。

下の画像(エンロールメントにより異なる場合があります)では、最後に成功したトランザクションは、2022年10月6日の午前9時04分に行われた スナップショット でした。

何のトランザクションタイプが現在のビューを作成しましたか?

上記の答えを参照してください。

フライトの最も一般的な目的地は何ですか?

Foundry の分析アプリケーションの1つにデータセットを取り込む前に、プレビューテーブル を使用してデータ構造を理解し、データセットの値を素早く探索することができます。下の画像のアナリストは、目的地の行を検索し、データビューを desc. count に切り替えました。これにより、降順の数 で順序づけられた目的地を見ることができます。

ヒストグラムを確認すると、ATL が最も多くのフライトを持っていることがわかります。