注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

データセットのプレビュー

データセットビューは、以下の主要なコンポーネントで構成されています:

  1. データセットヘッダー
  2. 情報パネル
  3. 追加のデータセットビュー
  4. データプレビュー
  5. データセットアクション

データセットアプリのUI

データセットヘッダー

ページのヘッダーは、選択したデータセットを識別し、名前、表示名(存在する場合)、位置、選択したブランチなどの基本情報を提供します。また、共有、移動、名前の変更など、ファイル関連の操作も可能です。

情報パネル

情報パネルは、データセット(メタデータ)に関する情報を提供し、基本的な管理操作を提供します。それは以下の3つのセクションに分かれています:

  • 概要 - データセットに関する情報を提供します: 作成および更新された時間; データセットを作成し、最後に更新したユーザー; テーブルのサイズ; データを作成するために使用したツールと入力データセット; タグなど。スキーマを編集ビューもUpdated byセクションの下に用意されており、CSVとJSONファイルのスキーマを推測します。ここでは、ユーザーはジャギジャギした行を削除する、エンコーディングを変更する、またはファイルパス、行のバイトオフセット、インポートタイムスタンプ、行番号などの追加の行を追加するなど、追加のパースオプションを適用することもできます。他のファイルタイプの場合、スキーマの編集は詳細タブのスキーマセクションで行うことができます。
  • - データセットのさまざまな行に関する情報を提供します。データの種類、説明、データ統計(null値の割合、分布、サンプル)など。
  • スケジュール - データセットに影響を与えるスケジュールを表示します(スケジュールのドキュメンテーションを参照してください)。

追加のデータセットビュー

履歴タブ

履歴ビューは、過去のジョブ(ビルド)情報を提供します。ページの右側にあるサマリービューは、時間経過とともにジョブステータスの集計情報を示します。

左パネルには、ステータスと期間を持つジョブのリストが表示されます。選択すると、右側に詳細なジョブビューが表示され、ジョブの進行状況、ジョブスペック、ビルドログ、ファイル、結果のスキーマなど、詳細なジョブ情報が表示されます。

ストリーミングデータセットの履歴

ストリーミングデータセットでは、履歴タブはビューがアーカイブに設定されている場合にのみ表示されます。履歴タブは、ストリーミングジョブとともにアーカイブトランザクションを表示します。

データセットの履歴ページ

詳細

詳細ビューは、データセットに関する追加の技術情報、および一部の管理操作を提供します:

  • スキーマ - テーブルスキーマ(行仕様)に関する完全な情報を提供し、スキーマを編集することを許可します(該当する場合)。
  • ファイル - データセットを構成するファイルのリストを表示し、それらをダウンロードすることを許可します。
  • ジョブスペック - データセットのビルドに必要な基本情報を含むジョブ仕様を表示します。
  • 同期 - 異なるデータベースへのデータ同期のステータスと詳細を表示します。一部の同期タイプには、追加の設定を適用できます。
  • カスタムメタデータ - データセットにカスタムフィールドの情報を追加することを許可します。このセクションで追加されたフィールドは、メインのプレビューページの情報パネルに表示されます。
  • リソース使用メトリクス - データセットのディスク使用量とSpark使用量に関するグラフと情報を提供します。
  • 最後の実行詳細 (ストリームのみ) - 最新のストリームの詳細情報を表示します。

ストリーム (ストリーミングデータセットのみ)

データセットがストリーミングデータセットの場合、ストリームタブは、ストリーミングジョブの現在と過去の情報を表示します。時間期間を変更することで、その時間にデータセットをストリーミングしたジョブのログと詳細を探ることができます。

ヘルスタブ

ヘルスタブは、データヘルスを監視するためのツールを提供します。

ストリーミングデータセット

ストリーミングデータセットでは、ヘルスタブはビューがアーカイブに設定されている場合にのみ表示されます。その場合、チェックはストリームではなくアーカイブデータセットを参照します。

比較

比較タブを使用して、2つの異なるデータセットを比較します。タブをクリックし、比較するデータセットを選択します。比較タブはいくつかの方法で使用できます:

  • 2つの別々のデータセットを比較して、その違いを理解する
  • データセットを同じデータセットの古いトランザクションと比較して、時間の経過とともにどのように変化したかを見る
  • データセットのマスターバージョンを別のブランチと比較して、そのブランチをマージするとデータセットにどのような影響を与えるかを確認する
ストリーミングデータセット

ストリーミングデータセットでは、比較タブはビューがアーカイブに設定されている場合にのみ表示されます。その後、アーカイブデータセットを他の非ストリーミングデータセットと比較することができます。

データプレビュー

データセットプレビューテーブルはデータのサンプルを表示し、全データセットとの軽い対話を許可します。プレビューテーブルを使用して、データの構造を理解し、データセット内の値をすばやく探索します。

デフォルトでは、プレビューテーブルはデータの限定的なサンプルを表示します。表示される行の正確な数は、プレビューテーブルヘッダーに表示されます。ただし、フィルタリングやソートなど、データに対する任意の操作は、全データセットに適用され、プレビューサンプルサイズを増やします。行数によっては、プレビューでは全データセットを見ることができないかもしれません。

プレビューテーブルは、いくつかの便利な機能を提供します:

  • 行のメニューをクリックすると、行データをソート、フィルタリングし、チャートを生成できます
  • 個々のセルをクリックすると、プレビューから選択した値のみを含めるか、除外することができます
  • 個々の行に問題を報告し、問題を表示します
  • 特定の行名を検索します
ストリーミングデータのプレビュー

ストリーミングデータのプレビューは、最近ストリームされた行の小さなサンプルを提供します。ライブアップデートに設定すると、自動的に更新されます。ソート、フィルタリング、チャート作成は、ページがアーカイブに設定されている場合にのみ利用可能であり、アーカイブデータセットの状態のみを表します。

データセットプレビューフィルター

ファイルの手動アップロード

データセットプレビューでは、次のタイプのファイルをデータセットに直接アップロードすることができます: .csv.tsv.xls.xlsm、および .xlsx

.csvおよび .tsvファイルの場合、Foundryは新しいファイルのスキーマを推測しようとします。新しいファイルのファイル名とスキーマが以前のアップロードと同一であれば、既存のデータセットのデータを更新することができます。ファイル名が以前のアップロードと異なる場合、既存のデータセットにデータを追加することができます。

次の手順は、すべてのファイルタイプのアップロードに適用されます:

  1. 好みのフォルダーに移動し、データセットを作成します。

+Newボタンをクリックした後、「データセット」を検索したときのオプションを示すメニュー。

  1. ファイルをデータセットプレビューウィンドウにドラッグアンドドロップします。

データセットアクション

アクションメニューは、データの分析、探索、変換、管理を可能にするFoundryツールと操作への素早いアクセスを提供します。一部のアクション、たとえばAnalyze (in Contour)やBuildなどは、素早いアクセスのためにアクションメニューの外部に表示されます。