注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

データセットプレビュー

データセットビューは以下の主要なコンポーネントで構成されています。

  1. データセットヘッダー
  2. 情報パネル
  3. 追加のデータセットビュー
  4. データプレビュー
  5. データセットアクション

Dataset app UI

データセットヘッダー

ページのヘッダーは選択されたデータセットを識別し、名前、表示名(存在する場合)、場所、選択されたブランチなどの基本情報を提供します。また、共有、移動、名前変更などのファイル関連の操作も可能です。

情報パネル

情報パネルはデータセットに関する情報(メタデータ)を提供し、いくつかの基本的な管理操作を提供します。3つのセクションに分かれています。

  • 概要 - 作成および更新された時間、データセットを作成したユーザーと最後に更新したユーザー、テーブルのサイズ、データ作成に使用されたツールと入力データセット、タグなどの情報を提供します。更新者セクションの下にあるスキーマの編集ビューでは、CSVおよびJSONファイルのスキーマを推測します。ここでは、ギザギザの行を削除したり、エンコーディングを変更したり、ファイルパス、行のバイトオフセット、インポートタイムスタンプ、行番号などの追加列を追加したりする追加の解析オプションを適用できます。他のファイルタイプの場合、スキーマの編集は詳細タブのスキーマセクションで行うことができます。
  • - データセット内の異なる列に関する情報を提供し、データの種類、説明、データ統計(null値の割合、分布、サンプル)を含みます。
  • スケジュール - データセットに影響を与えるスケジュールを表示します(詳細はスケジュールのドキュメントをご覧ください)。

追加のデータセットビュー

履歴タブ

履歴ビューは過去のジョブ(ビルド)情報を提供します。ページの右側には、時間を通じたジョブのステータスに関する集約情報が表示されるサマリービューがあります。

左側のパネルには、ジョブのリストとそのステータス、期間が表示されます。選択すると、右側に詳細なジョブビューが表示され、ジョブの進捗状況、ジョブスペック、ビルドログ、ファイル、結果のスキーマなどの詳細なジョブ情報が示されます。

ストリーミングデータセットの履歴

ストリーミングデータセットでは、ビューがアーカイブに設定されている場合のみ履歴タブが表示されます。履歴タブには、アーカイブトランザクションとストリーミングジョブが一緒に表示されます。

Dataset history page

詳細

詳細ビューは、データセットに関する追加の技術情報といくつかの管理操作を提供します。

  • スキーマ - テーブルスキーマ(列の仕様)に関する完全な情報を提供し、スキーマの編集が可能です(該当する場合)。
  • ファイル - データセットを構成するファイルのリストを表示し、それらをダウンロードすることができます。
  • ジョブスペック - データセットのビルドに必要な基本情報を含むジョブスペックを表示します。
  • 同期 - 異なるデータベースへのデータ同期のステータスと詳細を表示します。いくつかの同期タイプでは、追加の設定を適用することができます。
  • カスタムメタデータ - データセットにカスタムの情報フィールドを追加することができます。このセクションで追加されたフィールドは、メインプレビューページの情報パネルに表示されます。
  • リソース使用メトリクス - データセットのディスクとSpark使用状況に関するグラフと情報を提供します。
  • 最後の実行の詳細(ストリームのみ) - 最新のストリーム実行に関する詳細情報を表示します。

ストリーム(ストリーミングデータセットのみ)

データセットがストリーミングデータセットの場合、ストリームタブはストリーミングジョブの現在および過去の情報を表示します。期間を変更することで、その期間中にデータセットをストリーミングしたジョブのログや詳細を探索できます。

ヘルスタブ

ヘルスタブは、データヘルスを監視するためのツールを提供します。

ストリーミングデータセット

ストリーミングデータセットでは、ビューがアーカイブに設定されている場合のみヘルスタブが表示されます。チェックはストリームではなくアーカイブデータセットを参照します。

比較

比較タブを使用して、2つの異なるデータセットを比較します。タブをクリックし、比較するデータセットを選択します。比較タブはさまざまな方法で使用できます。

  • 2つの別々のデータセットを比較して、その違いを理解する
  • 同じデータセットの古いトランザクションと比較して、時間の経過による変化を確認する
  • データセットのマスターバージョンと異なるブランチを比較して、そのブランチをマージした場合のデータセットへの影響を確認する
ストリーミングデータセット

ストリーミングデータセットでは、ビューがアーカイブに設定されている場合のみ比較タブが表示されます。その後、アーカイブデータセットを他の非ストリーミングデータセットと比較することができます。

データプレビュー

データセットプレビューテーブルは、データのサンプルを表示し、データセット全体に軽いインタラクションを可能にします。プレビューテーブルを使用してデータの構造を理解し、データセットの値を迅速に探索します。

デフォルトでは、プレビューテーブルは限られたデータのサンプルを表示します。正確な行数はプレビューテーブルのヘッダーに表示されます。ただし、フィルター処理や並べ替えなどのデータに対する操作はデータセット全体に適用され、プレビューサンプルサイズが増加します。行数によっては、プレビューでデータセット全体が表示されない場合があります。

プレビューテーブルは、いくつかの便利な機能を提供します。

  • 列のメニューをクリックすることで、列データの並べ替え、フィルター処理、チャートの生成が可能です
  • 個々のセルをクリックすることで、プレビューから選択した値のみを除外または含めることができます
  • 個々の列に関する問題を報告および表示
  • 特定の列名を検索
ストリーミングデータプレビュー

ストリーミングデータプレビューは、最近ストリーミングされた行の小さなサンプルを提供します。ライブ更新に設定されていると自動的に更新されます。並べ替え、フィルター処理、チャート作成はページがアーカイブに設定されている場合にのみ利用可能で、アーカイブデータセットの状態のみを表します。

Dataset preview filters

ファイルを手動でアップロード

データセットプレビューでは、次のタイプのファイルをデータセットに直接アップロードできます: .csv, .tsv, .xls, .xlsm, .xlsx.

.csvおよび.tsvファイルについては、Foundryは新しいファイルのスキーマを推測します。新しいファイルのファイル名とスキーマが以前のアップロードと同一である場合、既存のデータセットでデータを更新できます。ファイル名が以前のアップロードと異なる場合、既存のデータセットにデータを追加できます。

すべてのファイルタイプのアップロードに適用される手順は以下の通りです。

  1. 好みのフォルダーに移動し、データセットを作成します。

Menu showing the options when searching for "dataset" after clicking the +New button.

  1. ファイルをデータセットプレビューウィンドウにドラッグアンドドロップします。

データセットアクション

アクションメニューは、データの分析、探索、トランスフォーム、および管理を可能にするFoundryツールと操作への迅速なアクセスを提供します。Analyze(Contour内)やビルドなどのアクションは、迅速なアクセスのためにアクションメニューの外に表示されます。