注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

2 - データフローでデータをプレビューする

📖 タスクの概要

Data Lineage アプリケーションを使用すると、データパイプライン全体を表示するためにズームアウトすることができます。このタスクでは、passengers_clean 表がどのように導出されたのかを見て、その「祖先」を探索します。各行(Arrow)は、クリーニングステップ、複数の表からの情報を単一のより包括的なデータセットに組み合わせるステップ、または新たな導出行を表に追加するステップなど、データ変換を表します。

🔨 タスクの説明

  1. データパイプライン全体を表示するためにズームアウトします。左端にはsource/passengers_json_rawという名前の紫色のノードと、その左にはraw/passengers_json_rawという名前の黄色のノードが表示されます。これらはどちらも、Foundry に取り込まれたがまだ表形式のデータではない raw json を表します。

  2. グラフ上にある passengers_preprocessed というノードをクリックします。これは、それらの raw json データセットに対する変換から導出された表形式のデータです。私たちは数クリックでその内容を探索することができます。

  3. グラフの下部にある Preview タブをクリックします。Preview タブでは、選択したデータセットのスナップショットを表形式で表示し、表の最初の 300 行をプレビューします。Preview は、データが期待通りに見えるかをスポットチェックするのに便利です。

注: このデータセットの名前データは仮想的なものです。