注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

7 - データフローグラフを使用してPipelineをドキュメント化する

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

チームがこのステージのPipelineにおけるデータフローを迅速に理解できるように、Datasourceプロジェクトの/documentationフォルダーにデータフローグラフを作成して保存します。

🔨 タスクの説明

  1. Pipeline BuilderのPipeline outputsウィンドウ上部にあるView LineageボタンをCtrl+クリックします。

  2. Data Lineage画面の左上にあるAlignアイコンをクリックして、グリッドにスナップする動作を有効にします。

  3. 右上の「歯車」アイコンをクリックし、Enable curved edgesをまだ有効にしていない場合は有効にします。

  4. 現在、グラフにはflight_alerts_clean*_preprocessedデータセットのみが表示されています。前処理済みノードをハイライトし、元の生データ入力データセットまでのデータフローを拡張します。データフローが表示されたら、必要に応じてノードを再配置します。

  5. Node color optionsFolderに変更して、Pipelineのステージをより明確に識別します。

    「raw」データセットの最上流は、外部データソースをシミュレーションしているだけであることを覚えておいてください。たとえば、生データセット接続が単一の外部Postgresデータベースsample-sourceから来ていた場合、グラフは次のようになります:

  6. この構成をできるだけ近づけてシミュレートしましょう。shiftを押しながら、グラフ上の左端の「Flight Alerts Raw Data」ノードを囲む選択ボックスをドラッグします。

  7. 選択範囲を右クリックし、**Group nodes...**を選択します。

  8. グループに「Simulated External Data Source」と名前を付けます。

  9. Data Lineageアプリケーションの右上にある青いSaveボタンをクリックします。ファイルをFlight Alerts PipelineとしてDatasourceプロジェクトの/documentationフォルダーに保存します(例:.../Data Engineering Tutorials/Datasource Project: Flight Alerts/)。