注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
チームがこのステージのPipelineにおけるデータフローを迅速に理解できるように、Datasourceプロジェクトの/documentation
フォルダーにデータフローグラフを作成して保存します。
Pipeline BuilderのPipeline outputsウィンドウ上部にあるView LineageボタンをCtrl+クリックします。
Data Lineage画面の左上にあるAlignアイコンをクリックして、グリッドにスナップする動作を有効にします。
右上の「歯車」アイコンをクリックし、Enable curved edgesをまだ有効にしていない場合は有効にします。
現在、グラフにはflight_alerts_clean
と*_preprocessed
データセットのみが表示されています。前処理済みノードをハイライトし、元の生データ入力データセットまでのデータフローを拡張します。データフローが表示されたら、必要に応じてノードを再配置します。
Node color optionsをFolderに変更して、Pipelineのステージをより明確に識別します。
「raw」データセットの最上流は、外部データソースをシミュレーションしているだけであることを覚えておいてください。たとえば、生データセット接続が単一の外部Postgresデータベースsample-source
から来ていた場合、グラフは次のようになります:
この構成をできるだけ近づけてシミュレートしましょう。shiftを押しながら、グラフ上の左端の「Flight Alerts Raw Data」ノードを囲む選択ボックスをドラッグします。
選択範囲を右クリックし、**Group nodes...**を選択します。
グループに「Simulated External Data Source」と名前を付けます。
Data Lineageアプリケーションの右上にある青いSaveボタンをクリックします。ファイルをFlight Alerts PipelineとしてDatasourceプロジェクトの/documentation
フォルダーに保存します(例:.../Data Engineering Tutorials/Datasource Project: Flight Alerts/
)。