1. Data Pipeline Foundations6 - パイプラインの段階
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

6 - パイプラインのステージ

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

新しいパイプラインを準備するか、既存のパイプラインを再構築する場合、パイプラインの各ステージを整理するために、プロジェクトの設定を検討してください。

📚 推薦文献(約15分読み)

パイプライン実装の起点として、ここで提案されているプロジェクト構造を考慮してください。ただし、最終的にはこれから逸脱するかもしれません。

以下に、パイプラインの各ステージの入力、出力、特性の簡単な概要を示します(上記のリンク先のドキュメンテーションには追加のガイダンスが含まれています)。

データソースプロジェクト

  • 入力 = Data Connectionからの生データ
  • 出力 = このデータのクリーニング版
  • データソースパイプラインは特定のソースに対応します
  • このステージでは他のデータソースからの結合はありません
  • データソースプロジェクトはデータセットのみを出力します

変換プロジェクト

  • 入力 = データソースプロジェクト/パイプラインからの出力データ
  • 出力 = オントロジー層にフィードするためのデータの正規ビュー
  • 変換プロジェクトは複数のデータソースからの入力を使用することができます
  • 変換プロジェクトはデータセットのみを出力します

オントロジープロジェクト

  • 入力 = 変換プロジェクト/パイプラインからの出力データ
  • 出力 = オントロジーで定義された単一または関連グループのオブジェクトの定義に準拠した正規データセット
  • このプロジェクトの出力データ資産はオントロジーに同期されます

ワークフロープロジェクト(このトラックでは扱わない)

  • 入力 = オントロジープロジェクトからの出力
  • 出力 = 特定のビジネスユースケースを解決するために設計された作成物のコレクション

DATAENG ラーニングパスでは、上流ソースからデータが既に接続されていることを前提とし、ユースケース作成物の生成は他のラーニングパスでカバーされます。したがって、データソース変換、およびオントロジープロジェクトだけを扱います。