1. データパイプラインの基礎6 - パイプラインの段階

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

6 - パイプラインの段階

新しいパイプラインを準備するか、既存のものを再構成する際には、独立したパイプラインの段階を整理するために プロジェクト を設定することを考慮してください。

📚 推薦文献 (読むのに約15分)

パイプラインの実装の出発点として、ここで提案されるプロジェクト構造を考えてみてください。ただし、最終的にはそれから逸脱することを選ぶかもしれません。

以下は、各パイプライン段階の入力、出力、特性の簡単な概要です(上記のリンク先のドキュメンテーションには追加のガイダンスが含まれています)。

データソースプロジェクト

  • 入力 = データコネクションからの生データ
  • 出力 = このデータのクリーンバージョン
  • データソースパイプラインは特定のソースにマップします
  • この段階では他のデータソースからの結合はありません
  • データソースプロジェクトは データセット のみを出力します

変換プロジェクト

  • 入力 = データソースプロジェクト/パイプラインからの出力データ
  • 出力 = オントロジーレイヤーにフィードするためのデータの正規化ビュー
  • 変換プロジェクトは複数のデータソースからの入力を使用することがあります
  • 変換プロジェクトはデータセットのみを出力します

オントロジープロジェクト

  • 入力 = 変換プロジェクト/パイプラインからの出力データ
  • 出力 = オントロジーで定義された単一または関連するグループのオブジェクトの定義に準拠する正規化データセット
  • このプロジェクトの出力データ資産はオントロジーに同期されます

ワークフロープロジェクト(このトラックでは扱われていません)

  • 入力 = オントロジープロジェクトからの出力
  • 出力 = 特定のビジネスユースケースを解決するために設計された作成物のコレクション

DATAENG ラーニングパスでは、上流ソースからデータがすでに 接続 されていることを前提とし、ユースケース作成物の生成には至りません(これは他のラーニングパスでカバーされます)。したがって、データソース変換、および オントロジー プロジェクトだけで作業します。