1. データパイプラインの基礎2 - データパイプライン入門

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

2 - データパイプライン入門

データパイプライン とは、ソースシステムからデータが流れ、中間データセットを経由して、最終的にオントロジーに構造化するか、あるいは機械学習や分析ワークフローの基盤となる、高品質でキュレートされたデータセットを生成する流れのことを指します。

この演習では、パイプライン開発プロセスの基本的な段階を見直します。データパイプラインのライフサイクルは通常、以下のような特定の活動を含みます:

  1. 望ましい出力を合意する
  2. 出力をサポートするために必要なソースデータを決定する
  3. パイプラインの範囲とサービスレベル契約(SLA)を定義する
  4. パイプラインの段階をマップし、関連するプロジェクト構造を作成する
  5. トランスフォームをテスト、ビルド、および最適化する
  6. スケジュールとデータセットの健康チェックを適用する
  7. パイプラインスケジュールを作成する
  8. パイプラインを維持する