1. Data Pipeline Foundations2 - データパイプライン入門
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

2 - データパイプライン入門

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

データパイプライン とは、ソースシステムから中間データセットを経由して、最終的にオントロジーに構造化されるか、または機械学習や分析ワークフローの基盤となる高品質でキュレーションされたデータセットを生成するデータの流れです。

この演習では、パイプライン開発プロセスの基本的な段階を見直します。データパイプラインのライフサイクルは、通常、以下のような独立した活動を含みます。

  1. 望ましい出力を合意する
  2. 出力をサポートするために必要なソースデータを特定する
  3. パイプラインの範囲とサービスレベル契約(SLA)を定義する
  4. パイプラインの段階をマップし、関連するプロジェクト構造を作成する
  5. 変換をテスト、ビルド、最適化する
  6. スケジュールとデータセットのヘルスチェックを適用する
  7. パイプラインスケジュールを作成する
  8. パイプラインを維持する