5C. [Repositories] データ変換による複数の出力1 - このコースについて

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

データソースプロジェクトがクリーンな出力を生成した後、パイプラインの次の段階であるトランスフォームプロジェクトが、オントロジー層にデータを供給するための準備を行います。これらのプロジェクトは、1つ以上のデータソースプロジェクトからクリーンデータセットをインポートし、ルックアップデータセットを使って値を拡張したり、オブジェクト中心や時間中心のデータセットを作成するために関係を正規化または非正規化したり、標準的で共有される指標を作成するためにデータを集約します。

データエンジニアリングのトレーニングのルートにおいて、これまでに単一のデータセットを出力するコードベースのデータ変換を作成してきました。Foundry トランスフォーム API は、1つの変換ファイルで複数の出力を生成する方法を少なくとも2つ提供しています。これは、入力をプログラム的に明確な部分に分割したい場合などに役立ちます。このチュートリアルでは、パイプラインをトランスフォームプロジェクト段階に進める中で、1つの変換から複数のデータセットを出力する利用可能な方法の1つを探ります。

⚠️ コースの前提条件

  • DATAENG 05b:このトラックの前のコースをまだ完了していない場合は、今すぐ行ってください。

アウトカム

このチュートリアルの演習では、データソースプロジェクト:フライトアラートデータソースプロジェクト:乗客からのクリーンな出力を取得し、マルチ出力 Python トランスフォームの概念を使用してそれらをさらに処理します。まず、フライトアラートデータと乗客データを結合する中間変換を生成します。次に、乗客の国に基づいてアラートの個別のデータセットを作成するマルチ出力変換を作成します。

🥅 学習の目的

  1. 本番パイプラインのトランスフォームプロジェクト段階に慣れる。
  2. 1つの変換ファイルから複数のデータセット出力を生成できるマルチ出力変換と生成変換の違いを理解する。

💪 Foundry のスキル

  • 本番データパイプラインのトランスフォームプロジェクト部分を作成、スケジュール、ドキュメント化する。
  • 生成およびマルチ出力 Python トランスフォームを記述する。