5C. [Repositories] データ変換による複数の出力2 - フォルダー構造とリポジトリの作成

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

2 - フォルダー構造とリポジトリの作成

📖 タスクの概要

トランスフォームプロジェクトは、一般的には、ソースを組み合わせて追加のビジネスロジックを適用し、豊かなデータセットを生成します。 これらのデータセットは、一般的には公開するためのものではありませんオントロジープロジェクトのステージにあるものです)。このタスクは、ユーザーのトランスフォームプロジェクトのための推奨される高レベルのディレクトリ構造を実装するのを助けます。

🔨 タスクの説明

  1. .../Temporary Training Artifacts/yourName/Data Engineering Tutorials/ フォルダーに新しいフォルダーを作成し、その名前を Transform Project: Alert Metrics とします。

  2. そのトップレベルのプロジェクトフォルダーの中に以下のフォルダーを追加します:

    • /data
    • /documentation
    • /analysis
  3. 新しい Pythonトランスフォーム コードリポジトリを作成し、その名前を flight_alert_metrics_logic とします。

  4. Master から新しいブランチを作成し、その名前を yourName/feature/join_data とします。

  5. リポジトリの /datasets フォルダーに、新しいサブフォルダーを2つ作成します: transformedoutput。これにより、トランスフォームによって出力されたデータセットが、ドキュメンテーションで推奨されているフォルダー構造に配置されます。

    • 簡単に言うと、output フォルダーは トランスフォームプロジェクトの最終製品を表し、その出力製品を作成するために必要な前処理は transformed フォルダーで行われます。