5A. [Repositories] Code Repositories での生ファイルの取り扱い1 - このコースについて

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

Foundry でのデータ変換の背後にある計算エンジンは Spark です。これは、迅速な大規模データ処理と分析を行うためのオープンソースの分散クラスター計算フレームワークです。Spark は Parquet と呼ばれるデータファイルタイプで最も効率的に動作し、デフォルトでは、Foundry は出力データセットを分散 Parquet ファイルのシリーズとして変換します。

すべての条件が同じであれば、Parquet ファイルで構成されたデータセットは、他のデータ形式よりも Spark で効率的に計算されます。ただし、非線形形式(XML や JSON など)のファイルを処理する必要がある場合もあります。このチュートリアルでは、@transform() デコレーターを使用して Foundry データセットのファイルを読み書きするために必要な基本事項を説明します(前のチュートリアルで使用した @transform_df と対照的に)。

パイプラインの開発を次のステップに進めるために必要なファイルは、非 Parquet 形式であり、変換のためにコードで直接アクセスする必要があります。

⚠️ コースの前提条件

  • データパイプラインのスケジューリング:まだこの前のコースを完了していない場合は、今すぐ行ってください。
  • Spark と分散コンピューティングに関する基本的な理解があると、データセットの構造について話し始める際に有利ですが、必須ではありません。

アウトカム

データパイプラインには、マッピングファイルで強化されたクリーンなフライトアラートデータが含まれていますが、総合プロジェクトに組み込むことを希望する別のデータソースがあります。それは、これらのフライトアラートに関連する乗客です。たとえば、チームは、フライト遅延/アラートの深刻さと顧客ステータスに基づいて旅行バウチャーを割り当てる機能を下流で有効にするワークフローを決定したかもしれません。そして、パイプラインに乗客データを統合することは、その相互作用パターンをサポートするオントロジー・フレームワークを作成するための必要なステップです。

このチュートリアルの目的は、Foundry で CSV および JSON ファイルを直接アクセスおよび解析する別のデータ変換パターンを紹介することです。非線形形式のデータが アド ホック 方式でアップロードされたか、外部ソースに由来するかにかかわらず、このコースの方法はデータエンジニアの変換技術のアーセナルの重要な部分になります。

🥅 学習の目的

  1. コードリポジトリアプリケーションの変換で生ファイルアクセスを理解する。
  2. 非線形ファイルを Parquet に解析するために Foundry API およびパッケージを使用する。

💪 Foundry のスキル

  • Foundry の生ファイルにアクセスするために @transform() デコレーターを使用する。
  • 追加の Python ライブラリを使用して非 Parquet データを解析する。
  • Foundry Explorer ヘルパーを使用する。