注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Foundry でのデータ変換の背後にある計算エンジンは Spark です。これは、迅速な大規模データ処理と分析を行うためのオープンソースの分散クラスター計算フレームワークです。Spark は Parquet と呼ばれるデータファイルタイプで最も効率的に動作し、デフォルトでは、Foundry は出力データセットを分散 Parquet ファイルのシリーズとして変換します。
すべての条件が同じであれば、Parquet ファイルで構成されたデータセットは、他のデータ形式よりも Spark で効率的に計算されます。ただし、非線形形式(XML や JSON など)のファイルを処理する必要がある場合もあります。このチュートリアルでは、@transform()
デコレーターを使用して Foundry データセットのファイルを読み書きするために必要な基本事項を説明します(前のチュートリアルで使用した @transform_df
と対照的に)。
パイプラインの開発を次のステップに進めるために必要なファイルは、非 Parquet 形式であり、変換のためにコードで直接アクセスする必要があります。
データパイプラインには、マッピングファイルで強化されたクリーンなフライトアラートデータが含まれていますが、総合プロジェクトに組み込むことを希望する別のデータソースがあります。それは、これらのフライトアラートに関連する乗客です。たとえば、チームは、フライト遅延/アラートの深刻さと顧客ステータスに基づいて旅行バウチャーを割り当てる機能を下流で有効にするワークフローを決定したかもしれません。そして、パイプラインに乗客データを統合することは、その相互作用パターンをサポートするオントロジー・フレームワークを作成するための必要なステップです。
このチュートリアルの目的は、Foundry で CSV および JSON ファイルを直接アクセスおよび解析する別のデータ変換パターンを紹介することです。非線形形式のデータが アド ホック 方式でアップロードされたか、外部ソースに由来するかにかかわらず、このコースの方法はデータエンジニアの変換技術のアーセナルの重要な部分になります。
@transform()
デコレーターを使用する。