注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
Foundry でのデータ変換の背後にある計算エンジンは、Spark です。これは、オープンソースの分散クラスター・コンピューティングフレームワークで、大規模なデータ処理と分析を迅速に行うことができます。Spark は、Parquet というデータファイルタイプで最も効率的に動作し、デフォルトでは、Foundry は出力データセットを分散された Parquet ファイルのシリーズとして変換します。
すべての条件が等しい場合、Parquet ファイルで構成されたデータセットは、他のデータ形式よりも常に Spark によって効率的に計算されます。ただし、非線形形式のファイル(XML や JSON など)を処理する場合もあります。このチュートリアルでは、前のチュートリアルで使用された @transform_df
とは対照的に、@transform()
デコレータを使用して Foundry データセット内のファイルを読み書きするために必要な基本事項を説明します。
パイプラインの開発を次のステップに進めるために必要なファイルは、非 Parquet 形式であり、コードで直接アクセスして変換する必要があります。
データパイプラインには、マッピングファイルで強化されたクリーンなフライトアラートデータが含まれていますが、全体のプロジェクトに組み込みたい別のデータソースがあります。これらのフライトアラートに関連する乗客のデータです。たとえば、チームは、フライト遅延/アラートの重大度と顧客ステータスに基づいて旅行バウチャーを割り当てる機能をワークフローに組み込むことを決定したかもしれません。そして、パイプラインに乗客データを統合することは、そのインタラクションパターンをサポートするオントロジーフレームワークを作成するための必要なステップです。
このチュートリアルの目的は、Foundry で CSV および JSON ファイルを直接アクセスして解析する別のデータ変換パターンを紹介することです。非線形にフォーマットされたデータがアドホックな方法でアップロードされたか、外部ソースに由来するかにかかわらず、このコースの方法は、データエンジニアの変換手法のアーセナルの重要な部分となります。
@transform()
デコレータを使用して、Foundry の生ファイルにアクセスする。