5A. [Repositories] Working with Raw Files in Code Repositories1 - このコースについて
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

Foundry でのデータ変換の背後にある計算エンジンは、Spark です。これは、オープンソースの分散クラスター・コンピューティングフレームワークで、大規模なデータ処理と分析を迅速に行うことができます。Spark は、Parquet というデータファイルタイプで最も効率的に動作し、デフォルトでは、Foundry は出力データセットを分散された Parquet ファイルのシリーズとして変換します。

すべての条件が等しい場合、Parquet ファイルで構成されたデータセットは、他のデータ形式よりも常に Spark によって効率的に計算されます。ただし、非線形形式のファイル(XML や JSON など)を処理する場合もあります。このチュートリアルでは、前のチュートリアルで使用された @transform_df とは対照的に、@transform() デコレータを使用して Foundry データセット内のファイルを読み書きするために必要な基本事項を説明します。

パイプラインの開発を次のステップに進めるために必要なファイルは、非 Parquet 形式であり、コードで直接アクセスして変換する必要があります。

⚠️ コースの前提条件

  • データパイプラインのスケジューリング: このコースをまだ完了していない場合は、今すぐ完了してください。
  • Spark および分散コンピューティングに関する基本的な理解があれば、データセットの構造について話し始める際に有利になりますが、必須ではありません。

アウトカム

データパイプラインには、マッピングファイルで強化されたクリーンなフライトアラートデータが含まれていますが、全体のプロジェクトに組み込みたい別のデータソースがあります。これらのフライトアラートに関連する乗客のデータです。たとえば、チームは、フライト遅延/アラートの重大度と顧客ステータスに基づいて旅行バウチャーを割り当てる機能をワークフローに組み込むことを決定したかもしれません。そして、パイプラインに乗客データを統合することは、そのインタラクションパターンをサポートするオントロジーフレームワークを作成するための必要なステップです。

このチュートリアルの目的は、Foundry で CSV および JSON ファイルを直接アクセスして解析する別のデータ変換パターンを紹介することです。非線形にフォーマットされたデータがアドホックな方法でアップロードされたか、外部ソースに由来するかにかかわらず、このコースの方法は、データエンジニアの変換手法のアーセナルの重要な部分となります。

🥅 学習の目的

  1. Code Repositories アプリケーションでの変換からの生ファイルアクセスを理解する。
  2. Foundry の API とパッケージを使用して、非線形ファイルを Parquet に解析する。

💪 Foundry のスキル

  • @transform() デコレータを使用して、Foundry の生ファイルにアクセスする。
  • 追加の Python ライブラリを使用して、非 Parquet データを解析する。
  • Foundry Explorer ヘルパーを使用する。