Foundry でのデータ分析入門2 - 表形式データの定義

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

2 - 表形式データの定義

Foundry のデータセットとは、ユーザー定義ロジックで構築された行、列、スキーマ、および値のコレクションです。そのロジックが実行されると、業界内で一般的なデータプラットフォームの表形式構造を生成するために、いくつかのトランザクションタイプのうちの1つが実行されます。

裏側では、Foundry はデータセットをより小さなファイルに分割し、それらをバックエンドファイルシステムに格納します。データセットのビルドが実行されると(例えば、スケジュールに従って)、入力(バックエンドファイルシステム内の分割されたデータセットファイル)を組み立て、それらに対してユーザー定義ロジックを実行して出力を生成します。

📚 推薦文献(約5分間の読み物)

Foundry データセットの構造の概要について、この概要を読んでみてください。 このチュートリアルの残りの部分では、これらの用語と概念に精通していることが前提となります。

分散データのアーキテクチャは、標準的なリレーショナルデータベーステーブルとは異なりますが、Foundry の分析アプリケーションではほとんどが抽象化されています。ただし、Foundry でデータセットがどのように構築されているかを一般的に把握することで、分析のパフォーマンスを最適化したり、データセットが最新の状態を保つ方法をよりよく理解することができます。以下の画像を確認して、Foundry のデータセットがトランザクションと複数の入力データセットを利用する方法の例を確認してください。

データセット A とデータセット B がトランザクションによって影響を受け、出力データセットファイルが生成されるアーキテクチャフローチャート。