データ統合パイプラインの最適化とビルド概要

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

概要

Foundry でデータパイプラインを作成する過程で、ジョブの失敗を効果的にデバッグしたり、計算パフォーマンスを向上させるために、裏でどのように計算が行われているのかの詳細を理解する必要がある場合があります。一般的に、予期しない計算問題やパフォーマンス問題に遭遇した場合は、以下の手順に従ってください。

パイプラインがバッチパイプラインである場合、Foundry 内の計算を支える Spark エンジンをより効果的に利用することで、一部の計算ジョブを高速化できるかもしれません。ただし、このようなパフォーマンスチューニングには限界があります。パイプラインの入力が時間とともに急速に増えている場合、実際に変更されている行やファイルのデータのみを処理するように、パイプラインをインクリメンタルに変更する必要があるかもしれません。

予期しない失敗が発生しているジョブやエンドツーエンドのパイプラインのデバッグを開始したい場合は、以下のガイドを参照してください。

Foundry での計算がどのように機能しているのかを理解することに興味がある場合は、まず Spark のコアコンセプトを探索することから始めてください。