注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Code Workbook をインタラクティブに使用し、ワークブックインターフェース内からジョブを実行すると、すべてのジョブはワークブックに関連付けられた Spark モジュールを使用します。下の画像でわかるように、任意のセッションのセッション履歴ダイアログで Spark モジュール ID を表示できます。
各ユーザーには、同じプロジェクト内の同じ環境でワークブック間で使用される 1 つの Spark モジュールが割り当てられるため、インタラクティブジョブは別のワークブックからの他のジョブが完了するのを待ってキューに入れられることがあります。例えば、同じモジュールで最大 5 つの Python ジョブが同時に実行できます。6 つ目のジョブは "Code Workbook でキューイング" と表示されます。
バッチビルド内では(例えば、スケジュールされたビルドやデータセットプレビューからのビルドなど)、ビルド内の環境ごとに 1 つの Spark モジュールが使用されます。例えば、スケジュールされたビルドに複数の Code Workbook 内で作成されたデータセットが含まれていて、これらの Code Workbook がすべて同じ環境を使用している場合、ビルドはすべてのジョブで同じ Spark モジュールを使用します。インタラクティブジョブはその Spark モジュールにルーティングされません。
出力がデータセットとして保存されることを望む場合や、コードを反復処理するために一つ一つの変換を実行しない場合は、バッチビルドを使用することをお勧めします。これには以下のようなケースが含まれます。
ワークブックから、データセットを開くを使用してデータセットプレビューでデータセットを表示し、画面右上のビルドボタンを使用してビルドします。複数のデータセットをビルドするには、ページ上部の歯車アイコンに移動し、データフローを確認するを選択します。次に、ビルドしたいデータセットを選択し、右のサイドバーでそれらをビルドする選択肢を選択します。
あるいは、同じサイドバーでカレンダーアイコンをクリックし、データセットのビルドを定期的に実行するスケジュールを設定します。スケジュールの設定方法について詳しくはこちら。
ジョブがバッチビルドモードでビルドされているかインタラクティブモードでビルドされているかを確認するには、ビルドアプリケーションに移動し、「詳細」ボタンをクリックします。
詳細には、Spark モジュールの ID と、isInteractive
が true かどうかが記載されています。true の場合、ジョブはインタラクティブモードで実行されています。false の場合、ジョブはバッチビルドモードで実行されており、インタラクティブジョブとは Spark モジュールを共有していません。