Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

プロダクションへの移行

コードベースの分析やパイプラインのプロトタイプには、Code Workbook または Code Workspaces の使用を推奨します。頑健なプロダクションパイプラインと、追加のガバナンスと審査、大量データ、または最適化されたパフォーマンスを必要とするワークフローのサポートには、Pipeline Builder と Code Repositories の使用を推奨します。

パイプラインをどこに書くべきかについての詳細は、Code Workbook、Code Workspaces、および Code Repositories の比較をご覧ください。

Workbook で派生させた出力を確認したら、それらのロジックと出力データセットを信頼できるものにするために強化すべきです。これは Code Workbook で直接行うことができます。以下に、作業を頑健かつプロダクションレディにするための簡単なステップをいくつか紹介します:

ブランチの保護

Workbook のブランチを保護するには、その Workbook のオーナー権限が必要です。

ブランチ保護 は、Workbook 内のブランチをロックダウンし、そのブランチのロジックを直接編集することを防ぎます。代わりに、ロジックの変更は別のブランチで作成し、それを保護されたブランチにマージする必要があります。通常、ユーザーは Workbook の master ブランチを保護しますが、他の任意のブランチも保護することができます。

ブランチを保護するには、以下に示すように、ブランチメニューの右上にある設定アイコン (Gear icon) をクリックします。

pipeline-branch-menu

以下に示すように、Protect this branch をオンに切り替えてブランチ保護を有効にします。デフォルトでは、保護されたブランチでは、ユーザーがそのブランチ上で Run ボタンを使用して出力データセットを計算することは許可されていません。これにより、Workbook の実行がスケジュールされたビルドと衝突することが防止されます。これらは次のセクションで説明されます。

pipeline-branch-protection

保存すると、ブランチは保護され、読み取り専用になります。

pipeline-readonly

バッチビルドの使用

Code Workbook で作成した出力データセットを定期的に更新したい場合があります。これは、入力データセットが更新されたときや、時間ベースの間隔に基づいて行うことができます。これを行うためには、これらの出力データセットに対して定期的なビルドをスケジュールすることができます。

  • 1つの出力データセットに対して定期的なビルドをスケジュールするには、データセットのアクションを開き、Manage Schedules をクリックします。
  • 複数の出力データセットに対して定期的なビルドをスケジュールするには、ワークブックの上部にある歯車アイコンをクリックし、Explore Data Lineage を選択します。ここでワークブックからのすべての入力データセットと保存された出力データセットを見ることができます。

どちらのアクションも Data Lineage アプリに移動します。右側のペインにあるカレンダーアイコンをクリックして Manage Schedules インターフェースを開きます。表示されるプロンプトに従って定期的なスケジュールを設定します。以下の画像では、dataset_1dataset_2 を毎日ビルドするスケジュールが表示されています。

Build schedules panel

Data Lineage でのスケジュール作成について詳しくはこちらをご覧ください。

注意すべき点として、バッチビルドはデータセットとして保存されていない変換(例:永続化されていない変換)を更新しません。具体的には、永続化されていない変換 A が永続化された変換 B の親である場合を考えてみましょう。私がバッチビルドを使用して変換 B をビルドすると、変換 B は変換 A の最新のロジックと、上流の入力データセットの最新のデータを使用します。しかし、変換 A のワークブックで表示されるプレビュー、および変換 A で作成された任意の視覚化は、このバッチビルドによって更新されません。

データ健全性チェック

出力データセットに対するもう一つのベストプラクティスは、Data Health checks の追加です。出力データセットを開き、Health タブをクリックして Data Health ページにアクセスします。健全性チェックを設定すると、データセットのビルドが失敗した場合や、古くなった場合、またはユーザーが指定した他の要件を満たさなかった場合に通知を受け取ることができます。

Foundry の Data Health について詳しくはこちらをご覧ください。

pipeline-data-health

出力の整理

プロジェクトの一部として Workbooks を使用する場合、プロジェクト内に以下のフォルダー構造を作成することを推奨します:

  • /data
  • /workbooks
  • /templates

このフォルダー構造が設定されると、ホームフォルダーから新しい Workbook を簡単に共有することができます:

  1. Workbook を /workbooks ディレクトリに移動します。
  2. Workbook でテンプレートを作成した場合は、それらを /templates ディレクトリに移動します。
  3. データセットを移動するには、Workbook の左上にある Output ドロップダウンをクリックし、次に “Change folder…” をクリックして新しい出力データセットが追加されるフォルダーを選択します。プロジェクトの /data フォルダーを選択します。デフォルトでは、Workbook で派生させたすべてのデータセットは、選択した新しいフォルダーに移動します。
pipeline-folder-management pipeline-move-datasets

グラフの整理

他のユーザーが変換のフローを容易に理解できるように、グラフを整理したいと思うかもしれません。Code Workbook には、ノードの色分けと自動レイアウトという2つの整理機能があります。

ノードの色分けを使用して、グラフ上のノードを視覚的にグループ化することができます。右上の Colors ボタンをクリックして新しい色グループを作成し、色グループにノードを追加するには、ノードを選択して色グループの + ボタンを使用します。ワークブックの内容ヘルパーでは、データセットのリストを色グループごとにソートすることもできます。

node-coloring

また、右上のレイアウトボタンをクリックしてグラフの特定の部分の自動レイアウトを行うこともできます。デフォルトでは、自動レイアウトは全体のグラフを整理しますが、特定のノードを選択して自動レイアウトをクリックすると、それらのノードだけを整理することもできます。

graph-autolayout

Code Repository へのエクスポート

Code Workbook でパイプラインのプロトタイプを完成させ、Code Repositories にコードを移動したい場合は、Export to Code Repository ヘルパーを使用できます。Code Repositories へのエクスポートについて詳しくはこちらをご覧ください。

以下のような理由から、Code Repositories にコードを移動したいと思うかもしれません:

  • Code Repositories は完全な Git サポートを提供し、ユーザーが以前のコミットを表示し、それに戻ることができます。
  • Code Repositories は増分変換と複数出力変換をサポートしています。
  • Code Repositories は unmarking workflows をサポートし、branch settings を使用して PR がマージ可能になるタイミングを制御します。