注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
コードベースの分析やパイプラインのプロトタイプには、Code Workbook または Code Workspaces の使用を推奨します。頑健なプロダクションパイプラインと、追加のガバナンスと審査、大量データ、または最適化されたパフォーマンスを必要とするワークフローのサポートには、Pipeline Builder と Code Repositories の使用を推奨します。
パイプラインをどこに書くべきかについての詳細は、Code Workbook、Code Workspaces、および Code Repositories の比較をご覧ください。
Workbook で派生させた出力を確認したら、それらのロジックと出力データセットを信頼できるものにするために強化すべきです。これは Code Workbook で直接行うことができます。以下に、作業を頑健かつプロダクションレディにするための簡単なステップをいくつか紹介します:
Workbook のブランチを保護するには、その Workbook のオーナー権限が必要です。
ブランチ保護 は、Workbook 内のブランチをロックダウンし、そのブランチのロジックを直接編集することを防ぎます。代わりに、ロジックの変更は別のブランチで作成し、それを保護されたブランチにマージする必要があります。通常、ユーザーは Workbook の master
ブランチを保護しますが、他の任意のブランチも保護することができます。
ブランチを保護するには、以下に示すように、ブランチメニューの右上にある設定アイコン () をクリックします。
以下に示すように、Protect this branch をオンに切り替えてブランチ保護を有効にします。デフォルトでは、保護されたブランチでは、ユーザーがそのブランチ上で Run ボタンを使用して出力データセットを計算することは許可されていません。これにより、Workbook の実行がスケジュールされたビルドと衝突することが防止されます。これらは次のセクションで説明されます。
保存すると、ブランチは保護され、読み取り専用になります。
Code Workbook で作成した出力データセットを定期的に更新したい場合があります。これは、入力データセットが更新されたときや、時間ベースの間隔に基づいて行うことができます。これを行うためには、これらの出力データセットに対して定期的なビルドをスケジュールすることができます。
どちらのアクションも Data Lineage アプリに移動します。右側のペインにあるカレンダーアイコンをクリックして Manage Schedules インターフェースを開きます。表示されるプロンプトに従って定期的なスケジュールを設定します。以下の画像では、dataset_1
と dataset_2
を毎日ビルドするスケジュールが表示されています。
Data Lineage でのスケジュール作成について詳しくはこちらをご覧ください。
注意すべき点として、バッチビルドはデータセットとして保存されていない変換(例:永続化されていない変換)を更新しません。具体的には、永続化されていない変換 A が永続化された変換 B の親である場合を考えてみましょう。私がバッチビルドを使用して変換 B をビルドすると、変換 B は変換 A の最新のロジックと、上流の入力データセットの最新のデータを使用します。しかし、変換 A のワークブックで表示されるプレビュー、および変換 A で作成された任意の視覚化は、このバッチビルドによって更新されません。
出力データセットに対するもう一つのベストプラクティスは、Data Health checks の追加です。出力データセットを開き、Health タブをクリックして Data Health ページにアクセスします。健全性チェックを設定すると、データセットのビルドが失敗した場合や、古くなった場合、またはユーザーが指定した他の要件を満たさなかった場合に通知を受け取ることができます。
Foundry の Data Health について詳しくはこちらをご覧ください。
プロジェクトの一部として Workbooks を使用する場合、プロジェクト内に以下のフォルダー構造を作成することを推奨します:
このフォルダー構造が設定されると、ホームフォルダーから新しい Workbook を簡単に共有することができます:
/workbooks
ディレクトリに移動します。/templates
ディレクトリに移動します。/data
フォルダーを選択します。デフォルトでは、Workbook で派生させたすべてのデータセットは、選択した新しいフォルダーに移動します。他のユーザーが変換のフローを容易に理解できるように、グラフを整理したいと思うかもしれません。Code Workbook には、ノードの色分けと自動レイアウトという2つの整理機能があります。
ノードの色分けを使用して、グラフ上のノードを視覚的にグループ化することができます。右上の Colors ボタンをクリックして新しい色グループを作成し、色グループにノードを追加するには、ノードを選択して色グループの + ボタンを使用します。ワークブックの内容ヘルパーでは、データセットのリストを色グループごとにソートすることもできます。
また、右上のレイアウトボタンをクリックしてグラフの特定の部分の自動レイアウトを行うこともできます。デフォルトでは、自動レイアウトは全体のグラフを整理しますが、特定のノードを選択して自動レイアウトをクリックすると、それらのノードだけを整理することもできます。
Code Workbook でパイプラインのプロトタイプを完成させ、Code Repositories にコードを移動したい場合は、Export to Code Repository ヘルパーを使用できます。Code Repositories へのエクスポートについて詳しくはこちらをご覧ください。
以下のような理由から、Code Repositories にコードを移動したいと思うかもしれません: