注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Foundry には、コードベースのデータ変換を記述するための2つの製品があります。Code Workbook とコードリポジトリです。これらの製品間には一部機能が重複していますが、それぞれ異なるワークフローとユーザータイプに特化しています。以下のガイドは、どのツールがユーザーのニーズに最適かを判断するのに役立ちます。
Code Workbookは、コードベースの分析を行うことをお勧めします。これらの分析は、一度限りの使用のためのものであったり、定期的に更新される作成物を生成することができます。Code Workbook は、パイプラインのプロトタイプも作成でき、その後リポジトリに昇格することができます。Code Workbook に適した例のワークフローは以下の通りです。
コードリポジトリは、堅牢なプロダクションパイプラインを作成し、ガバナンスと厳密な検証が必要なワークフローをサポートすることをお勧めします。コードリポジトリでは、データエンジニアが効率的なパイプラインを一括で作成することができます。コードリポジトリに適した例のワークフローは以下の通りです。
コードリポジトリ | Code Workbook | |
---|---|---|
機能 | 高度なパイプライン | 高度な分析 |
長期間のデータパイプラインで複雑なワークフローを可能にし、パフォーマンス最適化とコード生成の柔軟性を提供します。 | 一般的な分析言語と可視化ライブラリをサポートしたデータ分析ワークフローを実現します。 | |
対応言語 | Python, SQL, Java, Mesa | Python, R, SQL |
増分計算 | はい | いいえ |
変換生成 | はい | いいえ |
マルチ出力変換 | はい | いいえ |
ファイルシステムアクセス | はい | はい |
可視化サポート | いいえ | はい |
反復サイクル | コードロジックの反復 | インサイト生成の反復 |
コードロジックの反復を支援するように設計されています。ランタイムデバッガやプレビューを使って変換ロジックを検証できます。Foundry でビルド後にデータを分析できます。 | データからインサイトを生成するために設計されており、すべての変換が完全な入力データで実行され、インタラクティブなコンソールがアドホックなクエリを可能にし、Spark 実行モデルが素早い反復のために最適化されています。 | |
フルデータプレビュー | 入力サンプルの事前フィルタリングが可能なデータサンプルのプレビュー | フルデータプレビュー |
デバッガー | はい | いいえ |
コンソールサポート | デバッグモードで | はい |
Spark モジュール管理 | ジョブレベルで Spark モジュールを開始します | スパークモジュールを即時に対話可能に保ち、ワークブックレベルで開始します |
運用 | データパイプライン管理 | データ分析管理 |
Foundry データ管理ライブラリとカスタム Python ライブラリの公開をサポートします | コードリポジトリから公開されたカスタムライブラリを利用でき、ユーザーはロジックの一部をコードテンプレートとして保存して、他のユーザーがポイントアンドクリックで分析を行えるようにします。 | |
データ期待値 | はい | いいえ |
カスタムライブラリの公開 | はい | いいえ |
カスタムライブラリの利用 | はい | 一部の環境にはい |
ポイントアンドクリックのコードテンプレート | いいえ | はい |
変更管理 | ガバナンス | 迅速な変更 |
重要なパイプラインが安全で堅牢であることを確保するために、変更の追跡可能性とガバナンスを優先します。高度なレビューと承認ワークフロー、および完全な変更履歴。 | 軽量なブランチングワークフローと共同作業を迅速に反復することを優先し、CI チェックやユニットテストは必要ありません。 | |
フル Git ワークフロー | はい | いいえ |
マージ後のデータコピー | いいえ | はい |
セキュリティマーキングの管理と削除 | はい | いいえ |
インパクト分析ビュー | はい | いいえ |
高度なコードレビューワークフロー | はい | いいえ |
ユニットテスト | はい | いいえ |