注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Foundry には、コードベースのデータトランスフォームを作成するための 3 つの製品があります: Code Workbook、Code Workspaces、および Code Repositories。これらの製品にはいくつかの機能の重複がありますが、それぞれが異なるワークフローとユーザータイプに合わせて設計されています。以下のガイドは、どのツールがユーザーのニーズに最適かを判断するのに役立ちます。
Code Repositories は、堅牢なプロダクションパイプラインを作成し、ガバナンスと精査の追加層が必要なワークフローをサポートするために推奨されます。Code Repositories を使用すると、データエンジニアは効率的なパイプラインを一括で作成できます。Code Repositories に適したワークフローの例には次のものがあります:
Code Workspaces は、JupyterLab® および RStudio® Workbench を使用して、Foundry プラットフォームのデータセキュリティ、ブランチング、ビルドスケジューリング、リソース管理などの利点と組み合わせて、迅速かつ効率的な探索的分析を行うために推奨されます。Code Workspaces に適したワークフローの例には次のものがあります:
Code Workbook は、Code Workspaces では適さない高スケールデータに対してコードベースの分析を行うために推奨されます。これらの分析は一度限りの使用であるか、定期的に更新される製作物を生成する可能性があります。Code Workbook はパイプラインのプロトタイピングにも使用でき、その後 リポジトリに昇格 することができます。Code Workbook に適したワークフローの例には次のものがあります:
Code Repositories | Code Workspaces | Code Workbook | |
---|---|---|---|
機能 | 高度なパイプライン | 探索的分析 | 高度な分析 |
柔軟なパフォーマンス最適化とコード生成を備えた、長期間持続するデータパイプラインでの複雑なワークフローを可能にします。 | Foundry のプリミティブと結びついた使い慣れた IDE を使用して、インタラクティブな探索的ワークフローを可能にします。 | 一般的な分析言語とビジュアライゼーションライブラリをサポートするデータ分析ワークフローを可能にします。 | |
サポートされる言語 | Python, SQL, Java, Mesa | Python, R | Python, R, SQL |
サポートされる環境 | すべての環境 | Kubernetes 環境のみ | すべての環境 |
バッチパイプラインのサポート | はい | はい | はい |
増分計算 | はい | いいえ | いいえ |
トランスフォーム生成 | はい | いいえ | いいえ |
複数出力トランスフォーム | はい | はい | いいえ |
ファイルシステムアクセス | はい | はい | はい |
ビジュアライゼーションサポート | いいえ | はい | はい |
イテレーションサイクル | コードロジックのイテレーション | データ探索と分析のイテレーション | 洞察生成のイテレーション |
コードロジックのイテレーションを支援するように設計されています。実行時デバッガとプレビューはトランスフォームロジックの検証に役立ちます。データはビルド後に Foundry で分析できます。 | 広く知られているツールを使用してデータ探索と分析を迅速にイテレーションするために設計されています。 | データから洞察を生成するのに役立つように設計されています。すべてのトランスフォームは入力データ全体で実行され、インタラクティブコンソールはアドホッククエリを可能にし、Spark 実行モデルは迅速なイテレーションのために最適化されています。 | |
フルデータプレビュー | 入力サンプルを事前にフィルター処理する機能付きデータサンプルのプレビュー | フルデータプレビュー | フルデータプレビュー |
デバッガ | はい | いいえ | いいえ |
コンソールサポート | デバッグモードで | はい | はい |
Spark モジュール管理 | ジョブレベルで Spark モジュールが開始されます | 迅速なフィードバックループのための Spark レス環境 | インタラクティブ性のために Spark モジュールが保温され、ワークブックレベルで開始されます |
運用 | データパイプライン管理 | データ探索管理 | データ分析管理 |
Foundry データ管理ライブラリとカスタム Python ライブラリをサポートします | pip、CRAN、Conda ライブラリを含む、Code Repositories から公開されたライブラリを消費できる完全に調整可能な環境 | Code Repositories から公開されたカスタムライブラリを消費でき、ユーザーはコードテンプレートとしてロジックの一部を保存でき、他のユーザーによるポイントアンドクリック分析が可能になります。 | |
データ期待値 | はい | いいえ | いいえ |
カスタムライブラリの公開 | はい | いいえ | いいえ |
カスタムライブラリの消費 | はい | はい | はい (一部の環境で) |
ポイントアンドクリックコードテンプレート | いいえ | いいえ | はい |
変更管理 | ガバナンス | 柔軟性 | 迅速な変更 |
重要なパイプラインが安全かつ堅牢であり続けるよう、変更のトレーサビリティとガバナンスを優先します。高度なレビューおよび承認ワークフローと完全な変更履歴。 | フルブランチサポートと自動 Git バージョン管理による迅速かつ柔軟なイテレーションを優先します。 | 軽量なブランチワークフローによる迅速なイテレーションと共同作業を優先します。CI チェックやユニットテストは不要です。 | |
フル Git ワークフロー | はい | はい | いいえ |
マージ後のデータコピー | いいえ | いいえ | はい |
セキュリティマーキングの管理と削除 | はい | いいえ | いいえ |
影響分析ビュー | はい | いいえ | いいえ |
高度なコードレビュー ワークフロー | はい | いいえ | いいえ |
ユニットテスト | はい | いいえ | いいえ |
JupyterLab® は NumFOCUS の登録商標です。 RStudio® は Posit™ の商標です。