注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

比較: コードリポジトリ vs. Code Workbook

Foundry には、コードベースのデータ変換を記述するための2つの製品があります。Code Workbook とコードリポジトリです。これらの製品間には一部機能が重複していますが、それぞれ異なるワークフローとユーザータイプに特化しています。以下のガイドは、どのツールがユーザーのニーズに最適かを判断するのに役立ちます。

Code Workbookは、コードベースの分析を行うことをお勧めします。これらの分析は、一度限りの使用のためのものであったり、定期的に更新される作成物を生成することができます。Code Workbook は、パイプラインのプロトタイプも作成でき、その後リポジトリに昇格することができます。Code Workbook に適した例のワークフローは以下の通りです。

  • 異なる p 値を試すことで臨床試験の結果を調査する。
  • 他の人と共有するためのインタラクティブな可視化を作成する。

コードリポジトリは、堅牢なプロダクションパイプラインを作成し、ガバナンスと厳密な検証が必要なワークフローをサポートすることをお勧めします。コードリポジトリでは、データエンジニアが効率的なパイプラインを一括で作成することができます。コードリポジトリに適した例のワークフローは以下の通りです。

  • 高いデータスケールでの毎日のパイプラインで、増分計算が必要です。
  • 履歴コードの以前のバージョンに戻したり、ユニットテストの合格を条件にコード変更を行ったりできる厳格なガバナンス要件がある高視認性のパイプライン。

比較の概要

コードリポジトリCode Workbook
機能高度なパイプライン高度な分析
長期間のデータパイプラインで複雑なワークフローを可能にし、パフォーマンス最適化とコード生成の柔軟性を提供します。一般的な分析言語と可視化ライブラリをサポートしたデータ分析ワークフローを実現します。
対応言語Python, SQL, Java, MesaPython, R, SQL
増分計算はいいいえ
変換生成はいいいえ
マルチ出力変換はいいいえ
ファイルシステムアクセスはいはい
可視化サポートいいえはい
反復サイクルコードロジックの反復インサイト生成の反復
コードロジックの反復を支援するように設計されています。ランタイムデバッガやプレビューを使って変換ロジックを検証できます。Foundry でビルド後にデータを分析できます。データからインサイトを生成するために設計されており、すべての変換が完全な入力データで実行され、インタラクティブなコンソールがアドホックなクエリを可能にし、Spark 実行モデルが素早い反復のために最適化されています。
フルデータプレビュー入力サンプルの事前フィルタリングが可能なデータサンプルのプレビューフルデータプレビュー
デバッガーはいいいえ
コンソールサポートデバッグモードではい
Spark モジュール管理ジョブレベルで Spark モジュールを開始しますスパークモジュールを即時に対話可能に保ち、ワークブックレベルで開始します
運用データパイプライン管理データ分析管理
Foundry データ管理ライブラリとカスタム Python ライブラリの公開をサポートしますコードリポジトリから公開されたカスタムライブラリを利用でき、ユーザーはロジックの一部をコードテンプレートとして保存して、他のユーザーがポイントアンドクリックで分析を行えるようにします。
データ期待値はいいいえ
カスタムライブラリの公開はいいいえ
カスタムライブラリの利用はい一部の環境にはい
ポイントアンドクリックのコードテンプレートいいえはい
変更管理ガバナンス迅速な変更
重要なパイプラインが安全で堅牢であることを確保するために、変更の追跡可能性とガバナンスを優先します。高度なレビューと承認ワークフロー、および完全な変更履歴。軽量なブランチングワークフローと共同作業を迅速に反復することを優先し、CI チェックやユニットテストは必要ありません。
フル Git ワークフローはいいいえ
マージ後のデータコピーいいえはい
セキュリティマーキングの管理と削除はいいいえ
インパクト分析ビューはいいいえ
高度なコードレビューワークフローはいいいえ
ユニットテストはいいいえ
表の要約
コードリポジトリの機能
  • コードリポジトリは、高度なパイプラインを機能とし、長期間のデータパイプラインで複雑なワークフローを実現し、パフォーマンス最適化とコード生成の柔軟性を提供します。
  • コードリポジトリで対応している言語は、Python、SQL、Java、および Mesa です。
  • コードリポジトリは、増分計算変換生成マルチ出力変換、およびファイルシステムアクセスをサポートしています。
  • コードリポジトリは、可視化をサポートしていません。
Code Workbook の機能
  • Code Workbook は、一般的な分析言語と可視化ライブラリをサポートしたデータ分析ワークフローを特徴とする高度な分析を提供します。
  • Code Workbook で対応している言語は、Python、R、および SQL です。
  • Code Workbook は、ファイルシステムアクセスおよび可視化をサポートしています。
  • Code Workbook は、増分計算、変換生成、またはマルチ出力変換をサポートしていません。
コードリポジトリの反復サイクル
  • コードリポジトリは、コードロジックの反復を支援するように設計されています。データは Foundry でビルドした後に分析できます。
  • コードリポジトリは、変換ロジックを検証するためのデータサンプルプレビューをサポートしており、入力サンプルの事前フィルタリングが可能です。
  • コードリポジトリは、ランタイムでのデバッグをサポートしています。
  • コードリポジトリでは、ジョブレベルで Spark モジュールが開始されます。
Code Workbook の反復サイクル
  • Code Workbook は、データからインサイトを生成するために設計されています。すべての変換が完全な入力データで実行され、Spark 実行モデルは素早い反復のために最適化されています。
  • Code Workbook は、フルデータプレビューをサポートしています。
  • Code Workbook は、コンソールサポートを提供しており、変換のアドホック分析が可能です。
  • Code Workbook では、Spark モジュールが即時対話可能に保たれ、ワークブックレベルで開始されます。
コードリポジトリの運用
  • コードリポジトリは、Foundry データ管理ライブラリおよびカスタム Python ライブラリをサポートしています。
  • コードリポジトリは、データ期待値カスタムライブラリの公開、およびカスタムライブラリの利用をサポートしています。
  • コードリポジトリは、ポイントアンドクリックのコードテンプレートをサポートしていません。
Code Workbook の運用
  • Code Workbook は、コードリポジトリから公開されたカスタムライブラリを利用でき、ユーザーはロジックの一部をコードテンプレートとして保存して、他のユーザーがポイントアンドクリックで分析を行えるようにします。
  • Code Workbook は、データ期待値やカスタムライブラリの公開をサポートしていません。
  • Code Workbook は、一部の Spark 環境でカスタムライブラリを利用しています。
  • Code Workbook は、ポイントアンドクリックのテンプレートをサポートしています。
コードリポジトリの変更管理
  • コードリポジトリは、重要なパイプラインが安全で堅牢であることを確保するために、変更の追跡可能性とガバナンスを優先します。
  • コードリポジトリは、完全な変更履歴を提供します。
  • コードリポジトリは、フル Git ワークフロー、セキュリティマーキングの管理および削除インパクト分析ビュー、高度なコードレビューワークフロー、およびユニットテストを提供します。
  • コードリポジトリは、マージ後のデータコピーをサポートしていません。
Code Workbook の変更管理
  • Code Workbook は、軽量なブランチングワークフローと共同作業を迅速に反復することを優先し、CI チェックやユニットテストは必要ありません。
  • Code Workbook は、マージ後のデータコピーをサポートしています。
  • Code Workbook は、フル Git ワークフロー、セキュリティマーキングの管理や削除、インパクト分析ビュー、高度なコードレビューワークフロー、およびユニットテストを提供していません。