データ統合パイプラインのビルドサポートされる言語

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

サポートされる言語

データ変換を開始する前に、各言語の利点と制限を考慮することが重要です。この表には、サポートされる言語間の主な違いの概要が含まれています:

説明SQLPythonJava
非独占的言語: オンラインで利用可能なドキュメンテーション
ファイルアクセスのサポート: Foundry データセットでファイルを読み書きすることができます。これは、データ変換が非構造化データで操作できることを意味します。
Transform Level Logic Versioning (TLLV): TLLV セクションで詳細情報を確認できます。
増分計算: 増分計算セクションで詳細情報を確認できます。
継承されたマーキングの削除のサポート
1 ファイルあたりに許可される複数の出力データセット
データセットプレビューのサポート
カスタム Transforms プロフィールのサポート

SQL

SQL は、オンラインで利用可能な外部ドキュメンテーションが豊富な言語です。以下は、SQL でデータ変換を書く主な利点です:

  • SQL は最もパフォーマンスの高い言語です(Spark 最適化も含む)。
  • Transforms SQL は、SQL 構文をチェックするためのサンプル SQL クエリを実行できる SQL スクラッチパッドへのアクセスを提供します。

SQL Transforms の詳細についてはこちらをご覧ください。

Python

Python は、オンラインで利用可能な外部ドキュメンテーションが豊富な言語です。Python の言語固有の機能やライブラリを利用できるように、データ変換を Python で書きたいと思うかもしれません。Python API は SQL などの他の言語よりも低レベルです。以下は、Python を使用する主な利点です:

  • transforms Python ライブラリは、ファイルの読み書きなどの機能を公開する API です。ファイルベースのデータ変換は、データを解析し、クリーニングしたいときに、データ変換パイプラインの初期段階で役立つことがあります。
  • pandas、NumPy、その他の機械学習ライブラリなどの外部ライブラリを使用するための一流のサポートがあります。
  • 他の言語ではサポートされていない Spark の追加機能を含む、Spark Python(PySpark)API へのフルアクセスが可能です。

Python Transforms の詳細についてはこちらをご覧ください。

Java

Java は、オンラインで利用可能な外部ドキュメンテーションが豊富な言語です。Java の言語固有の機能を利用できるように、データ変換を Java で書きたいと思うかもしれません。Java は SQL などの他の言語よりも低レベルの API です。以下は、Java を使用する主な利点です:

  • transforms Java ライブラリは、ファイルの読み書きなどの機能を公開する API です。ファイルベースのデータ変換は、データを解析し、クリーニングしたいときに、データ変換パイプラインの初期段階で役立つことがあります。

Java Transforms の詳細についてはこちらをご覧ください。