データ統合パイプラインのビルド非構造化データのパイプライン概要

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

概要

データセットの概要で説明したように、Foundryの非構造化データは、テーブル形式のデータと同様に、データセット内のファイルの集合として保存されます。

以下は、構造化データと非構造化データのパイプライン間で同一の動作をするいくつかの特長です:

  • パイプラインは、計算パフォーマンスを最適化するためにインクリメンタルに設定することができます。
  • ユーザーのパイプラインに対してユニットテストを書くことができます。
  • 出力データセットの計算は、ビルドスケジュールを使用して行います。
  • Foundryのパイプラインセキュリティ機能は、堅牢なエンドツーエンドのセキュリティ保証を可能にします。

テーブル形式のデータに対するパイプラインとの一部の違いには以下のようなものがあります:

  • ドキュメンテーション内のほとんどのガイダンスと例示コードは、データフレームの処理に焦点を当てており、これは非構造化データで使用される入力タイプではありません。
  • 非構造化データセット内のファイルを読み書きするには、より低レベルのファイルシステムAPIを使用しなければなりません。
  • 非構造化データセットにはスキーマがないため、テーブル形式のデータセットの行と行の検証に焦点を当てた一部の機能は利用できません。
  • 非構造化ファイルを並列に処理するためにSparkを使用することは可能ですが、APIはより低レベルで、データフレーム処理よりも複雑です。

非構造化データのパイプラインを始めるには、PythonとJavaのトランスフォームのドキュメンテーションの関連部分を参照してください:

非構造化データがクリーン化・正規化された後、Code Workbookを使用して非構造化データセットを分析し、PythonとRで機械学習モデルを訓練することができます。Code Workbookでの非構造化データアクセスについて詳しく学ぶ