注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
メディアセットは ベータ版 で、ユーザーのエンロールメントでは利用できない場合があります。メディアセットをユーザーのスタックで使用するための設定や、その特徴について詳しく知りたい場合は、ユーザーの Palantir の担当者に連絡してください。
メディアセットは、共通のスキーマ(例えば、同じ形式のファイル)を持つメディアファイルの集合です。メディアセットは、高スケールの非構造化データの取り扱いを可能にし、オーディオ、画像、PDFなどのメディアアイテムの複雑な処理を容易にします。メディアセットは、柔軟なストレージ、計算の最適化、スキーマ固有の変換を利用し、ユーザーのメディアワークフローとパイプラインを強化します。
メディアセットは、直接アップロード、Data Connection の外部ソースシステムへの接続、API ポスト、変換(外部変換を含む)を通じてインポートの設定が可能です。
直接アップロードを通じてメディアファイルをメディアセットにインポートするには、ファイルを新しいメディアセットにドラッグアンドドロップします。アップロードするためには、ファイルはメディアセットの作成時に指定した予想されるファイルタイプと一致する必要があります。
メディアセットは、Data Connection を通じて外部ソースとの同期を利用してインポートすることができます。
新しいメディアセットの 同期 を作成するには、希望する ソース の Overview タブに移動します。
同期を作成した後、メディアセットビューでビルドをトリガーすると、メディアがユーザーのメディアセットに表示されます。
サポートされているソースタイプについては、メディアセットはオプションで外部ソースシステムから直接読み込むように設定することができ、データは Foundry のバッキングストアにはコピーされません("仮想メディアセット")。
現在、仮想メディアセットは特定のソースタイプのみでサポートされています。ユーザーのユースケースにおいて他のソースタイプで仮想ストレージを利用したい場合は、Palantir サポートにお問い合わせください。
REST API を持つソースについては、外部変換を通じてメディアをメディアセットにインポートできます。
メディアセットは、PDF のテキスト抽出、光学文字認識(OCR)、画像のタイリング、メタデータの解析といった特殊な変換をサポートしており、これらは Pythonトランスフォームで transforms-media
ライブラリをインポートすることで利用できます。これらの変換の詳細なリストはライブラリドキュメンテーションに含まれています。
一部の共通の変換は Pipeline Builder でも利用可能です。現在利用できない変換に興味がある場合は、Palantir サポートに連絡してください。
高度なユーザーや開発者は、メディアセットの アクセスパターン を利用できます。アクセスパターンは、メディアセットのメディアアイテムに対してオンデマンドで実行できる、事前に設定された変換です。アクセスパターンはストレージと最適化調整のための永続性ポリシーを有し、各リクエストごとに再計算するオプション、最初のリクエスト後に永続的に出力を保持するオプション、あるいは一定時間キャッシュするオプションを可能にします。
アクセスパターンは、Foundry プラットフォームがメディアセットのアイテムを最適に処理またはレンダリングするために利用されます。例えば:
利用可能なデフォルトのアクセスパターンのセットは、設定されたメディアセットスキーマに基づいて決定されます。追加の変換は、API コールのみを通じてメディアセットにアクセスパターンとして登録されます。
メディアセットのアイテムは、メディア参照 を使用して参照することができます。メディア参照を使用すると、メディアアイテム自体のコピーを作成することなく、Foundry 内のメディアアイテムを指定することができます。
メディア参照 を使用して、データセット内のメディアセットアイテムを参照します。これは、メディアアイテムをメタデータや他の情報とともに表形式で関連付けるのに便利です。例えば、元の PDF をそのファイル名、ページ数、抽出されたテキストとともに関連付けることができます。
また、メディア参照をバッチ推論パイプラインの モデルアダプタ の入力として使用することもできます。
ユーザーのメディアセットのメディア参照のリストを作成するには、Pipeline Builder の Get media references
関数を使用します。また、transforms-media
ライブラリをインポートし、list_media_items_by_path_with_media_reference
メソッドを呼び出すことで Python Transforms でメディア参照を作成することもできます:
from pyspark.sql import functions as F
from transforms.api import transform, Input, Output
from transforms.mediasets import MediaSetInput
@transform(
metadata_out=Output("{YOUR_OUTPUT_METADATA_DATASET}"),
mediaset_in=MediaSetInput("{YOUR_MEDIA_SET_RID}")
)
def compute(ctx, mediaset_in, metadata_out):
# メディアリファレンスをパスとメディアリファレンスとともに取得
media_references = mediaset_in.list_media_items_by_path_with_media_reference(ctx)
# データセット内のインラインサムネイルを有効にする
column_typeclasses = {'mediaReference': [{'kind': 'reference', 'name': 'media_reference'}]}
metadata_out.write_dataframe(media_references, column_typeclasses=column_typeclasses)
メディアリファレンスのオブジェクトプロパティを使用して、オントロジーを構築するアプリケーションでメディアを効率的に表示します。最適化には、Workshop や Object Explorer での高速でインタラクティブなプレビュー、および Map での地理空間イメージのタイリングが含まれます。