ドキュメントの検索
karat

+

K

APIリファレンス ↗

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

メディアセット [ベータ版]

メディアセットは ベータ版 で、ユーザーのエンロールメントでは利用できない場合があります。メディアセットをユーザーのスタックで使用するための設定や、その特徴について詳しく知りたい場合は、ユーザーの Palantir の担当者に連絡してください。

メディアセットは、共通のスキーマ(例えば、同じ形式のファイル)を持つメディアファイルの集合です。メディアセットは、高スケールの非構造化データの取り扱いを可能にし、オーディオ、画像、PDFなどのメディアアイテムの複雑な処理を容易にします。メディアセットは、柔軟なストレージ、計算の最適化、スキーマ固有の変換を利用し、ユーザーのメディアワークフローとパイプラインを強化します。

メディアセットは、オーディオ、画像、PDFのインポートをサポートしています。

メディアのインポート

メディアセットは、直接アップロード、Data Connection の外部ソースシステムへの接続、API ポスト、変換(外部変換を含む)を通じてインポートの設定が可能です。

直接アップロード

直接アップロードを通じてメディアファイルをメディアセットにインポートするには、ファイルを新しいメディアセットにドラッグアンドドロップします。アップロードするためには、ファイルはメディアセットの作成時に指定した予想されるファイルタイプと一致する必要があります。

Data Connection

メディアセットは、Data Connection を通じて外部ソースとの同期を利用してインポートすることができます。

新しいメディアセットの 同期 を作成するには、希望する ソースOverview タブに移動します。

同期を作成した後、メディアセットビューでビルドをトリガーすると、メディアがユーザーのメディアセットに表示されます。

仮想ストレージ

サポートされているソースタイプについては、メディアセットはオプションで外部ソースシステムから直接読み込むように設定することができ、データは Foundry のバッキングストアにはコピーされません("仮想メディアセット")。

現在、仮想メディアセットは特定のソースタイプのみでサポートされています。ユーザーのユースケースにおいて他のソースタイプで仮想ストレージを利用したい場合は、Palantir サポートにお問い合わせください。

image

外部変換

REST API を持つソースについては、外部変換を通じてメディアをメディアセットにインポートできます。

変換

メディアセットは、PDF のテキスト抽出、光学文字認識(OCR)、画像のタイリング、メタデータの解析といった特殊な変換をサポートしており、これらは Pythonトランスフォームで transforms-media ライブラリをインポートすることで利用できます。これらの変換の詳細なリストはライブラリドキュメンテーションに含まれています。

一部の共通の変換は Pipeline Builder でも利用可能です。現在利用できない変換に興味がある場合は、Palantir サポートに連絡してください。

アクセスパターン

高度なユーザーや開発者は、メディアセットの アクセスパターン を利用できます。アクセスパターンは、メディアセットのメディアアイテムに対してオンデマンドで実行できる、事前に設定された変換です。アクセスパターンはストレージと最適化調整のための永続性ポリシーを有し、各リクエストごとに再計算するオプション、最初のリクエスト後に永続的に出力を保持するオプション、あるいは一定時間キャッシュするオプションを可能にします。

アクセスパターンは、Foundry プラットフォームがメディアセットのアイテムを最適に処理またはレンダリングするために利用されます。例えば:

  • Workshop 内の PDF のサムネイルとプレビュー
  • Preview アプリケーション内のバッファリングされたオーディオ波形
  • Map 内のタイル化された衛星画像

利用可能なデフォルトのアクセスパターンのセットは、設定されたメディアセットスキーマに基づいて決定されます。追加の変換は、API コールのみを通じてメディアセットにアクセスパターンとして登録されます。

メディア参照

メディアセットのアイテムは、メディア参照 を使用して参照することができます。メディア参照を使用すると、メディアアイテム自体のコピーを作成することなく、Foundry 内のメディアアイテムを指定することができます。

メディア参照 を使用して、データセット内のメディアセットアイテムを参照します。これは、メディアアイテムをメタデータや他の情報とともに表形式で関連付けるのに便利です。例えば、元の PDF をそのファイル名、ページ数、抽出されたテキストとともに関連付けることができます。

また、メディア参照をバッチ推論パイプラインの モデルアダプタ の入力として使用することもできます。

ユーザーのメディアセットのメディア参照のリストを作成するには、Pipeline Builder の Get media references 関数を使用します。また、transforms-media ライブラリをインポートし、list_media_items_by_path_with_media_reference メソッドを呼び出すことで Python Transforms でメディア参照を作成することもできます:

from pyspark.sql import functions as F
from transforms.api import transform, Input, Output
from transforms.mediasets import MediaSetInput


@transform(
    metadata_out=Output("{YOUR_OUTPUT_METADATA_DATASET}"),
    mediaset_in=MediaSetInput("{YOUR_MEDIA_SET_RID}")
)
def compute(ctx, mediaset_in, metadata_out):
    # メディアリファレンスをパスとメディアリファレンスとともに取得
    media_references = mediaset_in.list_media_items_by_path_with_media_reference(ctx)
    # データセット内のインラインサムネイルを有効にする
    column_typeclasses = {'mediaReference': [{'kind': 'reference', 'name': 'media_reference'}]}
    metadata_out.write_dataframe(media_references, column_typeclasses=column_typeclasses)

メディアリファレンスを使用してメディアをオントロジー化する

メディアリファレンスのオブジェクトプロパティを使用して、オントロジーを構築するアプリケーションでメディアを効率的に表示します。最適化には、Workshop や Object Explorer での高速でインタラクティブなプレビュー、および Map での地理空間イメージのタイリングが含まれます。