データセット • メディアセット（非構造化データ） • Palantir

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

Copied!1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
# メディアセット（非構造化データ）

**メディアセット**は、共通のスキーマを持つメディアファイルのコレクションです。例えば、同じ形式のファイルです。メディアセットは、大規模な非構造化データと連携し、オーディオ、画像、ビデオ、およびドキュメントなどのメディアアイテムの処理を可能にします。メディアセットは、柔軟なストレージ、計算最適化、およびスキーマ固有の変換へのアクセスを提供し、メディアのワークフローとパイプラインを強化します。

![メディアセットはオーディオ、画像、ビデオ、およびドキュメントのインポートをサポートします。](../../foundry-docs/data-integration/media/mediasetsGA.png)

メディアセットワークフローの例には次のものがあります:
* Pipeline Builderを使用してPDFからテキストを抽出し、コンテンツ分析を有効にする
* Mapアプリケーションでラスタータイル（TIFF、NITF）を使用して地理空間分析を実行する
* Pipeline Builderを使用して医療画像ファイル（DICOM形式）を処理する

パイプラインの構築を開始するには、以下の手順に従ってください:
- [メディアをFoundryにインポートする](#import-media)
- [Code RepositoriesまたはPipeline Builderを使用してメディアを変換する](#transform-media-in-foundry)
- [メディア参照を使用してメディアをオントロジー化する](#ontologize-media-using-media-references)

## サポートされているメディアセットファイルタイプ

以下のファイルタイプがメディアセットとしてサポートされています:

* オーディオ
  * WAV (`.wav`)
  * MP3 (`.mp3`)
  * NIST SPHERE (`.sph`)
  * FLAC (`.flac`)
  * OGG (`.opus`, `.ogg`)
  * WAV (`.wav`)
  * WEBM (`.webm`)
* ドキュメント
  * PDF (`.pdf`)*
  * DOCX (`.docx`)
* 画像
  * PNG (`.png`)
  * JPEG (`.jpg`, `.jpeg`)
  * JP2K (`.jp2`)
  * BMP (`.bmp`)
  * TIFF (`.tiff`, `.tif`)
  * NITF (`.nitf`)
  * DICOM (`.dcm`)
* ビデオ
  * MKV (`.mkv`)
  * MP4 (`.mp4`)
  * MOV (`.mov`)
  * TS (`.ts`)

:::callout{theme=warning title="PDFサポート"}
閲覧に専有機能が必要なPDFファイルやパスワード、デジタル署名、暗号化で保護されているPDFファイルはサポートされていません。
:::

## メディアのインポート

メディアセットは、[直接アップロード](../projects/manually-upload-data.md)、Data Connectionでの外部ソースシステムへの接続、APIポスト、および変換（[外部変換](./external-transforms.md)を含む）を通じてインポートするように設定できます。

### 直接アップロード

メディアファイルを直接アップロードしてメディアセットにインポートするには、ファイルを新しいメディアセットにドラッグアンドドロップします。ファイルは、メディアセットの作成時に指定された期待されるファイルタイプと一致する必要があります。

1. まず、プロジェクト内で **新規** を選択し、以下のように検索バーから `メディアセット` を選択して、新しいメディアセットを作成します。

![プロジェクトからメディアセットを作成](../../foundry-docs/data-integration/media/project-add-media-set-dialog.png)

2. 次に、新しいメディアセットの希望するメディアファイルタイプを選択し、**メディアセットを作成** を選択します。

![メディアファイルタイプを選択](../../foundry-docs/data-integration/media/add-media-set-welcome-page.png)

3. メディアセットを作成したら、空のメディアセットにドラッグアンドドロップするか、**コンピュータから選択** プロンプトを選択してメディアをアップロードできます。

![空のメディアセットからアップロード](../../foundry-docs/data-integration/media/empty-media-set-action.png)

### Data Connection

メディアセットは、Data Connectionを通じて外部ソースへの同期を使用してインポートできます。詳細な手順は、[メディアセット同期ドキュメント](../data-connection/media-set-sync.md)に記載されています。

新しいメディアセット[同期](../data-connection/set-up-sync.md)を作成するには、目的の[ソース](../data-connection/set-up-source.md)の **概要** タブに移動します。

同期を作成した後、メディアセットビューでビルドをトリガーして、メディアがメディアセットに表示されるようにします。

既存のソースを新しいメディアセットに接続するには、**ソースを選択** オプションを使用します。

![既存のソースをメディアセットに追加](../../foundry-docs/data-integration/media/add-media-set-welcome-page-add-source.png)

#### 仮想ストレージ

サポートされているソースタイプでは、メディアセットを外部ソースシステムから直接読み取るように設定できます。そのため、Foundryのバックアップストアにデータがコピーされることはありません（「仮想メディアセット」）。

現在、仮想メディアセットは特定のソースタイプのみサポートされています。他のソースタイプの仮想ストレージに興味がある場合は、Palantirサポートにお問い合わせください。

![ストレージポリシー](./media/media-set-storage-policy.png)

### 外部変換

REST APIを持つソースについては、[外部変換](./external-transforms.md)を通じてメディアセットにメディアをインポートできます。

### Pipeline Builder

メディアセットはPipeline Builderにも直接インポートできます。[Pipeline Builderで利用可能なアップロード方法についてはこちらをご覧ください。](../pipeline-builder/datasets-add.md)

## 保持ポリシー

メディアセットに対して時間ベースの保持ポリシーを設定できます。例えば、14日間というポリシーを設定すると、データは永遠に存在する必要がありません。メディアアイテムは保持ウィンドウの間だけアクセス可能で、その後は完全に削除されます。これはストレージコストを最小限に抑えるのに役立つオプションです。

メディアアイテムの保持ウィンドウが期限切れになると、再度アクセス可能になることはなく、削除されます。例えば:
* 保持ウィンドウを30日から7日に短縮すると、新しいウィンドウ（7日）を超えるすべてのメディアアイテムはすぐにアクセス不能になります。
* 保持ウィンドウを7日から30日に拡大しても、以前に期限切れになったメディアアイテム（7日と1秒）はアクセス可能にはなりません。保持が「永久」に変更された場合も同様です。

## Foundryでメディアを変換する

### Pipeline Builder

一般的なメディアセットの変換は[Pipeline Builder](../pipeline-builder/overview.md)で利用可能です。[Pipeline Builderを使用してメディアセットでバッチパイプラインを構築する方法を学びましょう。](../building-pipelines/create-batch-pipeline-pb-media-set.md)

こちらはPDFで使用されるテキスト抽出（OCRオプション）ボードの例です:

![Pipeline Builderでのテキスト抽出](../../foundry-docs/data-integration/media/pipeline_builder_pdf_ocr_board.png)

現在利用できない変換に興味がある場合は、Palantirの担当者にお問い合わせください。

### Code Repositories

メディアセットは、PDFテキスト抽出、光学文字認識（OCR）、画像タイル化、メタデータ解析などの専門的な変換もサポートしており、Python変換で[transforms-mediaライブラリをインポート](../transforms-python/use-python-libraries.md)することで活用できます。

一般的な変換は、[Python変換でメディアセットを使用する方法に関するドキュメント](../transforms-python/media-sets.md)に記載されています。

Code Repositoriesでメディアセットを使い始める方法の例はこちらです:

```python
from transforms.api import transform
from transforms.mediasets import MediaSetInput, MediaSetOutput
@transform(
    images=MediaSetInput('/examples/images'),
    output_images=MediaSetOutput('/examples/output_images')
)
def translate_images(images, output_images):
    ...

アクセスパターン

高度なユーザーや開発者は、メディアセットのアクセスパターンを活用できます。これは、メディアセット内のメディアアイテムに対してオンデマンドで実行できる事前構成された変換です。アクセスパターンには、ストレージと最適化チューニングの永続化ポリシーがあり、各リクエストごとに再計算、初回リクエスト後に無期限に出力を永続化、または一定時間キャッシュするオプションが含まれます。

アクセスパターンは、Foundryプラットフォームによって最適に処理またはレンダリングされるために利用されます。例えば:

WorkshopでのPDFサムネイルとプレビュー
Previewアプリケーションでのバッファされたオーディオ波形
Mapでのタイル化された衛星画像

利用可能なアクセスパターンのデフォルトセットは、構成されたメディアセットスキーマに基づいて決定されます。追加の変換はAPI呼び出しのみでアクセスパターンとしてメディアセットに登録されます。

メディア参照

メディアセット内のアイテムはメディア参照を使用して参照できます。メディア参照を使用すると、メディアアイテム自体のコピーを作成せずにFoundryでメディアアイテムを使用できます。

メディア参照を使用して、メディアセットアイテムをデータセットに参照します。これは、メタデータや他の情報を表形式でメディアアイテムに関連付けるのに役立ちます。例えば、元のPDFをファイル名、ページ数、および抽出されたテキストなどの追加列として関連付けることができます。

また、バッチ推論パイプラインのためにモデルアダプターへの入力としてメディア参照を使用することもできます。

メディアセットのメディア参照リストを生成するには、Pipeline Builderで Get media references 機能を使用します。Python Transformsでは、transforms-media ライブラリをインポートし、list_media_items_by_path_with_media_reference メソッドを呼び出してメディア参照を生成することもできます:

Copied!1
2
3
4
5
6
7
8
9
10
11
12
13
from pyspark.sql import functions as F
from transforms.api import transform, Input, Output
from transforms.mediasets import MediaSetInput


@transform(
    metadata_out=Output("{YOUR_OUTPUT_METADATA_DATASET}"),
    mediaset_in=MediaSetInput("{YOUR_MEDIA_SET_RID}")
)
def compute(ctx, mediaset_in, metadata_out):
    media_references = mediaset_in.list_media_items_by_path_with_media_reference(ctx)
    column_typeclasses = {'mediaReference': [{'kind': 'reference', 'name': 'media_reference'}]} # データセット内のインラインサムネイルを有効にする
    metadata_out.write_dataframe(media_references, column_typeclasses=column_typeclasses)

メディア参照を使用してメディアをオントロジー化する

メディア参照オブジェクトプロパティを使用して、オントロジーを構築するアプリケーションでメディアを効率的に表示します。最適化には、WorkshopやObject Explorerでの高速かつインタラクティブなプレビュー、およびMapでの地理空間画像のタイル化が含まれます。

メディア参照プロパティを使用したカスタムロジック

オブジェクトの関数でメディア参照オブジェクトプロパティを持つオブジェクトを使用します。

生のメディアアイテムを直接読み取ることができます。さらに、メディアアイテムに対して一般的なタイプ固有の操作を実行できます。例えば:

ドキュメントのOCR
ドキュメントからのテキスト抽出
オーディオの文字起こし
メディアアイテムのメタデータを読み取る

メディアセットからメディアアイテムを削除する

削除したいメディアアイテムを選択し、削除アクションを選択して、メディアセットからメディアアイテムを削除できます。誤って削除しないように、このアクションでは、ポップアップで再度削除を選択してメディアアイテムの削除の意図を確認する必要があります。

メディアアイテムを削除

アイテムを正常に削除すると、メディアセットは成功メッセージとともに更新されます。削除されたメディアアイテムなしでメディアセットを表示できます。

削除成功

メディアセットの計算使用量

メディアセットは、プラットフォームに多くの高度な即時利用可能な変換を提供します。変換は変換およびパイプラインを通じてトリガーされるだけでなく、フロントエンドを介してメディアアイテムと対話することでもトリガーされます（例えば、メディアアイテムのプレビュー）。さらに、メディアアイテムの完全な内容をダウンロードまたはストリーミングするにはコストがかかります。

使用量はFoundryの計算秒単位で追跡されます。以下の表は、利用可能な各変換を示し、処理されたギガバイトあたりの計算秒単位での使用率を示しています。

企業契約を締結している場合は、使用量の計算を進める前にPalantirの担当者にお問い合わせください。

変換

使用率はGBあたりの計算秒単位で測定されます

全て

変換	使用率
ダウンロード / ストリーム	2

画像

変換	使用率
回転	40
サイズ変更	40
PDF生成	40
コントラスト調整	75
切り取り / チップ	75
グレースケール	75
ジオタイル	75
DICOM画像レイヤーのレンダリング	75
テキスト抽出（OCR）	275
暗号化 / 復号化	75

オーディオ

変換	使用率
トランスコード	75
波形生成	75
音声認識	275

ビデオ

変換	使用率
シーンフレームのタイムスタンプ取得	40
オーディオ抽出	75
タイムスタンプでフレームを抽出	75
すべてのシーンフレームを抽出	275
HLSでストリーム	275
トランスコード	275

ドキュメント

変換	使用率
ページを画像としてレンダリング	40
境界ボックス内でページを画像としてレンダリング	40
PDFページ寸法の取得	40
PDF範囲のスライス	75
フォームフィールドの抽出	75
目次の抽出	75
ページ上のテキストの抽出（生）	75
すべてのテキストの抽出（生）	75
テキスト抽出（OCR）	275

メディアセットの制限

トランザクションメディアセットには、トランザクションあたり10,000アイテムの制限があります。
トランザクションなしのメディアセットにはアイテムの制限はありません。
メディアセット内のアイテム