Python • Pythonトランスフォームでメディアセットを使用する • Palantir

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

メディアセットからの読み込み

ファイルパスまたはRIDによって、個々のメディアアイテムにアクセスできます：

しかし、おそらくユーザーのメディアセットのすべてのアイテムをトランスフォームしたいと思うでしょう。これを行うには、まず リスト化 メソッドを使用してアイテムをデータフレームに引き込む必要があります。以下の例では、入力メディアセットのすべてのアイテムをリスト化し、結果のデータフレームをタブラー出力に書き込みます：メディアセットにある特定のパスに複数のアイテムがある場合、リストには最新のもののみが含まれます。リストは次のスキーマを持つことになります：メディアセットは、標準で一定数の組み込みトランスフォームをサポートしています。APIとサポートされているトランスフォームのリストについては、以下の付属資料を参照してください。これらのトランスフォームへの呼び出しは、Pythonのファイルライクなストリームオブジェクトも返します。これらの組み込みトランスフォームを使用するには、メディアセット入力に対して適切なメソッドを呼び出します。例えば：

Copied!1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
@transform(
    images=MediaSetInput('/examples/images'),  # 画像のデータセットを入力として指定します。
    image_text_output=Output('/examples/listed_images_with_text')  # 画像とテキストのリストを出力として指定します。
)
def translate_images(ctx, images, image_text_output):

    # 画像内のテキストをOCRで取得する関数を定義します。
    def get_ocr_on_image(media_item_rid):
        return images.transform_image_to_text_ocr_output_text(media_item_rid).read().decode('utf-8')

    # 上記関数をUDF（User Defined Function）として登録します。
    ocr_on_image_udf = F.udf(get_ocr_on_image, StringType())

    # メディアアイテムのリストを取得します。
    media_items_listing = images.list_media_items_by_path_with_media_reference(ctx)
    # 各メディアアイテムに対してOCRを実行し、結果を'テキスト'列に格納したデータフレームを作成します。
    listing_with_ocr = media_items_listing.withColumn('text', ocr_on_image_udf(F.col('mediaItemRid')))
    # 出力するカラムの型を指定します。
    column_typeclasses = {'mediaReference': [{'kind': 'reference', 'name': 'media_reference'}]}
    # 結果のデータフレームを出力します。
    image_text_output.write_dataframe(listing_with_ocr, column_typeclasses=column_typeclasses)

一つのメディアセットから別のメディアセットにアイテムをコピーする際には、出力で fast_copy_media_item() メソッドを使用することができます。これは、メディアアイテムをダウンロードして再アップロードするよりも、より速く、より効率的なオプションです：

Copied!1
2
3
4
5
6
7
8
9
10
# デコレータで指定した入力と出力を使用して画像をアップロードする関数を定義します
@transform(
    images=MediaSetInput('/examples/images'), # 入力画像のディレクトリを指定します
    output_images=MediaSetOutput('/examples/output_images') # 出力画像のディレクトリを指定します
)
def upload_images(images, output_images):
    # "image1.jpg"の元のメディアアイテムのリソースIDを取得します
    origin_media_item_rid = images.get_media_item_rid_by_path("image1.jpg")
    # 入力から出力へメディアアイテムを高速コピーします
    output_images.fast_copy_media_item(images, origin_media_item_rid, "fast_copied_image1.jpg")

アイテムは、ユーザー定義関数（UDF）内のメディアセットにアップロードできます。これにより、並列性が高まります。以下の例では、入力メディアセット内のPDFを、組み込みのPDFからJPEGへのトランスフォームを使用してJPEGにトランスフォームし、それらのJPEGを新しい出力メディアセットにアップロードします。その後、アップロードしたJPEGのメディアリファレンスを含む表形式のデータセットを出力します：

ファイルシステム（カタログ）データセットからのアップロード

Python メディアセット SDK には、Palantir ファイルシステム（カタログとして知られています）の従来のデータセットからメディアセットにファイルをアップロードするための組み込みツールがあります。例えば：

Copied!1
2
# "ri.mio.main.media-item.1"という名前のPDFファイルをJPGファイルに変換します。変換するページ番号は0（最初のページ）です。
input_pdfs.transform_document_to_jpg("ri.mio.main.media-item.1", 0)

PDFドキュメントをPNGに変換する

PDFドキュメントの個別のページをPNGに変換して返します。

対象: PDFドキュメント
返り値: PNG画像
パラメーター:
- media_item_rid: 変換対象のメディアアイテムのRID。
- page_number: ゼロインデックスのページ番号。
- Height（オプション）: 出力画像の希望の高さ（ピクセル単位）。
- Width（オプション）: 出力画像の希望の幅（ピクセル単位）。
例:

Copied!1
2
# "ri.mio.main.media-item.1"という名前のPDFを0ページ目からPNG形式に変換します。
input_pdfs.transform_document_to_png("ri.mio.main.media-item.1", 0)

Copied!1
2
3
# "ri.mio.main.media-item.1"という名前のPDF文書の0番目のページをテキスト形式に変換します。
# この変換プロセスは、OCR（光学文字認識）を使用し、出力はhOCR形式で提供されます。
input_pdfs.transform_document_to_text_ocr_output_hocr("ri.mio.main.media-item.1", 0)

PDFドキュメントを変換して生のテキストを抽出する

PDFからフィールドを抽出して返します。これは、OCRとは異なり、画像処理を必要としないパーシング方法です。

操作対象: PDFドキュメント
戻り値: UTF-8エンコーディングの非構造化テキスト
パラメーター:
- media_item_rid: トランスフォームするメディアアイテムのRID。
- page_number: ゼロから始まるページ番号。
例:

PDFドキュメントをトランスフォームしてフォームフィールドを抽出する

全PDFからすべてのフォームフィールドを抽出して返します。

操作対象: PDFドキュメント
戻り値: JSON
パラメーター:
- media_item_rid: トランスフォームするメディアアイテムのRID。
例:

Copied!1
2
# "ri.mio.main.media-item.1"フィールドをテキストに変換するために、transform_document_to_text_extract_fieldメソッドを使用します
input_pdfs.transform_document_to_text_extract_field("ri.mio.main.media-item.1")

PDFドキュメントの変換して目次を抽出

PDFからフィールドを抽出して返します。

適用対象: PDFドキュメント
返り値: JSON
パラメーター:
- media_item_rid: トランスフォームするメディアアイテムのRID。
例:

Copied!1
2
# "ri.mio.main.media-item.1"という名前のドキュメントをテキストに変換し、目次を抽出します。
input_pdfs.transform_document_to_text_extract_table_of_contents("ri.mio.main.media-item.1")

Copied!1
2
# "ri.mio.main.media-item.1"という名前のPDFファイルをテキスト形式に変換します。この変換はOCR（光学的文字認識）を使用して行われ、結果はhOCR形式で出力されます。
input_pdfs.transform_image_to_text_ocr_output_hocr("ri.mio.main.media-item.1")

画像をテキストに変換する

OCRを使用して画像をテキストに変換します。

対象： 画像
戻り値： utf-8 エンコーディングの非構造化テキスト
パラメーター：
- media_item_rid: トランスフォームされるメディアアイテムのRID。
例：

Copied!1
2
# "ri.mio.main.media-item.1"という名前の画像をテキストに変換します。
input_images.transform_image_to_text_ocr_output_text("ri.mio.main.media-item.1")

←

PREVIOUSAPI 一覧 / Foundry コネクタ

NEXTPySpark 一覧 / pyspark-overview.md

→