注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

Pipeline Builder を使用してメディアセットバッチパイプラインを作成する

このチュートリアルでは、Pipeline Builder を使用して、メディアセットを含む簡単なパイプラインを作成し、PDF からテキストを抽出します。

この例では、Palantir が公開している文書の PDF を使用します。

チュートリアルの最後には、以下のようなパイプラインができあがります。

完全な Pipeline builder のスクリーンショット

このパイプラインは、抽出された PDF テキストの新しいオブジェクト出力を生成し、さらなる探索に使用できます。

パート 1:初期設定

まず、新しいパイプラインを作成する必要があります。

  1. Foundry にログインして、左のナビゲーションバーから Pipeline Builder にアクセスします。Pipeline Builder がアプリケーション一覧にない場合は、View all を選択し、Build & Monitor Pipelines セクションの下にある Pipeline Builder を探します。

    ナビゲーションバーの Pipeline builder リンクのスクリーンショット

  2. 次に、Pipeline Builder のランディングページの右上で、New pipeline を選択して新しいパイプラインを作成します。そして、Batch pipeline を選択します。

    パイプライン選択のスクリーンショット

    ストリーミングパイプラインを作成する機能は、すべての Foundry 環境で利用できるわけではありません。ユースケースでそれが必要な場合は、Palantir の担当者にお問い合わせください。

  3. パイプラインを保存する場所を選択します。パイプラインは個人用フォルダーには保存できません。

    パイプラインの場所を選択するポップオーバーのスクリーンショット

  4. Create pipeline を選択します。

パート 2:メディアセットの追加

これで、パイプラインワークフローにデータセットを追加できます。このチュートリアルでは、Palantir から公開されている文書の PDF を使用します。

  1. Pipeline Builder ページから、ホームページの Add Foundry data を選択します。

    パイプラインの場所を選択するポップオーバーのスクリーンショット

    上部のパネルで Add data アクションを選択することもできます。

    パイプラインの場所を選択するポップオーバーのスクリーンショット

    また、コンピュータからファイルをドラッグアンドドロップしてメディアセットとして使用することもできます。

  2. Add data または Add Foundry data を選択した場合、希望するメディアセットを選択するオプションが表示されます。

    場所からメディアセットを追加するポップオーバーのスクリーンショット

  3. すべてのメディアセットが選択されたら、Add data を選択します。

  4. メディアセットをインポートすると、サムネイルプレビューが表示されます。

    インポートされたメディアセットのスクリーンショット

パート 3:メディアセットの変換

生のメディアセットを追加した後、いくつかの基本的な変換を実行できます。このワークフローでは、これらの PDF ファイルからテキストを抽出します。

PDF からテキストを抽出する

まず、Media set of Annual Letters メディアセットを変換します。メディアセット内のメディアアイテムの media references を選択します。

メディアリファレンスの取得

  1. グラフ内の Media set of Annual Letters ノードを選択します。

  2. Transform を選択します。

    Media set of Annual Letters ノードのスクリーンショット

  3. ドロップダウンから Convert media set to table rows 変換を検索して選択し、ボードを開きます。

    Passengers_preprocessed データセットの変換ビューのスクリーンショット

  4. Include timestampDeduplicate by path を選択するかどうかを選択します。

    メディアリファレンスボードのスクリーンショット

  5. パイプラインに変換を追加するには、Apply を選択します。

  6. 出力は次のようになります。

    キャストボードのスクリーンショット

    メディアリファレンスの例:

    {"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.xxx","mediaItemRid":"ri.mio.main.media-item.xxx"}}}
    

    メディアアイテム RID の例:

    ri.mio.main.media-item.xxx-xxx-xxx-xxx-xxxx
    

    メディアリファレンスについてさらに学ぶ。

テキストの抽出

  1. メディアリファレンスがあるので、メディアリファレンスを利用した新しいボードを選択できます。ドロップダウンから Text Extraction 変換を検索して選択します。

    テキスト抽出ボード

  2. 抽出方法(Raw text(PDF 解析)または OCR)、Media Reference カラム、OCR output format(OCR を選択した場合)、Languages/Scripts を選択します。

    テキスト抽出オプション

  3. パイプラインに変換を追加するには、Apply を選択します。

  4. 抽出されたテキストにマウスを合わせると、出力は次のようになります。

    ホバー時のテキスト抽出出力

    これで、抽出されたテキストカラムで利用可能な文字列変換を実行できます。

  5. パイプライングラフに戻るには、右上の Back to graph を選択します。

    変換のスクリーンショット

(オプション)セマンティック検索ワークフロー

必要に応じて、抽出されたテキストでセマンティック検索ワークフローを実行できます。

パート 4:出力の追加

PDF からテキストを抽出し、追加の文字列変換を実行した後、出力を追加できます。このチュートリアルでは、オブジェクト出力を追加します。

  1. 変換を完了した Transforms ノードで、Add output を選択します。

    メディアセット変換から出力を追加

  2. New object type を選択します。

    新しいオブジェクトタイプを追加

  3. オブジェクトタイプの名前を付けて、オントロジーを設定します。Please select an ontology を選択してください。

    名前を変更し、オントロジー出力を設定

  4. Edit を選択し、カラムマッピングを編集します。プライマリキーとして有効なカラムを選択してください。

    カラムマッピングを編集

パート 5:パイプラインの構築

  1. パイプラインを構築するには、Save を選択し、次に Deploy > Deploy pipeline を選択します。

    スキームが入力されたデータセット出力ペインのスクリーンショット

  2. Deploy Pipeline サイドバーオプションの下に Intializing deployment が表示されるはずです。

    初期化中のデプロイ

  3. デプロイメントの進行状況を追跡するには、View deployment history を選択します。パイプラインの History タブに移動し、デプロイメントのステータスと履歴を表示できます。

    進行中のデプロイメント

    デプロイメント完了

(オプション)パート 6:オントロジーの北

デプロイメントが完了し、オブジェクトが初期化されると、オブジェクト出力に直接アクションを実行できるはずです。パイプライン出力を含む Workshop モジュールを生成するには、Create Workshop module を選択します。

Workshop モジュールを作成

この最後のステップで、パイプライン出力を生成し、Workshop モジュールを生成しました。