プロダクトに関するFAQPipeline Builder

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

Pipeline Builder

データパイプラインビルドでエラーを避けるために不正な CSV 行を削除するにはどうすればよいですか?

データセットプレビューセクションから、Parsing options -> Drop jagged rows 機能を使用して不正な行を削除します。

タイムスタンプ: 2024年3月1日

複数のデータセットを個別に結合することなく、1 つのトランスフォームで結合するにはどうすればよいですか?

すべてのデータセットを無制限の入力を受け取るユニオンボードに接続するか、すべての入力をドラッグ選択してからユニオントランスフォームオプションをクリックします。

タイムスタンプ: 2024年4月11日

Use LLM ボードで LLM を呼び出すバッチ操作はありますか、それとも行ごとに呼び出されるのですか?

LLM は行ごとに呼び出されますが、操作は速度を向上させるためにエグゼキュータ間で並列化されています。

タイムスタンプ: 2024年3月28日

Pipeline Builder で OCR を使用して PDF 内の画像からテキストを抽出する方法はありますか?

はい、Pipeline Builder では、PDF text extraction トランスフォームで OCR (光学文字認識) 抽出方法を使用して PDF 内の画像からテキストを抽出できます。

タイムスタンプ: 2024年4月10日

"Time bounded drop duplicates" 関数は、構成されたイベントタイムウィンドウより遅れて行が到着した場合にどうなりますか?

Time bounded drop duplicates 関数は、重複かどうかに関係なく、構成されたイベントタイムウィンドウより遅れて到着した行を削除します。

タイムスタンプ: 2024年3月20日

パイプライン A の出力を新しいデータセットに置き換え、その後パイプライン A の以前の出力データセットを異なるパイプライン (パイプライン B) の出力にし、すべてのパイプライン出力スキーマを同じにすることはできますか?

はい、Pipeline Builder では新しい出力でデータセットを上書きすることができます。これは既存のデータセットの所有権を新しい出力に変更する一度限りのアクションです。必要な権限を持ち、必要な手順に従えば、パイプライン B の出力として希望するデータセットを構成できます。すべてのパイプライン出力スキーマが入力トランスフォームノードスキーマと一致することが重要です。そうでないとエラーが発生し、パイプラインのデプロイに失敗します。

タイムスタンプ: 2024年4月13日

Pipeline Builder でカスタムユーザー定義関数 (UDF) を実装するにはどうすればよいですか?

Pipeline Builder でカスタムユーザー定義関数 (UDF) を実装するには、UDF の作成と使用に関するドキュメントおよび Pipeline Builder で任意の Java コードを実行する方法を参照してください。

タイムスタンプ: 2024年4月19日

CSV ファイルをアップロードして構築されたデータセットに行番号を追加するにはどうすればよいですか?

データセットプレビューの Edit schema オプションで Row number を有効にします。

タイムスタンプ: 2024年4月18日

Pipeline Builder で struct 列を JSON 文字列に変換するにはどうすればよいですか?

JSON to string 式を使用して struct 列を JSON 文字列に変換できます。

タイムスタンプ: 2024年6月14日

Pipeline Builder でデプロイされたデータセットのプレビューと実際のデータセットビューの行数に不一致があるのはなぜですか?

プレビューで 入力サンプリング戦略 が適用されている場合、不一致が生じる可能性があります。また、非決定的なトランスフォームが行数に影響を与えることも考慮してください。

タイムスタンプ: 2024年6月28日

パイプラインによって作成されたチェックポイントデータセットをクリーンアップするにはどうすればよいですか?

チェックポイントデータセットを作成したパイプラインをゴミ箱に移動すると、チェックポイントデータセットもゴミ箱に移動されます。

タイムスタンプ: 2024年4月24日

Pipeline Builder パイプラインで null 文字列値を特定の文字列 (たとえば "no data") にマッピングする方法はありますか?

Pipeline Builder パイプラインでこれを実現する方法は 2 つあります:

  1. Coalesce 関数を使用します。たとえば、A = coalesce(A, "no data") とします。A が null の場合、"no data" が返されます。
  2. Case ボードを使用します。

どちらの方法でも、null 値を指定された文字列にマッピングできます。

タイムスタンプ: 2024年7月11日

列グループ内の null 値を補完する方法はありますか?

はい、Apply To Multiple Columns トランスフォームを使用して、異なる列にわたる null 値を補完できます。

タイムスタンプ: 2024年4月24日