データ接続と統合Pipeline Builder Expressions文字列を分割

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

文字列を分割

サポート対象: Batch

指定されたサイズと区切り文字で文字列を分割します。

式カテゴリ: 文字列

引数

  • - 分割するドキュメントテキストを含む列。
    Expression<String>
  • 任意 分割の重複 - この数値分だけ内容が重複するように分割を許可します。選択された分割サイズ以上で 0 未満であってはなりません。
    Literal<Integer>
  • 任意 分割サイズ - この数値のサイズの分割を作成します。0 より大きくなければなりません。
    Literal<Integer>
  • 任意 区切り文字を保持する - 出力の分割部分に区切り文字を含めます。
    Literal<Boolean>
  • 任意 区切り文字 - 提供されたこれらの区切り文字で文字列を分割します。デフォルトの区切り文字は、すべての段落、次に文、次に単語をできるだけ長く一緒に保持する効果があります。
    List<Literal<String>>

出力タイプ: Array<String>

例 1: 基本ケース

引数の値:

  • : string
  • 分割の重複: null
  • 分割サイズ: 10
  • 区切り文字を保持する: null
  • 区切り文字: null
string出力
hello[ hello ]
hello world. the quick brown fox jumps over the fence.[ hello, world., the quick, brown fox, jumps, over the, fence. ]
hello world.
the quick brown fox
jumps over the fence.
[ hello, world., the quick, brown fox, jumps, over the, fence. ]
hello world.
the quick brown fox
jumps over the fence.
[ hello, world., the quick, brown fox, jumps, over the, fence. ]

例 2: 基本ケース

引数の値:

  • : A quick-brown-fox-jumps over the lazy dog
  • 分割の重複: null
  • 分割サイズ: 10
  • 区切り文字を保持する: false
  • 区切り文字: [

    ,
    , ]

出力: [ A, quick-brown-fox-jumps, over the, lazy dog ]


例 3: 基本ケース

引数の値:

  • : A quick brown fox jumps over the lazy dog
  • 分割の重複: 5
  • 分割サイズ: 10
  • 区切り文字を保持する: null
  • 区切り文字: null

出力: [ A quick, brown fox, fox jumps, over the, the lazy, lazy dog ]


例 4: 基本ケース

引数の値:

  • : Text1|Text2||Text3
  • 分割の重複: null
  • 分割サイズ: 10
  • 区切り文字を保持する: false
  • 区切り文字: [||, |]

出力: [ Text1, Text2, Text3 ]


例 5: 基本ケース

引数の値:

  • : Text1|Text2||Text3
  • 分割の重複: null
  • 分割サイズ: 10
  • 区切り文字を保持する: null
  • 区切り文字: [||, |]

出力: [ Text1, |Text2, ||Text3 ]


例 6: 基本ケース

引数の値:

  • : Text1, Text2

    Text3
    Text4
  • 分割の重複: null
  • 分割サイズ: 256
  • 区切り文字を保持する: null
  • 区切り文字: null

出力: [ Text1, Text2

Text3
Text4 ]


例 7: 基本ケース

引数の値:

  • : Text1 Text2

    Text3
    Text4
  • 分割の重複: null
  • 分割サイズ: 10
  • 区切り文字を保持する: null
  • 区切り文字: null

出力: [ Text1, Text2, Text3, Text4 ]