データ統合PythonPySpark 一覧文字列

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

文字列

文字列とは、テキストデータを指します。

Copied!
1 2 # pyspark.sql モジュールから functions を F という名前でインポートします from pyspark.sql import functions as F

大文字・小文字の変換

  • F.initcap(col)
  • F.lower(col)
  • F.upper(col)

連結、分割

  • F.concat(*cols)
  • F.concat_ws(sep, *cols)
  • F.split(str, pattern)

部分文字列

  • F.instr(str, substr)
  • F.locate(substr, str, pos=1)
  • F.substring(str, pos, len)
  • F.substring_index(str, delim, count)

トリミング、パディング

  • F.lpad(col, len, pad)
  • F.ltrim(col)
  • F.rpad(col, len, pad)
  • F.rtrim(col)
  • F.trim(col)

正規表現

  • F.regexp_extract(str, pattern, idx)
  • F.regexp_replace(str, pattern, replacement)

その他

  • F.ascii(col)
  • F.base64(col)
  • F.bin(col)
  • F.conv(col, fromBase, toBase)
  • F.decode(col, charset)
  • F.encode(col, charset)
  • F.format_number(col, d)
  • F.format_string(format, *cols)
  • F.hex(col)
  • F.length(col)
  • F.levenshtein(left, right)
  • F.repeat(col, n)
  • F.reverse(col)
  • F.translate(srcCol, matching, replace)
  • F.unbase64(col)
  • F.unhex(col)