データ統合PythonPySpark 一覧その他

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

その他

コレクション

  • array(*cols)
  • array_contains(col, value)
  • size(col)
  • sort_array(col, asc=True)
  • struct(*cols)

ソート

  • asc(col)
  • desc(col)

バイナリ

  • bitwiseNOT(col)
  • shiftLeft(col, numBits)
  • shiftRight(col, numBits)
  • shiftRightUnsigned(col, numBits)

null 値の扱い

  • coalesce(*cols)
  • isnan(col)
  • isnull(col)

  • col(col) or column(col)
  • create_map(*cols)
  • explode(col)
  • expr(str)
  • hash(*cols)
  • input_file_name()
  • posexplode(col)
  • sha1(col)
  • sha2(col, numBits)
  • soundex(col)
  • spark_partition_id()

JSON

  • from_json(col, schema, options={})
  • get_json_object(col, path)
  • json_tuple(col, *fields)
  • to_json(col, options={})

チェックポイント

  • checkpoint(eager=True)
    • ユーザーは Spark context の setCheckpointDir(dir) 関数を使用して、カスタムチェックポイントディレクトリを設定できます。これは ctx.spark_session.sparkContext を通じてアクセス可能です。ctx をユーザーのトランスフォームの compute() 関数の入力パラメーターとして含めることを確認してください。
    • チェックポイントディレクトリは一度だけ設定する必要があります。同じディレクトリへのチェックポイントの設定を再試行すると、RDD エラーが発生します。
  • localCheckpoint(eager=True)

checkpoint() 関数は、一時的に DataFrame をディスクに保存するために使用されますが、localCheckpoint() はそれらを executor メモリに保存します。localCheckpoint() を使用する際にはディレクトリを設定する必要はありません。eager パラメーター値を使用して、DataFrame がすぐにチェックポイントを設定するかどうかを設定します(デフォルト値は True)。