注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
array(*cols)
array_contains(col, value)
size(col)
sort_array(col, asc=True)
struct(*cols)
asc(col)
desc(col)
bitwiseNOT(col)
shiftLeft(col, numBits)
shiftRight(col, numBits)
shiftRightUnsigned(col, numBits)
coalesce(*cols)
isnan(col)
isnull(col)
col(col) or column(col)
create_map(*cols)
explode(col)
expr(str)
hash(*cols)
input_file_name()
posexplode(col)
sha1(col)
sha2(col, numBits)
soundex(col)
spark_partition_id()
from_json(col, schema, options={})
get_json_object(col, path)
json_tuple(col, *fields)
to_json(col, options={})
checkpoint(eager=True)
setCheckpointDir(dir)
関数を使用して、カスタムチェックポイントディレクトリを設定できます。これは ctx.spark_session.sparkContext
を通じてアクセス可能です。ctx
をユーザーのトランスフォームの compute()
関数の入力パラメーターとして含めることを確認してください。localCheckpoint(eager=True)
checkpoint()
関数は、一時的に DataFrame をディスクに保存するために使用されますが、localCheckpoint()
はそれらを executor メモリに保存します。localCheckpoint()
を使用する際にはディレクトリを設定する必要はありません。eager
パラメーター値を使用して、DataFrame がすぐにチェックポイントを設定するかどうかを設定します(デフォルト値は True
)。