array(*cols)
array_contains(col, value)
size(col)
sort_array(col, asc=True)
struct(*cols)
asc(col)
desc(col)
bitwiseNOT(col)
shiftLeft(col, numBits)
shiftRight(col, numBits)
shiftRightUnsigned(col, numBits)
coalesce(*cols)
isnan(col)
isnull(col)
col(col) 또는 column(col)
create_map(*cols)
explode(col)
expr(str)
hash(*cols)
input_file_name()
posexplode(col)
sha1(col)
sha2(col, numBits)
soundex(col)
spark_partition_id()
from_json(col, schema, options={})
get_json_object(col, path)
json_tuple(col, *fields)
to_json(col, options={})
checkpoint(eager=True)
setCheckpointDir(dir)
함수를 사용하십시오. 이는 ctx.spark_session.sparkContext
를 통해 접근할 수 있습니다. ctx
를 변환의 compute()
함수에 입력 파라미터로 포함하십시오.localCheckpoint(eager=True)
checkpoint()
함수는 DataFrame을 임시로 디스크에 저장하는 데 사용되며, localCheckpoint()
는 실행자 메모리에 저장합니다. localCheckpoint()
를 사용할 때 디렉토리를 설정할 필요가 없습니다. eager
파라미터 값을 사용하여 DataFrame이 즉시 체크포인트되는지 설정하십시오(기본값은 True
).