+

K

API 참조 ↗Send feedback

데이터 통합PythonPySpark Reference기타

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

기타

컬렉션

array(*cols)
array_contains(col, value)
size(col)
sort_array(col, asc=True)
struct(*cols)

정렬

asc(col)
desc(col)

이진

bitwiseNOT(col)
shiftLeft(col, numBits)
shiftRight(col, numBits)
shiftRightUnsigned(col, numBits)

null 값 처리

coalesce(*cols)
isnan(col)
isnull(col)

열

col(col) 또는 column(col)
create_map(*cols)
explode(col)
expr(str)
hash(*cols)
input_file_name()
posexplode(col)
sha1(col)
sha2(col, numBits)
soundex(col)
spark_partition_id()

JSON

from_json(col, schema, options={})
get_json_object(col, path)
json_tuple(col, *fields)
to_json(col, options={})

체크포인트

checkpoint(eager=True)
- 사용자 정의 체크포인트 디렉토리를 설정하려면 Spark 컨텍스트의 setCheckpointDir(dir) 함수를 사용하십시오. 이는 ctx.spark_session.sparkContext를 통해 접근할 수 있습니다. ctx를 변환의 compute() 함수에 입력 파라미터로 포함하십시오.
- 체크포인트 디렉토리는 한 번만 설정하면 됩니다. 동일한 디렉토리에 체크포인트를 설정하려는 모든 후속 시도는 RDD 오류를 발생시킵니다.
localCheckpoint(eager=True)

checkpoint() 함수는 DataFrame을 임시로 디스크에 저장하는 데 사용되며, localCheckpoint()는 실행자 메모리에 저장합니다. localCheckpoint()를 사용할 때 디렉토리를 설정할 필요가 없습니다. eager 파라미터 값을 사용하여 DataFrame이 즉시 체크포인트되는지 설정하십시오(기본값은 True).

NEXTSQL / 개요