데이터 통합PythonPySpark Reference기타

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

기타

컬렉션

  • array(*cols)
  • array_contains(col, value)
  • size(col)
  • sort_array(col, asc=True)
  • struct(*cols)

정렬

  • asc(col)
  • desc(col)

이진

  • bitwiseNOT(col)
  • shiftLeft(col, numBits)
  • shiftRight(col, numBits)
  • shiftRightUnsigned(col, numBits)

null 값 처리

  • coalesce(*cols)
  • isnan(col)
  • isnull(col)

  • col(col) 또는 column(col)
  • create_map(*cols)
  • explode(col)
  • expr(str)
  • hash(*cols)
  • input_file_name()
  • posexplode(col)
  • sha1(col)
  • sha2(col, numBits)
  • soundex(col)
  • spark_partition_id()

JSON

  • from_json(col, schema, options={})
  • get_json_object(col, path)
  • json_tuple(col, *fields)
  • to_json(col, options={})

체크포인트

  • checkpoint(eager=True)
    • 사용자 정의 체크포인트 디렉토리를 설정하려면 Spark 컨텍스트의 setCheckpointDir(dir) 함수를 사용하십시오. 이는 ctx.spark_session.sparkContext를 통해 접근할 수 있습니다. ctx를 변환의 compute() 함수에 입력 파라미터로 포함하십시오.
    • 체크포인트 디렉토리는 한 번만 설정하면 됩니다. 동일한 디렉토리에 체크포인트를 설정하려는 모든 후속 시도는 RDD 오류를 발생시킵니다.
  • localCheckpoint(eager=True)

checkpoint() 함수는 DataFrame을 임시로 디스크에 저장하는 데 사용되며, localCheckpoint()는 실행자 메모리에 저장합니다. localCheckpoint()를 사용할 때 디렉토리를 설정할 필요가 없습니다. eager 파라미터 값을 사용하여 DataFrame이 즉시 체크포인트되는지 설정하십시오(기본값은 True).