스파크란?
스파크는 Foundry에서 대규모 데이터 변환을 실행하기 위해 사용되는 분산 컴퓨팅 시스템입니다. 스파크는 원래 UC 버클리의 연구자 팀에 의해 개발되었으며, 그 후 2000년대 후반에 아파치 재단에 기부되었습니다. Foundry를 통해 스파크를 기반 계산 레이어로 사용하여 대량의 데이터에 대해 SQL, Python, Java 및 Mesa 변환을 실행할 수 있습니다 (Mesa는 독점 Java 기반 DSL입니다).
스파크가 어떻게 작동합니까?
스파크는 데이터를 처리하기 위해 여러 컴퓨터에 작업을 분산시켜 동시에 실행하는 것에 의존합니다. 이 프로세스는 MapReduce라는 방법으로 사용자와 프로젝트 간에 동시 작업을 빠르게 실행할 수 있게 해줍니다. 이러한 컴퓨터는 드라이버와 실행기로 나뉩니다.
EXECUTOR_MEMORY_SMALL
에서 EXECUTOR_MEMORY_MEDIUM
으로 높이고 다른 것을 조정하기 전에 작업을 다시 실행합니다. 이렇게 하면 작업에 필요 이상의 리소스를 할당함으로써 발생하는 불필요한 비용을 피할 수 있습니다.EXECUTOR_CORES_SMALL
, EXECUTOR_MEMORY_SMALL, DRIVER_CORES_SMALL, DRIVER_MEMORY_SMALL, NUM_EXECUTORS_2입니다.NUM_EXECUTORS_32
및 EXECUTOR_MEMORY_LARGE
(이상)는 요청 및 요청 승인 시에만 사용할 수 있어야 합니다.EXECUTOR_CORES_SMALL
을 제외한 모든 실행기 코어 값은 크게 제어되어야 합니다 (왜냐하면 이것은 컴퓨팅 파워를 늘리는 은밀한 방법이고, 거의 모든 경우에 NUM_EXECUTORS 프로파일로 사용자를 유도하려고 하기 때문입니다).EXECUTOR_CORES_SMALL
및 EXECUTOR_MEMORY_MEDIUM
조합)를 초과하는 것은 관리자의 승인을 받아야 합니다. EXECUTOR_CORES_EXTRA_SMALL
및 EXECUTOR_MEMORY_LARGE
를 차단하십시오. 이렇게 요청하는 사용자는 최적화가 미흡하거나 중요한 워크플로가 있을 가능성이 높습니다.