데이터 통합Data Connection데이터 내보내기전체보기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

전체보기

Data Connection은 Foundry에서 외부 시스템으로 데이터셋스트림을 내보내는 것을 지원합니다. 이는 다양한 목적에 유용할 수 있습니다:

  • 데이터 파이프라인을 사용하여 Foundry에서 정리 및 변환된 데이터는 데이터 웨어하우스나 데이터 레이크와 같은 시스템으로 동기화될 수 있습니다. 이 패턴은 "How Palantir Foundry Fuels Your Data Platform"에서 더 자세히 설명되어 있습니다.
  • 배치 배포를 사용하여 생성된 기계 학습 모델의 추론 결과는 다른 시스템으로 내보내어 조직 전체의 ML 프로젝트를 운영화하는 데 사용될 수 있습니다.
  • Ontology에서 최종 사용자로부터 얻은 운영 데이터는 Foundry 외부에서 분석을 위해 다른 시스템에 기록될 수 있습니다.

Data Connection 내보내기는 아직 모든 소스 유형에 대해 지원되지 않습니다. 사용 가능성을 확인하려면 소스 유형 전체보기 문서에 나열된 개별 소스 페이지를 검토하세요. 각 소스 페이지에는 내보내기 기능이 사용 가능한 경우 Data Connection 내보내기 또는 내보내기 작업 지원이 목록에 표시됩니다. 예를 들어, Amazon S3 소스 유형은 Data Connection 내보내기를 지원하는 반면, BigQuery 소스는 내보내기 작업을 필요로 합니다.
아직 Data Connection 내보내기 기능을 지원하지 않는 일부 소스는 레거시 내보내기 작업 설정을 지원할 수 있습니다. 내보내기 작업은 업데이트된 내보내기 기능을 구현하는 소스 유형에 대해 더 이상 권장되지 않습니다.

소스 내보내기 활성화

데이터를 내보내려면 내보내는 소스의 Connection 설정 섹션에서 내보내기를 활성화해야 합니다. 내보내기를 지원하는 소스 유형은 화면 왼쪽에 내보내기 구성 탭을 표시합니다. Information Security Officer 역할의 Foundry 사용자는 이 탭으로 이동하고 이 소스로 내보내기 활성화 옵션을 토글해야 합니다.

Information Security Officer는 Foundry의 기본 역할입니다. 사용자는 Control Panel에서 등록 권한 아래에서 Information Security Officer 역할을 부여받을 수 있습니다.

내보내기를 활성화한 후, 이 소스로 내보낼 수 있는 Markings의 집합을 제공해야 합니다. 내보내기 구성에 Markings와 Organizations가 추가되지 않은 경우, 해당 Markings 또는 Organizations가 있는 데이터는 이 소스로 내보내기에 실패합니다. 내보낼 수 있는 Marking을 추가하려면 사용자는 Information Security Officer이어야 하며, 이 소스로 내보낼 수 있도록 허용하려는 Markings 또는 Organizations에 대한 unmarking 권한이 있어야 합니다.

예를 들어, Palantir 그룹에 Sensitive marking이 있는 데이터셋이 있을 수 있습니다. 이 데이터셋을 내보내려면, 이 소스의 내보낼 수 있는 markings 집합에 Sensitive marking과 Palantir 그룹을 모두 추가해야 합니다.

source for exports enable

새로운 내보내기 생성

내보내기를 생성하려면, 먼저 내보내려는 소스의 전체보기 페이지로 이동하세요.

주어진 소스에 대해 설정하는 첫 번째 내보내기인 경우, 비어있는 표와 내보내기를 생성하는 버튼을 볼 수 있습니다.

An empty table on a source export page with a blue Create Export button.

내보내기 생성을 선택한 후 내보내려는 데이터셋 또는 스트림을 선택하고 소스별 내보내기 구성 옵션을 선택하세요. 이 옵션들은 소스 커넥터별로 다르며, 관련 문서의 해당 소스 유형 페이지에서 설명합니다. 내보내는 데이터셋에 여러 branch가 존재하는 경우, master branch의 데이터만 내보내집니다.

아래 예제는 S3 커넥터에 대한 내보내기 구성 인터페이스를 보여줍니다:

The S3 source export configuration page. Available configurations include the dataset and destination for export, the export name, and source-specific settings.

내보내기를 저장한 후, 내보내기 관리 페이지로 이동하게 되며, 여기서 다음을 수행할 수 있습니다:

  • 내보내기를 수동으로 실행합니다.
  • 내보내기에 대한 일정을 설정합니다.
  • 내보내기 이력을 확인합니다.
  • 구성 옵션을 수정합니다.

스트리밍 내보내기는 실행 버튼 대신 시작/중지 버튼을 사용합니다. 스트리밍 내보내기에 일정이 구성되어 있는 경우, 다른 스트림의 일정과 유사하게 동작합니다. 일정이 트리거되었을 때 스트림이 중지된 상태라면 자동으로 재시작됩니다. 일정이 트리거되었을 때 스트림이 중지되지 않은 상태라면 계속 실행됩니다.

일부 소스 내보내기 옵션은 초기 설정 후에는 편집할 수 없을 수 있습니다. 변경해야 하는 불변 옵션이 있다면, 내보내기를 삭제하고 다시 생성해야 합니다.

내보내기 행동

내보내기의 행동은 대상 시스템의 유형에 따라 달라집니다.

파일시스템 대상

파일시스템 대상의 예로는 S3가 있습니다.

파일시스템 대상으로 내보내기를 하면, 선택한 Foundry 데이터셋의 파일이 구성된 대상으로 쓰여집니다. 기본적으로, 마지막으로 성공적으로 내보낸 트랜잭션 이후에 수정된 파일만 씁니다. 이는 주어진 트랜잭션에서 파일이 업데이트되지 않았다면, 다음 스케줄되거나 수동으로 실행된 어떤 하류 내보내기에서도 다시 내보내지지 않을 것이라는 의미입니다.

전체 데이터셋을 다시 내보내야 하는 경우, 같은 소스에 새로운 내보내기를 설정하거나 상류 변환이 내보내야 하는 모든 파일을 덮어쓰도록 하십시오.

기본적으로, 대상에 이미 파일이 존재하는 경우, 내보내기 작업은 그 파일을 내보낸 데이터로 덮어씁니다. 이 행동은 소스 유형에 따라 다를 수 있습니다. 대상 시스템에 저장된 데이터를 실수로 덮어쓰는 것을 피하기 위해, Foundry에서 내보낸 데이터를 랜드하는 데 전용 하위 폴더를 생성하는 것이 좋습니다.

스트리밍 대상

스트리밍 대상의 예로는 Kafka가 있습니다.

스트리밍 대상으로 내보내기를 하면, Foundry에서 내보내기 작업이 실행되는 동안 대상으로 레코드를 스트리밍합니다. 작업이 중지되고 다시 시작되면, 마지막으로 중단된 곳에서 레코드 스트리밍을 재개합니다.

스트리밍 내보내기 재생 행동

스트리밍 대상으로 내보내기를 구성할 때, Foundry에서 스트림이 재생될 때 원하는 행동을 지정해야 합니다. 일반적으로, 스트림은 처리 로직에 대한 중단 변경을 만든 후 재생됩니다. 이 경우, 이전에 처리된 레코드는 다음 방법 중 하나를 사용하여 새 로직을 사용하여 다시 처리해야 합니다:

  • 재생된 레코드 내보내기: 스트림이 재생될 때 모든 레코드를 다시 내보냅니다. 이전에 내보낸 레코드가 다시 내보내지며, 외부 시스템은 중복을 처리하도록 구성되어야 합니다.

  • 재생된 레코드를 내보내지 않음: 재생된 오프셋이 내보내기 작업에서 가장 최근의 오프셋과 일치할 때까지 내보내기를 일시 중지합니다. 재생된 스트림 간에 오프셋이 일치하는 것이 보장되지 않기 때문에, 이 옵션은 종종 내보내지지 않을 수 있는 일부 레코드의 수를 줄이게 됩니다.

직접 연결 런타임을 사용할 때 스트리밍 대상으로 내보내기는 아직 지원되지 않습니다. 스트리밍 내보내기를 수행하려면 에이전트 런타임을 사용해야 합니다.

테이블형 대상

JDBC를 통한 테이블형 시스템으로의 내보내기는 아직 지원되지 않습니다. 일부 테이블형 소스 유형에 대한 내보내기는 내보내기 작업을 통해 사용할 수 있을 수 있습니다.

내보내기 스케줄링

내보내기는 정기적으로 실행되도록 스케줄링되어야 하며, 최근 데이터를 외부 대상으로 내보내야 합니다. 스트리밍 내보내기는 시작하거나 중지해야 하므로 스케줄링할 필요가 없습니다.

내보내기를 스케줄링하려면, 내보내기의 전체보기 페이지로 이동합니다. 그런 다음, 일정 추가를 선택하여 내보내기를 Data Lineage에서 엽니다. 그런 다음 화면 오른쪽에서 새로운 일정 생성을 선택하고 다른 작업에 대해 구성하는 것과 같이 구성합니다. 사용 가능한 일정 옵션에 대해 더 알아보세요.

특정 내보내기를 트리거하는 모든 일정을 해당 내보내기의 전체보기 페이지에서 확인할 수 있습니다. 아래와 같이 보여집니다:

A preview of a schedule set to build an export job at 12:30am in Europe/London time.

내보내기 이력

syncs와 마찬가지로, 내보내기는 Foundry 빌드 시스템을 사용하여 작업으로 실행됩니다. 내보내기의 이력 뷰는 그와 연관된 작업의 이력을 보여줍니다. 각 작업은 빌드 보고서 보기작업 세부 정보 섹션의 오른쪽 상단에서 선택하여 빌드 애플리케이션에서 열고 볼 수 있습니다.

스트리밍 내보내기의 경우, 내보내기 이력은 스트리밍 내보내기 작업이 현재 실행 중인지 아니면 중지되었는지도 표시합니다.

내보낸 데이터 변환

일반적으로, 내보내기는 내보내기 작업의 일부로 실행되는 데이터 변환을 지원하지 않습니다. 이는 내보내려는 데이터셋 또는 스트림이 이미 원하는 형식으로 있어야 함을 의미하며, 필터, 이름 변경 또는 재파티션된 파일, 그리고 데이터의 기타 변환을 포함합니다.

Pipeline BuilderCode Repositories는 Foundry의 데이터 변환 파이프라인을 구축하기 위한 도구입니다. 두 애플리케이션 모두 내보내기를 위해 데이터를 준비하는 데 필요한 완전한 도구를 제공해야 합니다. 이에는 작업의 확장성, 모니터링, 버전 제어, 그리고 필요한 경우 임의의 로직을 작성할 수 있는 유연성이 포함됩니다.

Kafka로 내보낼 때 스트림 레코드의 Base64 디코딩을 허용하는 것이 가능합니다. Kafka 내보내기에 대한 자세한 내용은 전체 Kafka 커넥터 문서를 검토하십시오.