동기화는 특정 데이터를 소스에서 읽어서 Foundry에 취입하는 작업입니다. 예를 들어, 여러 테이블을 포함하는 관계형 데이터베이스 소스가 있다면, 특정 테이블을 Foundry에 취입하기 위해 동기화를 설정할 수 있습니다.
스트리밍 동기화는 비스트리밍(즉, 배치 또는 점진적) 동기화와 비슷하지만 몇 가지 차이점이 있습니다. 주요 차이점은 배치 또는 점진적 동기화가 주기적으로 실행되는 반면, 스트리밍 동기화는 가능한 한 지연 시간이 적게 Foundry에 데이터를 가져오기 위해 지속적으로 실행됩니다.
아래에서는 동기화를 생성하는 데 필요한 단계에 대해 논의하겠습니다:
이 튜토리얼에서는 동기화를 설정하기 위해 Kafka 소스를 사용하겠습니다.
먼저, Foundry에 동기화하려는 데이터를 결정합니다. Data Connection에서 스트리밍 소스를 선택한 다음, 오른쪽 상단 모서리에 있는 사용 가능한 액션을 선택합니다:
소스 유형이 소스 탐색을 지원하는 경우, 동기화 가능한 데이터를 표시하는 Data Connection의 소스 탐색 페이지로 이동하게 됩니다. 탐색 뷰 인터페이스는 사용하는 소스 유형에 따라 달라집니다. 예를 들어, Kafka 소스 탐색을 사용하면 Kafka 브로커에 존재하는 토픽을 보고 그 토픽에 포함된 데이터를 미리 볼 수 있습니다.
Kafka 탐색 뷰에서는 페이지 왼쪽의 목록에 있는 기존 토픽을 볼 수 있습니다.
토픽을 선택하면 해당 토픽에서 데이터의 샘플을 미리 볼 수 있습니다.
다음으로, Foundry에서 동기화된 데이터셋을 저장할 위치를 결정해야 합니다. 데이터셋의 위치는 프로젝트 수준 권한에 따라 결과 데이터셋에 대한 액세스 권한을 결정합니다.
동기화된 데이터셋을 소스와 같은 프로젝트에 저장하는 것을 권장합니다. 이렇게 하면 동일한 권한을 가질 수 있으며, 데이터 파이프라인을 생성할 때 데이터셋과 소스 권한이 일치하면 도움이 됩니다. 데이터 파이프라인을 위한 권장 프로젝트 구조에 대해 더 알아보기
동기화 위치를 선택한 후, 오른쪽 상단에 스트리밍 동기화 생성을 클릭합니다.
이제 Data Connection의 동기화 생성 페이지로 이동하여 동기화에 대한 소스별 및 핵심 스트리밍 구성을 정의할 수 있습니다.
다음으로, 스트림에 대한 처리량을 선택합니다. 처리량은 생성될 파티션의 수를 결정합니다. 파티션 수를 더 많이 선택하면 처리량이 높아집니다. 보통 처리량을 선택하면 해당 스트림에 대해 최대 5 MB/s까지 허용됩니다.
그런 다음 입력 데이터의 스키마를 지정합니다. 기본적으로 이는 소스에서 추론되지만 필요한 경우 덮어쓸 수 있습니다.
동기화를 설정한 후, 오른쪽 상단에 동기화 생성을 선택합니다.
동기화가 생성되면 전체보기 탭으로 이동하게 됩니다.
이제 동기화를 실행할 준비가 되었습니다. 전체보기 탭을 선택하여 새 동기화의 요약을 볼 수 있습니다. 이에는 결과 데이터셋, 위치, 사용 가능한 액션이 포함됩니다.
시작을 클릭하여 외부 스트림에서 Foundry로의 데이터 동기화를 시작합니다.
스트림 데이터를 보려면 동기화를 생성하는 동안 설정한 스트림으로 이동하여 스트림 미리보기 페이지를 볼 수 있습니다. 스트림에서 Kafka 토픽의 레코드가 흐르는 것을 볼 수 있어야 합니다.
동기화를 성공적으로 실행한 후에는, 실패하는 스트림 디버그, 푸시 기반 취입을 사용하여 스트림에 데이터 푸시, 또는 스트림을 온톨로지와 통합하는 방법을 배워보세요.