2. [Pipeline Builder] 데이터 변환 소개3 - 데이터소스 시뮬레이션

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

3 - 데이터소스 시뮬레이션

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며 접근성을 위해 여기에 제공됩니다.

📖 작업 소개

프로젝트의 각 단계에서는 Pipeline builder로 빌드된 여러 배치 파이프라인이 필요할 수 있습니다. 여기서는 구조화된 환경에서 데이터 변환을 개발하고 유지 관리합니다. 이 튜토리얼에서는 실제로 외부 소스에 연결하지 않으므로 Datasource 프로젝트에 세 개의 원시 파일 복사본을 만들어 하나를 시뮬레이션합니다.

🔨 작업 지침

  1. 이전 튜토리얼에서 생성한 ↗ 데이터소스 프로젝트 폴더로 이동합니다. 예: .../Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Datasource Project: Flight Alerts/.

  2. 해당 위치에 /data 또는 /datasets/ 폴더가 아직 없다면 하나를 생성합니다.

    • /datasets 폴더에서 다음 하위 폴더를 생성합니다:
    • /raw
    • /clean
    • /preprocessed
  3. /raw 폴더를 클릭합니다.

  4. 화면 오른쪽 상단의 녹색 ➕ New ▾ 버튼을 클릭하여 드롭다운 목록에서 Pipeline을 선택하여 새 파이프라인을 생성합니다.

  5. 배치 파이프라인을 생성하고 이름을 flight_alerts_datasource로 지정합니다.

  6. 데이터셋 추가 버튼을 사용하여 각각 /Foundry Training and Resources/Example Projects/[Datasource] Flight Alerts/datasets/raw/에 위치한 다음 데이터셋을 추가합니다.

    • flight_alerts_raw
    • status_mapping_raw
    • priority_mapping_raw
  7. 파이프라인에서 3개의 결과물을 생성합니다. 각각은 위의 6단계에서 가져온 데이터셋에 대한 것입니다. 각 입력 스키마를 단순히 사용하세요.

  8. 범례로부터 노드 색상 옵션을 사용하여 입력 및 결과물 데이터셋을 명확하게 구분하고 그에 따라 레이블을 지정하는 것을 고려하세요. 아래 클릭 가능한 이미지를 참조하세요.

  9. 저장하기배포를 클릭하여 결과물 데이터셋을 빌드합니다.

📖 작업 소개

프로젝트의 각 단계에서는 Pipeline builder로 빌드된 여러 배치 파이프라인이 필요할 수 있습니다. 여기서는 구조화된 환경에서 데이터 변환을 개발하고 유지 관리합니다. 이 튜토리얼에서는 실제로 외부 소스에 연결하지 않으므로 Datasource 프로젝트에 세 개의 원시 파일 복사본을 만들어 하나를 시뮬레이션합니다.

🔨 작업 지침

  1. 이전 튜토리얼에서 생성한 데이터소스 프로젝트 폴더로 이동합니다. 예: .../**Temporary Training** Artifacts/${yourName}/Data Engineering Tutorials/Datasource Project: Flight Alerts/.

  2. 해당 위치에 /data 또는 /datasets/ 폴더가 아직 없다면 하나를 생성합니다.

    • /datasets 폴더에서 다음 하위 폴더를 생성합니다:
    • /raw
    • /clean
    • /preprocessed
  3. /raw 폴더를 선택합니다.

  4. 화면 오른쪽 상단의 ➕ New ▾를 선택하고 드롭다운 메뉴에서 Pipeline을 선택하여 새 파이프라인을 생성합니다.

  5. 배치 파이프라인을 생성하고 이름을 flight_alerts_datasource로 지정합니다.

  6. 데이터셋 추가 버튼을 사용하여 각각 /Foundry Training and Resources/Example Projects/[Datasource] Flight Alerts/datasets/raw/에 위치한 다음 데이터셋을 추가합니다.

    • flight_alerts_raw
    • status_mapping_raw
    • priority_mapping_raw
  7. 파이프라인에서 3개의 결과물을 생성합니다. 각각은 위의 6단계에서 가져온 데이터셋에 대한 것입니다. 각 입력 스키마를 단순히 사용하세요.

  8. 범례로부터 노드 색상 옵션을 사용하여 입력 및 결과물 데이터셋을 명확하게 구분하고 그에 따라 레이블을 지정하는 것을 고려하세요. 아래 클릭 가능한 이미지를 참조하세요.

  9. 저장하기배포를 클릭하여 결과물 데이터셋을 빌드합니다.