팔란티어 Foundry에서 생성할 수 있는 파이프라인의 주요 유형은 세 가지이며, 각각은 다음 몇 가지 기준에 따라 다른 트레이드 오프를 제공합니다:
파이프라인의 세 가지 유형은 다음과 같습니다:
아래에서 각 파이프라인 유형, 그 트레이드 오프, 그리고 이 유형의 파이프라인 작성을 시작하는 방법에 대해 논의합니다. 편의를 위해 아래에 언급된 트레이드 오프에 따른 파이프라인 유형에 대한 요약 표가 있습니다.
배치 파이프라인에서는 상류 데이터가 변경될 때마다 파이프라인의 모든 데이터셋이 완전히 다시 계산됩니다. 모든 것이 다시 계산되므로 파이프라인의 종단 간 성능은 시간이 지남에 따라 매우 일관되며, 파이프라인의 코드 및 유지 관리 복잡성은 최소입니다. 더 많은 사용자가 배치 파이프라인에 기여할 수 있도록 배치 파이프라인 작성을 위한 다양한 언어와 도구가 제공됩니다. 이에는 SQL이 포함됩니다.
위의 기준에 따라 배치 파이프라인을 검토하면:
대부분의 경우, 파이프라인이 유효한 유즈케이스를 가지고 있음이 검증되면 배치 파이프라인을 생성하고 점진적 계산을 지원하도록 확장하여 Foundry에서 파이프라인 개발을 시작해야 합니다. 많은 경우에, 데이터 규모가 낮다면 (예: 수천만 행 이하) 배치 파이프라인을 계속 사용할 수 있습니다.
파이프라인을 미래에 점진적으로 만들어야 할 것으로 예상되면 배치 파이프라인 개발에 Python 또는 Java를 사용하는 것이 좋습니다. 이 언어들은 점진적 계산을 지원합니다.
Pipeline Builder에서 배치 파이프라인을 생성하는 방법을 배우는 것으로 시작하거나, 다른 언어에 대한 튜토리얼을 따르십시오:
점진적 파이프라인에서는 마지막 빌드 이후에 변경된 데이터의 행 또는 파일만 계산됩니다. 이는 이벤트 데이터 및 시간이 지남에 따라 많은 양의 데이터가 변경되는 다른 데이터셋을 처리하는 데 적합합니다. 전체 계산량을 줄이는 것 외에도, 배치 파이프라인에 비해 파이프라인의 종단 간 지연 시간을 크게 줄일 수 있습니다. 점진적 계산을 위한 Python 및 Java API만 사용 가능합니다.
위의 기준에 따라 점진적 파이프라인을 검토하면:
점진적 파이프라인에 대해 더 알아보려면 다음 리소스를 참조하세요:
스트리밍 파이프라인에서는 코드가 지속적으로 실행되어 Foundry로 스트리밍되는 새로운 데이터를 처리하며, 가장 낮은 수준의 지연 시간을 가능하게 하지만 가장 높은 수준의 복잡성과 계산 비용을 발생시킵니다. 일반적으로 스트리밍 파이프라인을 관리하는 마이크로서비스를 관리하는 것에 가깝게 생각하는 것이 도움이 됩니다—스트리밍 파이프라인을 성공적으로 실행하기 위해서는 업타임, 복원력, 상태 유지 작업에 대해 매우 신중해야 합니다.
위의 기준에 따라 스트리밍 파이프라인을 검토하면:
대부분의 경우, 사용 사례가 매우 낮은 지연 시간 요구사항이 있는 경우가 아니라면 스트리밍 파이프라인을 생성하는 것을 피하는 것이 가장 좋습니다. 점진적 파이프라인은 종종 분 단위의 종단 간 지연 시간까지 성능을 발휘할 수 있도록 만들어져 스트리밍 파이프라인의 추가 복잡성과 계산 비용을 발생시키지 않고도 대부분의 요구 사항을 충족시킵니다.
스트리밍 파이프라인에 대해 더 알아보려면 다음 리소스를 참조하세요:
스트리밍 파이프라인에 대한 추가 문서는 곧 제공될 예정입니다. 스트리밍 파이프라인을 구축하는 데 관심이 있다면 당신의 팔란티어 대표에게 연락하십시오.