- Priority Tier: 시간, 가용성 및 예측 가능한 가격 책정이 중요한 프로덕션에 배포된 워크플로우에 최적
- Standard: 파일럿 및 일상적인 사용 사례 확장을 위한 기본 계층
- Batch: 비동기 워크플로우로 대기하거나 일반 용량 외부에서 이점을 얻을 수 있는 경우에 최적
Standard Tier
표준 계층은 모든 API 요청에 대한 기본 서비스 계층입니다. 이 계층의 요청은 다른 모든 요청과 함께 우선순위가 지정되며 최선의 노력 가용성을 준수합니다.Priority Tier
이 계층의 요청은 Anthropic에 대한 다른 모든 요청보다 우선순위가 지정됩니다. 이 우선순위 지정은 피크 시간 동안에도 “server overloaded” 오류를 최소화하는 데 도움이 됩니다. 자세한 내용은 Priority Tier 시작하기를 참조하세요.요청이 계층에 할당되는 방식
요청을 처리할 때 Anthropic은 다음 시나리오에서 요청을 Priority Tier에 할당하기로 결정합니다:- 조직에 충분한 Priority Tier 용량 input 토큰/분이 있음
- 조직에 충분한 Priority Tier 용량 output 토큰/분이 있음
- 캐시 읽기는 캐시에서 읽은 토큰당 0.1 토큰
- 캐시 쓰기는 5분 TTL로 캐시에 쓴 토큰당 1.25 토큰
- 캐시 쓰기는 1시간 TTL로 캐시에 쓴 토큰당 2.00 토큰
- long-context (>200k input 토큰) 요청의 경우 input 토큰은 토큰당 2 토큰
- 다른 모든 input 토큰은 토큰당 1 토큰
- long-context (>200k input 토큰) 요청의 경우 output 토큰은 토큰당 1.5 토큰
- 다른 모든 output 토큰은 토큰당 1 토큰
Priority Tier에 할당된 요청은 Priority Tier 용량과 일반 속도 제한 모두에서 가져옵니다.
요청을 처리하면 속도 제한을 초과하는 경우 요청이 거부됩니다.
서비스 계층 사용
service_tier 매개변수를 설정하여 요청에 사용할 수 있는 서비스 계층을 제어할 수 있습니다:
service_tier 매개변수는 다음 값을 허용합니다:
"auto"(기본값) - 사용 가능한 경우 Priority Tier 용량을 사용하고, 그렇지 않으면 다른 용량으로 폴백"standard_only"- 표준 계층 용량만 사용하며, Priority Tier 용량을 사용하지 않으려는 경우에 유용
usage 객체에는 요청에 할당된 서비스 계층도 포함됩니다:
service_tier="auto"를 요청할 때 이러한 응답 헤더는 통찰력을 제공합니다:
Priority Tier 시작하기
다음에 관심이 있는 경우 Priority Tier 용량에 약정하고 싶을 수 있습니다:- 더 높은 가용성: 우선순위가 지정된 계산 리소스로 99.5% 가동 시간 목표
- 비용 제어: 예측 가능한 지출 및 더 긴 약정에 대한 할인
- 유연한 오버플로우: 약정된 용량을 초과할 때 자동으로 표준 계층으로 폴백
- 분당 input 토큰 수
- 분당 output 토큰 수
- 약정 기간 (1, 3, 6 또는 12개월)
- 특정 모델 버전
구매하는 input 토큰과 output 토큰의 비율이 중요합니다. Priority Tier 용량을 실제 트래픽 패턴에 맞게 크기를 조정하면 구매한 토큰의 활용도를 최대화할 수 있습니다.
지원되는 모델
Priority Tier는 다음에서 지원됩니다:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Haiku 3.5
Priority Tier에 액세스하는 방법
Priority Tier 사용을 시작하려면:- 영업팀에 문의하여 프로비저닝 완료
- (선택 사항) API 요청을 업데이트하여 선택적으로
service_tier매개변수를auto로 설정 - 응답 헤더 및 Claude Console을 통해 사용량 모니터링