요청 제한

두 가지 유형의 제한이 있습니다:

지출 제한은 조직이 API 사용으로 발생할 수 있는 최대 월간 비용을 설정합니다.
요청 제한은 조직이 정의된 기간 동안 할 수 있는 최대 API 요청 수를 설정합니다.

조직 수준에서 서비스 구성 제한을 적용하지만, 조직의 워크스페이스에 대해 사용자가 구성 가능한 제한을 설정할 수도 있습니다. 이러한 제한은 표준 및 우선 순위 계층 사용에 모두 적용됩니다. 약정된 지출에 대한 대가로 향상된 서비스 수준을 제공하는 우선 순위 계층에 대한 자세한 내용은 서비스 계층을 참조하세요.

제한 정보

제한은 API 오용을 방지하면서 일반적인 고객 사용 패턴에 미치는 영향을 최소화하도록 설계되었습니다.
제한은 사용 계층으로 정의되며, 각 계층은 다른 지출 및 요청 제한 세트와 연결됩니다.
조직은 API를 사용하면서 특정 임계값에 도달하면 자동으로 계층이 상향됩니다. 제한은 조직 수준에서 설정됩니다. Claude Console의 제한 페이지에서 조직의 제한을 확인할 수 있습니다.
더 짧은 시간 간격에서 요청 제한에 도달할 수 있습니다. 예를 들어, 분당 60개 요청(RPM)의 요청 제한이 초당 1개 요청으로 적용될 수 있습니다. 높은 볼륨의 요청이 짧게 폭증하면 요청 제한을 초과하여 요청 제한 오류가 발생할 수 있습니다.
아래에 설명된 제한은 표준 계층 제한입니다. 더 높은 사용자 정의 제한이나 향상된 서비스 수준을 위한 우선 순위 계층을 원하시면 Claude Console을 통해 영업팀에 문의하세요.
요청 제한을 수행하기 위해 토큰 버킷 알고리즘을 사용합니다. 이는 고정 간격으로 재설정되는 것이 아니라 최대 제한까지 용량이 지속적으로 보충된다는 의미입니다.
여기에 설명된 모든 제한은 최대 허용 사용량을 나타내며 보장된 최소값이 아닙니다. 이러한 제한은 의도하지 않은 초과 지출을 줄이고 사용자 간 리소스의 공정한 분배를 보장하기 위한 것입니다.

지출 제한

각 사용 계층에는 매월 API에 지출할 수 있는 금액에 대한 제한이 있습니다. 계층의 지출 제한에 도달하면 다음 계층에 적격이 될 때까지 다음 달까지 기다려야 API를 다시 사용할 수 있습니다. 다음 계층에 적격이 되려면 예금 요구 사항을 충족해야 합니다. 계정에 과도하게 자금을 조달할 위험을 최소화하기 위해 월간 지출 제한보다 더 많은 금액을 예금할 수 없습니다.

계층 상향 요구 사항

사용 계층	크레딧 구매	최대 크레딧 구매
계층 1	$5	$100
계층 2	$40	$500
계층 3	$200	$1,000
계층 4	$400	$5,000
월간 청구	해당 없음	해당 없음

크레딧 구매는 해당 계층으로 상향하기 위해 필요한 누적 크레딧 구매(세금 제외)를 나타냅니다. 임계값에 도달하면 즉시 상향됩니다.최대 크레딧 구매는 계정 과자금 조달을 방지하기 위해 단일 거래에서 계정에 추가할 수 있는 최대 금액을 제한합니다.

Messages API의 요청 제한은 각 모델 클래스에 대해 분당 요청 수(RPM), 분당 입력 토큰 수(ITPM) 및 분당 출력 토큰 수(OTPM)로 측정됩니다. 요청 제한을 초과하면 어느 요청 제한이 초과되었는지 설명하는 429 오류와 대기할 시간을 나타내는 retry-after 헤더를 받게 됩니다.

조직의 사용량이 급격히 증가하면 API의 가속 제한으로 인해 429 오류가 발생할 수도 있습니다. 가속 제한에 도달하지 않으려면 트래픽을 점진적으로 증가시키고 일관된 사용 패턴을 유지하세요.

캐시 인식 ITPM

많은 API 제공자는 캐시된 토큰과 캐시되지 않은 토큰, 입력 및 출력을 포함한 모든 토큰을 포함할 수 있는 결합된 “분당 토큰 수”(TPM) 제한을 사용합니다. 대부분의 Claude 모델의 경우 캐시되지 않은 입력 토큰만 ITPM 요청 제한에 포함됩니다. 이는 요청 제한을 처음 보이는 것보다 효과적으로 더 높게 만드는 핵심 이점입니다. ITPM 요청 제한은 각 요청의 시작 부분에서 추정되며, 추정값은 요청 중에 조정되어 사용된 실제 입력 토큰 수를 반영합니다. ITPM에 포함되는 것:

input_tokens (캐시되지 않은 새 입력 토큰) ✓ ITPM에 포함됨
cache_creation_input_tokens (캐시에 기록되는 토큰) ✓ ITPM에 포함됨
cache_read_input_tokens (캐시에서 읽은 토큰) ✗ 대부분의 모델에서 ITPM에 포함되지 않음

예시: 2,000,000 ITPM 제한과 80% 캐시 히트율을 사용하면 캐시된 토큰이 요청 제한에 포함되지 않으므로 분당 10,000,000개의 총 입력 토큰(2M 캐시되지 않음 + 8M 캐시됨)을 효과적으로 처리할 수 있습니다.

일부 이전 모델(아래 요청 제한 표에서 †로 표시됨)도 cache_read_input_tokens를 ITPM 요청 제한에 포함합니다.† 마커가 없는 모든 모델의 경우 캐시된 입력 토큰은 요청 제한에 포함되지 않으며 기본 입력 토큰 가격의 10%로 청구됩니다. 이는 프롬프트 캐싱을 사용하여 훨씬 더 높은 효과적 처리량을 달성할 수 있음을 의미합니다.

프롬프트 캐싱으로 요청 제한 최대화요청 제한을 최대한 활용하려면 다음과 같은 반복되는 콘텐츠에 프롬프트 캐싱을 사용하세요:

시스템 지시사항 및 프롬프트
대용량 컨텍스트 문서
도구 정의
대화 기록

효과적인 캐싱을 통해 요청 제한을 증가시키지 않고도 실제 처리량을 크게 증가시킬 수 있습니다. 사용 페이지에서 캐시 히트율을 모니터링하여 캐싱 전략을 최적화하세요.

OTPM 요청 제한은 각 요청의 시작 부분에서 max_tokens을 기반으로 추정되며, 추정값은 요청의 끝에서 조정되어 사용된 실제 출력 토큰 수를 반영합니다. OTPM 제한에 예상보다 빨리 도달하는 경우 max_tokens을 줄여 완료 크기를 더 잘 근사하세요. 요청 제한은 각 모델에 대해 별도로 적용되므로 다양한 모델을 각각의 제한까지 동시에 사용할 수 있습니다. Claude Console에서 현재 요청 제한 및 동작을 확인할 수 있습니다.

Claude Sonnet 4.x와 함께 context-1m-2025-08-07 베타 헤더를 사용할 때 긴 컨텍스트 요청(>200K 토큰)의 경우 별도의 요청 제한이 적용됩니다. 아래의 긴 컨텍스트 요청 제한을 참조하세요.

모델	최대 분당 요청 수(RPM)	최대 분당 입력 토큰 수(ITPM)	최대 분당 출력 토큰 수(OTPM)
Claude Sonnet 4.x^**	50	30,000	8,000
Claude Sonnet 3.7 (지원 중단됨)	50	20,000	8,000
Claude Haiku 4.5	50	50,000	10,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Haiku 3	50	50,000^†	10,000
Claude Opus 4.x^*	50	30,000	8,000
Claude Opus 3 (지원 중단됨)	50	20,000^†	4,000

^{* - Opus 4.x 요청 제한은 Opus 4와 Opus 4.1 모두에 걸친 결합된 트래픽에 적용되는 총 제한입니다.} ^{** - Sonnet 4.x 요청 제한은 Sonnet 4와 Sonnet 4.5 모두에 걸친 결합된 트래픽에 적용되는 총 제한입니다.} ^{† - 제한은 cache_read_input_tokens를 ITPM 사용량에 포함합니다.}

Message Batches API

Message Batches API는 모든 모델에서 공유되는 자체 요청 제한 세트를 가지고 있습니다. 여기에는 모든 API 엔드포인트에 대한 분당 요청 수(RPM) 제한과 동시에 처리 큐에 있을 수 있는 배치 요청 수에 대한 제한이 포함됩니다. 여기서 “배치 요청”은 Message Batch의 일부를 의미합니다. 수천 개의 배치 요청을 포함하는 Message Batch를 만들 수 있으며, 각각은 이 제한에 포함됩니다. 배치 요청은 모델에 의해 아직 성공적으로 처리되지 않은 경우 처리 큐의 일부로 간주됩니다.

최대 분당 요청 수(RPM)	처리 큐의 최대 배치 요청 수	배치당 최대 배치 요청 수
50	100,000	100,000

긴 컨텍스트 요청 제한

Claude Sonnet 4 및 Sonnet 4.5를 1M 토큰 컨텍스트 윈도우 활성화와 함께 사용할 때, 200K 토큰을 초과하는 요청에 다음의 전용 요청 제한이 적용됩니다.

1M 토큰 컨텍스트 윈도우는 현재 사용 계층 4의 조직과 사용자 정의 요청 제한이 있는 조직을 위해 베타 버전입니다. 1M 토큰 컨텍스트 윈도우는 Claude Sonnet 4 및 Sonnet 4.5에만 사용 가능합니다.

최대 분당 입력 토큰 수(ITPM)	최대 분당 출력 토큰 수(OTPM)
1,000,000	200,000

1M 토큰 컨텍스트 윈도우를 요청 제한과 함께 최대한 활용하려면 프롬프트 캐싱을 사용하세요.

Console에서 요청 제한 모니터링

Claude Console의 사용 페이지에서 요청 제한 사용량을 모니터링할 수 있습니다. 토큰 및 요청 차트를 제공하는 것 외에도 사용 페이지는 두 개의 별도 요청 제한 차트를 제공합니다. 이 차트를 사용하여 성장할 여유가 있는지 확인하고, 최대 사용량에 도달할 수 있는 시기를 파악하고, 요청할 요청 제한을 더 잘 이해하거나, 캐싱 비율을 개선하는 방법을 알아보세요. 차트는 주어진 요청 제한(예: 모델별)에 대한 여러 메트릭을 시각화합니다:

요청 제한 - 입력 토큰 차트에는 다음이 포함됩니다:
- 시간별 최대 캐시되지 않은 분당 입력 토큰 수
- 현재 분당 입력 토큰 수 요청 제한
- 입력 토큰의 캐시 비율(즉, 캐시에서 읽은 입력 토큰의 백분율)
요청 제한 - 출력 토큰 차트에는 다음이 포함됩니다:
- 시간별 최대 분당 출력 토큰 수
- 현재 분당 출력 토큰 수 요청 제한

워크스페이스에 대한 더 낮은 제한 설정

조직의 워크스페이스가 잠재적 과다 사용으로부터 보호되도록 하기 위해 워크스페이스당 사용자 정의 지출 및 요청 제한을 설정할 수 있습니다. 예시: 조직의 제한이 분당 40,000개의 입력 토큰과 분당 8,000개의 출력 토큰인 경우, 한 워크스페이스를 분당 30,000개의 총 토큰으로 제한할 수 있습니다. 이는 다른 워크스페이스가 잠재적 과다 사용으로부터 보호되고 조직 전체에 걸쳐 리소스의 더 공정한 분배를 보장합니다. 그러면 남은 미사용 분당 토큰(또는 그 워크스페이스가 제한을 사용하지 않으면 더 많음)을 다른 워크스페이스에서 사용할 수 있습니다. 참고:

기본 워크스페이스에 제한을 설정할 수 없습니다.
설정하지 않으면 워크스페이스 제한이 조직의 제한과 일치합니다.
조직 전체 제한은 워크스페이스 제한이 더 많이 합산되더라도 항상 적용됩니다.
입력 및 출력 토큰 제한에 대한 워크스페이스 지원이 향후 추가될 예정입니다.

응답 헤더

API 응답에는 적용된 요청 제한, 현재 사용량 및 제한이 재설정될 시기를 보여주는 헤더가 포함됩니다. 다음 헤더가 반환됩니다:

헤더	설명
`retry-after`	요청을 다시 시도할 수 있을 때까지 대기할 초 단위 시간입니다. 더 빠른 재시도는 실패합니다.
`anthropic-ratelimit-requests-limit`	모든 요청 제한 기간 내에서 허용되는 최대 요청 수입니다.
`anthropic-ratelimit-requests-remaining`	요청 제한이 적용되기 전에 남은 요청 수입니다.
`anthropic-ratelimit-requests-reset`	요청 요청 제한이 완전히 보충될 시간이며, RFC 3339 형식으로 제공됩니다.
`anthropic-ratelimit-tokens-limit`	모든 요청 제한 기간 내에서 허용되는 최대 토큰 수입니다.
`anthropic-ratelimit-tokens-remaining`	요청 제한이 적용되기 전에 남은 토큰 수(가장 가까운 천 단위로 반올림)입니다.
`anthropic-ratelimit-tokens-reset`	토큰 요청 제한이 완전히 보충될 시간이며, RFC 3339 형식으로 제공됩니다.
`anthropic-ratelimit-input-tokens-limit`	모든 요청 제한 기간 내에서 허용되는 최대 입력 토큰 수입니다.
`anthropic-ratelimit-input-tokens-remaining`	요청 제한이 적용되기 전에 남은 입력 토큰 수(가장 가까운 천 단위로 반올림)입니다.
`anthropic-ratelimit-input-tokens-reset`	입력 토큰 요청 제한이 완전히 보충될 시간이며, RFC 3339 형식으로 제공됩니다.
`anthropic-ratelimit-output-tokens-limit`	모든 요청 제한 기간 내에서 허용되는 최대 출력 토큰 수입니다.
`anthropic-ratelimit-output-tokens-remaining`	요청 제한이 적용되기 전에 남은 출력 토큰 수(가장 가까운 천 단위로 반올림)입니다.
`anthropic-ratelimit-output-tokens-reset`	출력 토큰 요청 제한이 완전히 보충될 시간이며, RFC 3339 형식으로 제공됩니다.
`anthropic-priority-input-tokens-limit`	모든 요청 제한 기간 내에서 허용되는 최대 우선 순위 계층 입력 토큰 수입니다. (우선 순위 계층만 해당)
`anthropic-priority-input-tokens-remaining`	요청 제한이 적용되기 전에 남은 우선 순위 계층 입력 토큰 수(가장 가까운 천 단위로 반올림)입니다. (우선 순위 계층만 해당)
`anthropic-priority-input-tokens-reset`	우선 순위 계층 입력 토큰 요청 제한이 완전히 보충될 시간이며, RFC 3339 형식으로 제공됩니다. (우선 순위 계층만 해당)
`anthropic-priority-output-tokens-limit`	모든 요청 제한 기간 내에서 허용되는 최대 우선 순위 계층 출력 토큰 수입니다. (우선 순위 계층만 해당)
`anthropic-priority-output-tokens-remaining`	요청 제한이 적용되기 전에 남은 우선 순위 계층 출력 토큰 수(가장 가까운 천 단위로 반올림)입니다. (우선 순위 계층만 해당)
`anthropic-priority-output-tokens-reset`	우선 순위 계층 출력 토큰 요청 제한이 완전히 보충될 시간이며, RFC 3339 형식으로 제공됩니다. (우선 순위 계층만 해당)

anthropic-ratelimit-tokens-* 헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우 헤더에는 워크스페이스 분당 토큰 요청 제한 값이 포함됩니다. 워크스페이스 제한이 적용되지 않으면 헤더는 입력 및 출력 토큰의 합인 총 남은 토큰을 반환합니다. 이 접근 방식은 현재 API 사용에 대한 가장 관련성 높은 제약에 대한 가시성을 확보할 수 있도록 합니다.

​제한 정보

​지출 제한

​계층 상향 요구 사항

​요청 제한

​캐시 인식 ITPM

​Message Batches API

​긴 컨텍스트 요청 제한

​Console에서 요청 제한 모니터링

​워크스페이스에 대한 더 낮은 제한 설정

​응답 헤더

제한 정보

지출 제한

계층 상향 요구 사항

요청 제한

캐시 인식 ITPM

Message Batches API

긴 컨텍스트 요청 제한

Console에서 요청 제한 모니터링

워크스페이스에 대한 더 낮은 제한 설정

응답 헤더