Ограничения скорости

У нас есть два типа ограничений:

Ограничения расходов устанавливают максимальную ежемесячную стоимость, которую организация может потратить на использование API.
Ограничения скорости устанавливают максимальное количество запросов API, которые организация может сделать за определённый период времени.

Мы применяем ограничения, настроенные сервисом, на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации. Эти ограничения применяются как к использованию Standard, так и Priority Tier. Дополнительную информацию о Priority Tier, который предлагает улучшенные уровни обслуживания в обмен на гарантированные расходы, см. в разделе Service Tiers.

О наших ограничениях

Ограничения разработаны для предотвращения злоупотребления API, минимизируя влияние на типичные модели использования клиентами.
Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и скорости.
Ваша организация будет автоматически повышать уровень по мере достижения определённых пороговых значений при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Limits в Claude Console.
Вы можете столкнуться с ограничениями скорости в течение более коротких интервалов времени. Например, скорость 60 запросов в минуту (RPM) может быть применена как 1 запрос в секунду. Короткие всплески запросов с высоким объёмом могут превысить ограничение скорости и привести к ошибкам ограничения скорости.
Приведённые ниже ограничения являются нашими ограничениями стандартного уровня. Если вы ищете более высокие, пользовательские ограничения или Priority Tier для улучшенных уровней обслуживания, свяжитесь с отделом продаж через Claude Console.
Мы используем алгоритм token bucket для ограничения скорости. Это означает, что ваша пропускная способность постоянно пополняется до вашего максимального ограничения, а не сбрасывается в фиксированные интервалы.
Все описанные здесь ограничения представляют максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для снижения непреднамеренного перерасхода и обеспечения справедливого распределения ресурсов между пользователями.

Ограничения расходов

Каждый уровень использования имеет ограничение на то, сколько вы можете потратить на API каждый календарный месяц. После достижения лимита расходов вашего уровня, пока вы не квалифицируетесь для следующего уровня, вам придётся ждать до следующего месяца, чтобы снова использовать API. Чтобы квалифицироваться для следующего уровня, вы должны соответствовать требованию по депозиту. Чтобы минимизировать риск переполнения вашего счёта, вы не можете внести более чем ваш ежемесячный лимит расходов.

Требования для повышения уровня

Уровень использования	Покупка кредитов	Максимальная покупка кредитов
Tier 1	$5	$100
Tier 2	$40	$500
Tier 3	$200	$1,000
Tier 4	$400	$5,000
Ежемесячное выставление счётов	N/A	N/A

Покупка кредитов показывает совокупные покупки кредитов (без налогов), необходимые для повышения до этого уровня. Вы повышаетесь немедленно при достижении порога.Максимальная покупка кредитов ограничивает максимальную сумму, которую вы можете добавить на свой счёт в одной транзакции, чтобы предотвратить переполнение счёта.

Ограничения скорости

Наши ограничения скорости для Messages API измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса модели. Если вы превысите какое-либо из ограничений скорости, вы получите ошибку 429, описывающую, какое ограничение скорости было превышено, вместе с заголовком retry-after, указывающим, как долго ждать.

Вы также можете столкнуться с ошибками 429 из-за ограничений ускорения на API, если ваша организация имеет резкое увеличение использования. Чтобы избежать ограничений ускорения, постепенно увеличивайте ваш трафик и поддерживайте согласованные модели использования.

ITPM с учётом кэша

Многие поставщики API используют объединённое ограничение “токены в минуту” (TPM), которое может включать все токены, как кэшированные, так и некэшированные, входные и выходные. Для большинства моделей Claude только некэшированные входные токены учитываются в ваших ограничениях скорости ITPM. Это ключевое преимущество, которое делает наши ограничения скорости фактически выше, чем они могут показаться на первый взгляд. Ограничения скорости ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов. Вот что учитывается в ITPM:

input_tokens (новые входные токены, которые не кэшированы) ✓ Учитываются в ITPM
cache_creation_input_tokens (токены, записываемые в кэш) ✓ Учитываются в ITPM
cache_read_input_tokens (токены, прочитанные из кэша) ✗ НЕ учитываются в ITPM для большинства моделей

Пример: С ограничением 2 000 000 ITPM и коэффициентом попадания кэша 80%, вы можете эффективно обработать 10 000 000 общих входных токенов в минуту (2 млн некэшированных + 8 млн кэшированных), поскольку кэшированные токены не учитываются в вашем ограничении скорости.

Некоторые более старые модели (отмеченные † в таблицах ограничений скорости ниже) также учитывают cache_read_input_tokens в ограничениях скорости ITPM.Для всех моделей без маркера †, кэшированные входные токены не учитываются в ограничениях скорости и выставляются по сниженной ставке (10% от базовой цены входного токена). Это означает, что вы можете достичь значительно более высокой эффективной пропускной способности, используя кэширование подсказок.

Максимизируйте ваши ограничения скорости с помощью кэширования подсказокЧтобы максимально использовать ваши ограничения скорости, используйте кэширование подсказок для повторяющегося контента, такого как:

Системные инструкции и подсказки
Большие документы контекста
Определения инструментов
История разговора

С эффективным кэшированием вы можете драматически увеличить вашу фактическую пропускную способность без увеличения ваших ограничений скорости. Отслеживайте коэффициент попадания кэша на странице Usage, чтобы оптимизировать вашу стратегию кэширования.

Ограничения скорости OTPM оцениваются на основе max_tokens в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество выходных токенов. Если вы достигаете ограничений OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens, чтобы лучше приблизить размер ваших завершений. Ограничения скорости применяются отдельно для каждой модели; поэтому вы можете одновременно использовать разные модели до их соответствующих ограничений. Вы можете проверить ваши текущие ограничения скорости и поведение в Claude Console.

Для запросов с длинным контекстом (>200K токенов) при использовании заголовка бета-версии context-1m-2025-08-07 с Claude Sonnet 4.x применяются отдельные ограничения скорости. См. Ограничения скорости для длинного контекста ниже.

Модель	Максимум запросов в минуту (RPM)	Максимум входных токенов в минуту (ITPM)	Максимум выходных токенов в минуту (OTPM)
Claude Sonnet 4.x^**	50	30,000	8,000
Claude Sonnet 3.7 (deprecated)	50	20,000	8,000
Claude Haiku 4.5	50	50,000	10,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Haiku 3	50	50,000^†	10,000
Claude Opus 4.x^*	50	30,000	8,000
Claude Opus 3 (deprecated)	50	20,000^†	4,000

^{* - Ограничение скорости Opus 4.x является общим ограничением, которое применяется к объединённому трафику как Opus 4, так и Opus 4.1.} ^{** - Ограничение скорости Sonnet 4.x является общим ограничением, которое применяется к объединённому трафику как Sonnet 4, так и Sonnet 4.5.} ^{† - Ограничение учитывает cache_read_input_tokens в использовании ITPM.}

Message Batches API

Message Batches API имеет свой собственный набор ограничений скорости, которые общие для всех моделей. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части Message Batch. Вы можете создать Message Batch, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он ещё не был успешно обработан моделью.

Максимум запросов в минуту (RPM)	Максимум пакетных запросов в очереди обработки	Максимум пакетных запросов в пакете
50	100,000	100,000

Ограничения скорости для длинного контекста

При использовании Claude Sonnet 4 и Sonnet 4.5 с включённым окном контекста 1M токенов следующие выделенные ограничения скорости применяются к запросам, превышающим 200K токенов.

Окно контекста 1M токенов в настоящее время находится в бета-версии для организаций на уровне использования 4 и организаций с пользовательскими ограничениями скорости. Окно контекста 1M токенов доступно только для Claude Sonnet 4 и Sonnet 4.5.

Максимум входных токенов в минуту (ITPM)	Максимум выходных токенов в минуту (OTPM)
1,000,000	200,000

Чтобы максимально использовать окно контекста 1M токенов с ограничениями скорости, используйте кэширование подсказок.

Мониторинг ваших ограничений скорости в Console

Вы можете отслеживать использование ограничений скорости на странице Usage в Claude Console. Помимо предоставления диаграмм токенов и запросов, страница Usage предоставляет две отдельные диаграммы ограничений скорости. Используйте эти диаграммы, чтобы увидеть, какой запас у вас есть для роста, когда вы можете достигать пиковой нагрузки, лучше понять, какие ограничения скорости запросить, или как вы можете улучшить коэффициент кэширования. Диаграммы визуализируют ряд метрик для данного ограничения скорости (например, для каждой модели):

Диаграмма Rate Limit - Input Tokens включает:
- Почасовой максимум некэшированных входных токенов в минуту
- Ваше текущее ограничение скорости входных токенов в минуту
- Коэффициент кэша для ваших входных токенов (т.е. процент входных токенов, прочитанных из кэша)
Диаграмма Rate Limit - Output Tokens включает:
- Почасовой максимум выходных токенов в минуту
- Ваше текущее ограничение скорости выходных токенов в минуту

Установка более низких ограничений для рабочих пространств

Чтобы защитить рабочие пространства в вашей организации от потенциального перерасхода, вы можете установить пользовательские ограничения расходов и скорости для каждого рабочего пространства. Пример: Если ограничение вашей организации составляет 40 000 входных токенов в минуту и 8 000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30 000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального перерасхода и обеспечивает более справедливое распределение ресурсов в вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует ограничение) затем доступны для использования другими рабочими пространствами. Примечание:

Вы не можете установить ограничения на рабочее пространство по умолчанию.
Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
Ограничения на уровне организации всегда применяются, даже если ограничения рабочего пространства в сумме больше.
Поддержка ограничений входных и выходных токенов будет добавлена в рабочие пространства в будущем.

Заголовки ответа

Ответ API включает заголовки, которые показывают вам применённое ограничение скорости, текущее использование и когда ограничение будет сброшено. Возвращаются следующие заголовки:

Заголовок	Описание
`retry-after`	Количество секунд, которое нужно ждать, прежде чем вы сможете повторить запрос. Более ранние повторные попытки будут неудачными.
`anthropic-ratelimit-requests-limit`	Максимальное количество запросов, разрешённых в любой период ограничения скорости.
`anthropic-ratelimit-requests-remaining`	Количество запросов, оставшихся до ограничения скорости.
`anthropic-ratelimit-requests-reset`	Время, когда ограничение скорости запросов будет полностью пополнено, предоставленное в формате RFC 3339.
`anthropic-ratelimit-tokens-limit`	Максимальное количество токенов, разрешённых в любой период ограничения скорости.
`anthropic-ratelimit-tokens-remaining`	Количество токенов, оставшихся (округлено до ближайшей тысячи) до ограничения скорости.
`anthropic-ratelimit-tokens-reset`	Время, когда ограничение скорости токенов будет полностью пополнено, предоставленное в формате RFC 3339.
`anthropic-ratelimit-input-tokens-limit`	Максимальное количество входных токенов, разрешённых в любой период ограничения скорости.
`anthropic-ratelimit-input-tokens-remaining`	Количество входных токенов, оставшихся (округлено до ближайшей тысячи) до ограничения скорости.
`anthropic-ratelimit-input-tokens-reset`	Время, когда ограничение скорости входных токенов будет полностью пополнено, предоставленное в формате RFC 3339.
`anthropic-ratelimit-output-tokens-limit`	Максимальное количество выходных токенов, разрешённых в любой период ограничения скорости.
`anthropic-ratelimit-output-tokens-remaining`	Количество выходных токенов, оставшихся (округлено до ближайшей тысячи) до ограничения скорости.
`anthropic-ratelimit-output-tokens-reset`	Время, когда ограничение скорости выходных токенов будет полностью пополнено, предоставленное в формате RFC 3339.
`anthropic-priority-input-tokens-limit`	Максимальное количество входных токенов Priority Tier, разрешённых в любой период ограничения скорости. (Только Priority Tier)
`anthropic-priority-input-tokens-remaining`	Количество входных токенов Priority Tier, оставшихся (округлено до ближайшей тысячи) до ограничения скорости. (Только Priority Tier)
`anthropic-priority-input-tokens-reset`	Время, когда ограничение скорости входных токенов Priority Tier будет полностью пополнено, предоставленное в формате RFC 3339. (Только Priority Tier)
`anthropic-priority-output-tokens-limit`	Максимальное количество выходных токенов Priority Tier, разрешённых в любой период ограничения скорости. (Только Priority Tier)
`anthropic-priority-output-tokens-remaining`	Количество выходных токенов Priority Tier, оставшихся (округлено до ближайшей тысячи) до ограничения скорости. (Только Priority Tier)
`anthropic-priority-output-tokens-reset`	Время, когда ограничение скорости выходных токенов Priority Tier будет полностью пополнено, предоставленное в формате RFC 3339. (Только Priority Tier)

Заголовки anthropic-ratelimit-tokens-* отображают значения для наиболее ограничивающего ограничения, которое в настоящее время действует. Например, если вы превысили ограничение токенов в минуту рабочего пространства, заголовки будут содержать значения ограничения скорости токенов в минуту рабочего пространства. Если ограничения рабочего пространства не применяются, заголовки вернут оставшиеся общие токены, где общее количество является суммой входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее релевантного ограничения на ваше текущее использование API.

​О наших ограничениях

​Ограничения расходов

​Требования для повышения уровня

​Ограничения скорости

​ITPM с учётом кэша

​Message Batches API

​Ограничения скорости для длинного контекста

​Мониторинг ваших ограничений скорости в Console

​Установка более низких ограничений для рабочих пространств

​Заголовки ответа

О наших ограничениях

Ограничения расходов

Требования для повышения уровня

Ограничения скорости

ITPM с учётом кэша

Message Batches API

Ограничения скорости для длинного контекста

Мониторинг ваших ограничений скорости в Console

Установка более низких ограничений для рабочих пространств

Заголовки ответа