Ограничения скорости
Чтобы предотвратить злоупотребления и управлять пропускной способностью нашего API, мы внедрили ограничения на то, сколько организация может использовать Claude API.
У нас есть два типа ограничений:
- Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может понести за использование API.
- Ограничения скорости устанавливают максимальное количество запросов к API, которые организация может сделать за определенный период времени.
Мы применяем настроенные службой ограничения на уровне организации, но вы также можете установить настраиваемые пользователем ограничения для рабочих пространств вашей организации.
Эти ограничения применяются как к использованию Standard, так и Priority Tier. Для получения дополнительной информации о Priority Tier, который предлагает улучшенные уровни обслуживания в обмен на обязательные расходы, см. Уровни обслуживания.
О наших ограничениях
- Ограничения предназначены для предотвращения злоупотреблений API, минимизируя при этом влияние на общие шаблоны использования клиентов.
- Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и скорости.
- Ваша организация будет автоматически повышать уровни по мере достижения определенных пороговых значений при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Anthropic Console.
- Вы можете столкнуться с ограничениями скорости в более короткие временные интервалы. Например, скорость 60 запросов в минуту (RPM) может применяться как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение скорости и привести к ошибкам ограничения скорости.
- Ограничения, описанные ниже, являются нашими стандартными ограничениями уровня. Если вы ищете более высокие, пользовательские ограничения или Priority Tier для улучшенных уровней обслуживания, обратитесь к отделу продаж через Anthropic Console.
- Мы используем алгоритм корзины токенов для ограничения скорости. Это означает, что ваша пропускная способность непрерывно пополняется до вашего максимального ограничения, а не сбрасывается через фиксированные интервалы.
- Все ограничения, описанные здесь, представляют максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для снижения непреднамеренных перерасходов и обеспечения справедливого распределения ресурсов между пользователями.
Ограничения расходов
Каждый уровень использования имеет ограничение на то, сколько вы можете потратить на API каждый календарный месяц. Как только вы достигнете ограничения расходов вашего уровня, пока вы не квалифицируетесь для следующего уровня, вам придется ждать до следующего месяца, чтобы снова использовать API.
Чтобы квалифицироваться для следующего уровня, вы должны выполнить требование по депозиту. Чтобы минимизировать риск избыточного финансирования вашего счета, вы не можете внести депозит больше вашего месячного ограничения расходов.
Требования для повышения уровня
Уровень использования | Покупка кредитов | Максимальное использование в месяц |
---|---|---|
Уровень 1 | $5 | $100 |
Уровень 2 | $40 | $500 |
Уровень 3 | $200 | $1,000 |
Уровень 4 | $400 | $5,000 |
Ежемесячное выставление счетов | Н/Д | Н/Д |
Ограничения скорости
Наши ограничения скорости для Messages API измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса модели.
Если вы превысите любое из ограничений скорости, вы получите ошибку 429, описывающую, какое ограничение скорости было превышено, вместе с заголовком retry-after
, указывающим, как долго ждать.
Ограничения скорости ITPM оцениваются в начале каждого запроса, и оценка корректируется во время запроса, чтобы отразить фактическое количество использованных входных токенов.
Окончательная корректировка учитывает input_tokens
и cache_creation_input_tokens
в ограничениях скорости ITPM.
Для некоторых моделей cache_read_input_tokens
также учитываются в ограничениях скорости ITPM. Максимальный ITPM для этих моделей отмечен † в таблицах ограничений скорости ниже.
Для всех других моделей cache_read_input_tokens
не учитываются в ограничениях скорости ITPM (хотя они все еще тарифицируются).
Ограничения скорости OTPM оцениваются на основе max_tokens
в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов.
Если вы сталкиваетесь с ограничениями OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens
, чтобы лучше приблизить размер ваших завершений.
Ограничения скорости применяются отдельно для каждой модели; поэтому вы можете использовать разные модели до их соответствующих ограничений одновременно. Вы можете проверить ваши текущие ограничения скорости и поведение в Anthropic Console.
Для запросов с длинным контекстом (>200K токенов) при использовании бета-заголовка context-1m-2025-08-07
с Claude Sonnet 4 применяются отдельные ограничения скорости. См. Ограничения скорости длинного контекста ниже.
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (устарел) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (устарел) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (устарел) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (устарел) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (устарел) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (устарел) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 1,000 | 450,000 | 90,000 |
Claude Sonnet 4 | 1,000 | 450,000 | 90,000 |
Claude Sonnet 3.7 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.5 2024-10-22 (устарел) | 1,000 | 80,000† | 16,000 |
Claude Sonnet 3.5 2024-06-20 (устарел) | 1,000 | 80,000† | 16,000 |
Claude Haiku 3.5 | 1,000 | 100,000† | 20,000 |
Claude Opus 3 (устарел) | 1,000 | 40,000† | 8,000 |
Claude Haiku 3 | 1,000 | 100,000† | 20,000 |
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 2,000 | 800,000 | 160,000 |
Claude Sonnet 4 | 2,000 | 800,000 | 160,000 |
Claude Sonnet 3.7 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.5 2024-10-22 (устарел) | 2,000 | 160,000† | 32,000 |
Claude Sonnet 3.5 2024-06-20 (устарел) | 2,000 | 160,000† | 32,000 |
Claude Haiku 3.5 | 2,000 | 200,000† | 40,000 |
Claude Opus 3 (устарел) | 2,000 | 80,000† | 16,000 |
Claude Haiku 3 | 2,000 | 200,000† | 40,000 |
Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 4 | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 3.7 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.5 2024-10-22 (устарел) | 4,000 | 400,000† | 80,000 |
Claude Sonnet 3.5 2024-06-20 (устарел) | 4,000 | 400,000† | 80,000 |
Claude Haiku 3.5 | 4,000 | 400,000† | 80,000 |
Claude Opus 3 (устарел) | 4,000 | 400,000† | 80,000 |
Claude Haiku 3 | 4,000 | 400,000† | 80,000 |
Если вы ищете более высокие ограничения для корпоративного использования, обратитесь к отделу продаж через Anthropic Console.
* - Ограничение скорости Opus 4.x является общим ограничением, которое применяется к объединенному трафику как Opus 4.0, так и Opus 4.1.
† - Ограничение учитывает cache_read_input_tokens
в использовании ITPM.
Message Batches API
Message Batches API имеет свой собственный набор ограничений скорости, которые разделяются между всеми моделями. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части Message Batch. Вы можете создать Message Batch, содержащий тысячи пакетных запросов, каждый из которых учитывается в этом ограничении. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
50 | 100,000 | 100,000 |
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
50 | 100,000 | 100,000 |
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
1,000 | 200,000 | 100,000 |
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
2,000 | 300,000 | 100,000 |
Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
4,000 | 500,000 | 100,000 |
Если вы ищете более высокие ограничения для корпоративного использования, обратитесь к отделу продаж через Anthropic Console.
Ограничения скорости длинного контекста
При использовании Claude Sonnet 4 с включенным контекстным окном 1M токенов, следующие выделенные ограничения скорости применяются к запросам, превышающим 200K токенов.
Контекстное окно 1M токенов в настоящее время находится в бета-версии для организаций уровня использования 4 и организаций с пользовательскими ограничениями скорости. Контекстное окно 1M токенов доступно только для Claude Sonnet 4.
Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|
1,000,000 | 200,000 |
Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|
1,000,000 | 200,000 |
Для пользовательских ограничений скорости длинного контекста для корпоративных случаев использования обратитесь к отделу продаж через Anthropic Console.
Чтобы получить максимальную отдачу от контекстного окна 1M токенов с ограничениями скорости, используйте кэширование промптов.
Мониторинг ваших ограничений скорости в Console
Вы можете отслеживать использование ваших ограничений скорости на странице Использование в Anthropic Console.
В дополнение к предоставлению диаграмм токенов и запросов, страница Использование предоставляет две отдельные диаграммы ограничений скорости. Используйте эти диаграммы, чтобы увидеть, какой запас у вас есть для роста, когда вы можете достигать пикового использования, лучше понять, какие ограничения скорости запрашивать, или как вы можете улучшить свои показатели кэширования. Диаграммы визуализируют ряд метрик для данного ограничения скорости (например, для каждой модели):
- Диаграмма Ограничение скорости - Входные токены включает:
- Почасовые максимальные некэшированные входные токены в минуту
- Ваше текущее ограничение скорости входных токенов в минуту
- Коэффициент кэширования для ваших входных токенов (т.е. процент входных токенов, прочитанных из кэша)
- Диаграмма Ограничение скорости - Выходные токены включает:
- Почасовые максимальные выходные токены в минуту
- Ваше текущее ограничение скорости выходных токенов в минуту
Установка более низких ограничений для рабочих пространств
Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские ограничения расходов и скорости для каждого рабочего пространства.
Пример: Если ограничение вашей организации составляет 40,000 входных токенов в минуту и 8,000 выходных токенов в минуту, вы можете ограничить одно рабочее пространство до 30,000 общих токенов в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспеч��вает более справедливое распределение ресурсов по вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует ограничение) затем доступны для использования другими рабочими пространствами.
Примечание:
- Вы не можете устанавливать ограничения для рабочего пространства по умолчанию.
- Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
- Ограничения на уровне организации всегда применяются, даже если ограничения рабочих пространств в сумме превышают их.
- Поддержка ограничений входных и выходных токенов будет добавлена в рабочие пространства в будущем.
Заголовки ответа
Ответ API включает заголовки, которые показывают вам применяемое ограничение скорости, текущее использование и когда ограничение будет сброшено.
Возвращаются следующие заголовки:
Заголовок | Описание |
---|---|
retry-after | Количество секунд ожидания, прежде чем вы сможете повторить запрос. Более ранние повторы завершатся неудачей. |
anthropic-ratelimit-requests-limit | Максимальное количество запросов, разрешенных в любой период ограничения скорости. |
anthropic-ratelimit-requests-remaining | Количество запросов, оставшихся до ограничения скорости. |
anthropic-ratelimit-requests-reset | Время, когда ограничение скорости запросов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-tokens-limit | Максимальное количество токенов, разрешенных в любой период ограничения скорости. |
anthropic-ratelimit-tokens-remaining | Количество токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-tokens-reset | Время, когда ограничение скорости токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Максимальное количество входных токенов, разрешенных в любой период ограничения скорости. |
anthropic-ratelimit-input-tokens-remaining | Количество входных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-input-tokens-reset | Время, когда ограничение скорости входных токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Максимальное количество выходных токенов, разрешенных в любой период ограничения скорости. |
anthropic-ratelimit-output-tokens-remaining | Количество выходных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-output-tokens-reset | Время, когда ограничение скорости выходных токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-priority-input-tokens-limit | Максимальное количество входных токенов Priority Tier, разрешенных в любой период ограничения скорости. (только Priority Tier) |
anthropic-priority-input-tokens-remaining | Количество входных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier) |
anthropic-priority-input-tokens-reset | Время, когда ограничение скорости входных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier) |
anthropic-priority-output-tokens-limit | Максимальное количество выходных токенов Priority Tier, разрешенных в любой период ограничения скорости. (только Priority Tier) |
anthropic-priority-output-tokens-remaining | Количество выходных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier) |
anthropic-priority-output-tokens-reset | Время, когда ограничение скорости выходных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier) |
Заголовки anthropic-ratelimit-tokens-*
отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили ограничение токенов рабочего пространства в минуту, заголовки будут содержать значения ограничения скорости токенов рабочего пространства в минуту. Если ограничения рабочего пространства не применяются, заголовки вернут общие оставшиеся токены, где общее количество является суммой входных и выходных токенов. Этот подход обеспечивает видимость наиболее релевантного ограничения для вашего текущего использования API.