- Приоритетный уровень: Лучше всего подходит для рабочих процессов, развернутых в производстве, где важны время, доступность и предсказуемое ценообразование
- Стандартный: Уровень обслуживания по умолчанию как для пилотирования, так и для масштабирования повседневных вариантов использования
- Пакетный: Лучше всего подходит для асинхронных рабочих процессов, которые могут ждать или выигрывают от работы вне вашей обычной емкости
Стандартный уровень
Стандартный уровень — это уровень обслуживания по умолчанию для всех запросов API. Запросы на этом уровне приоритизируются наряду со всеми другими запросами и соблюдают доступность по принципу наилучших усилий.Приоритетный уровень
Запросы на этом уровне приоритизируются над всеми другими запросами к Anthropic. Эта приоритизация помогает минимизировать ошибки “сервер перегружен”, даже в периоды пиковой нагрузки. Для получения дополнительной информации см. Начало работы с приоритетным уровнемКак запросам назначаются уровни
При обработке запроса Anthropic решает назначить запрос приоритетному уровню в следующих сценариях:- Ваша организация имеет достаточную емкость приоритетного уровня входных токенов в минуту
- Ваша организация имеет достаточную емкость приоритетного уровня выходных токенов в минуту
- Чтение кэша как 0,1 токена на токен, прочитанный из кэша
- Запись в кэш как 1,25 токена на токен, записанный в кэш с TTL 5 минут
- Запись в кэш как 2,00 токена на токен, записанный в кэш с TTL 1 час
- Для запросов длинного контекста (>200k входных токенов) входные токены составляют 2 токена на токен
- Все остальные входные токены составляют 1 токен на токен
- Для запросов длинного контекста (>200k входных токенов) выходные токены составляют 1,5 токена на токен
- Все остальные выходные токены составляют 1 токен на токен
Запросы, назначенные приоритетному уровню, используют как емкость приоритетного уровня, так и обычные ограничения скорости.
Если обслуживание запроса превысит ограничения скорости, запрос отклоняется.
Использование уровней обслуживания
Вы можете контролировать, какие уровни обслуживания могут использоваться для запроса, установив параметрservice_tier:
service_tier принимает следующие значения:
"auto"(по умолчанию) - Использует емкость приоритетного уровня, если доступна, в противном случае переходит на вашу другую емкость"standard_only"- Использует только емкость стандартного уровня, полезно, если вы не хотите использовать емкость приоритетного уровня
usage ответа также включает уровень обслуживания, назначенный запросу:
service_tier="auto" с моделью с обязательством приоритетного уровня эти заголовки ответа предоставляют информацию:
Начало работы с приоритетным уровнем
Вы можете захотеть взять на себя обязательство по емкости приоритетного уровня, если вас интересует:- Более высокая доступность: Целевое время безотказной работы 99,5% с приоритизированными вычислительными ресурсами
- Контроль затрат: Предсказуемые расходы и скидки за более длительные обязательства
- Гибкое переполнение: Автоматически переходит на стандартный уровень, когда вы превышаете вашу зафиксированную емкость
- Количество входных токенов в минуту
- Количество выходных токенов в минуту
- Продолжительность обязательства (1, 3, 6 или 12 месяцев)
- Конкретная версия модели
Соотношение входных и выходных токенов, которые вы покупаете, имеет значение. Определение размера емкости приоритетного уровня в соответствии с вашими фактическими моделями трафика помогает вам максимизировать использование ваших приобретенных токенов.
Поддерживаемые модели
Приоритетный уровень поддерживается:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Haiku 3.5
Как получить доступ к приоритетному уровню
Чтобы начать использовать приоритетный уровень:- Свяжитесь с отделом продаж для завершения подготовки
- (Опционально) Обновите ваши запросы API, чтобы опционально установить параметр
service_tierнаauto - Отслеживайте ваше использование через заголовки ответа и консоль Claude