Мы предлагаем три уровня обслуживания:
  • Приоритетный уровень: Лучше всего подходит для рабочих процессов, развернутых в производстве, где важны время, доступность и предсказуемое ценообразование
  • Стандартный: Уровень обслуживания по умолчанию как для пилотирования, так и для масштабирования повседневных вариантов использования
  • Пакетный: Лучше всего подходит для асинхронных рабочих процессов, которые могут ждать или выигрывают от работы вне вашей обычной емкости

Стандартный уровень

Стандартный уровень — это уровень обслуживания по умолчанию для всех запросов API. Запросы на этом уровне приоритизируются наряду со всеми другими запросами и соблюдают доступность по принципу наилучших усилий.

Приоритетный уровень

Запросы на этом уровне приоритизируются над всеми другими запросами к Anthropic. Эта приоритизация помогает минимизировать ошибки “сервер перегружен”, даже в периоды пиковой нагрузки. Для получения дополнительной информации см. Начало работы с приоритетным уровнем

Как запросам назначаются уровни

При обработке запроса Anthropic решает назначить запрос приоритетному уровню в следующих сценариях:
  • Ваша организация имеет достаточную емкость приоритетного уровня входных токенов в минуту
  • Ваша организация имеет достаточную емкость приоритетного уровня выходных токенов в минуту
Anthropic подсчитывает использование в отношении емкости приоритетного уровня следующим образом: Входные токены
  • Чтение кэша как 0,1 токена на токен, прочитанный из кэша
  • Запись в кэш как 1,25 токена на токен, записанный в кэш с TTL 5 минут
  • Запись в кэш как 2,00 токена на токен, записанный в кэш с TTL 1 час
  • Для запросов длинного контекста (>200k входных токенов) входные токены составляют 2 токена на токен
  • Все остальные входные токены составляют 1 токен на токен
Выходные токены
  • Для запросов длинного контекста (>200k входных токенов) выходные токены составляют 1,5 токена на токен
  • Все остальные выходные токены составляют 1 токен на токен
В противном случае запросы обрабатываются на стандартном уровне.
Запросы, назначенные приоритетному уровню, используют как емкость приоритетного уровня, так и обычные ограничения скорости. Если обслуживание запроса превысит ограничения скорости, запрос отклоняется.

Использование уровней обслуживания

Вы можете контролировать, какие уровни обслуживания могут использоваться для запроса, установив параметр service_tier:
message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Automatically use Priority Tier when available, fallback to standard
)
Параметр service_tier принимает следующие значения:
  • "auto" (по умолчанию) - Использует емкость приоритетного уровня, если доступна, в противном случае переходит на вашу другую емкость
  • "standard_only" - Использует только емкость стандартного уровня, полезно, если вы не хотите использовать емкость приоритетного уровня
Объект usage ответа также включает уровень обслуживания, назначенный запросу:
{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}
Это позволяет вам определить, какой уровень обслуживания был назначен запросу. При запросе service_tier="auto" с моделью с обязательством приоритетного уровня эти заголовки ответа предоставляют информацию:
anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z
Вы можете использовать наличие этих заголовков для определения того, был ли ваш запрос подходящим для приоритетного уровня, даже если он превышал лимит.

Начало работы с приоритетным уровнем

Вы можете захотеть взять на себя обязательство по емкости приоритетного уровня, если вас интересует:
  • Более высокая доступность: Целевое время безотказной работы 99,5% с приоритизированными вычислительными ресурсами
  • Контроль затрат: Предсказуемые расходы и скидки за более длительные обязательства
  • Гибкое переполнение: Автоматически переходит на стандартный уровень, когда вы превышаете вашу зафиксированную емкость
Взятие на себя обязательства по приоритетному уровню будет включать решение:
  • Количество входных токенов в минуту
  • Количество выходных токенов в минуту
  • Продолжительность обязательства (1, 3, 6 или 12 месяцев)
  • Конкретная версия модели
Соотношение входных и выходных токенов, которые вы покупаете, имеет значение. Определение размера емкости приоритетного уровня в соответствии с вашими фактическими моделями трафика помогает вам максимизировать использование ваших приобретенных токенов.

Поддерживаемые модели

Приоритетный уровень поддерживается:
  • Claude Opus 4.1
  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Haiku 3.5
Проверьте страницу обзора моделей для получения дополнительной информации о наших моделях.

Как получить доступ к приоритетному уровню

Чтобы начать использовать приоритетный уровень:
  1. Свяжитесь с отделом продаж для завершения подготовки
  2. (Опционально) Обновите ваши запросы API, чтобы опционально установить параметр service_tier на auto
  3. Отслеживайте ваше использование через заголовки ответа и консоль Claude