Понимание контекстного окна

“Контекстное окно” относится ко всему объему текста, на который языковая модель может оглянуться и ссылаться при генерации нового текста, плюс новый текст, который она генерирует. Это отличается от большого корпуса данных, на котором была обучена языковая модель, и вместо этого представляет “рабочую память” для модели. Большее контекстное окно позволяет модели понимать и отвечать на более сложные и длинные запросы, в то время как меньшее контекстное окно может ограничить способность модели обрабатывать более длинные запросы или поддерживать связность в расширенных разговорах. Диаграмма ниже иллюстрирует стандартное поведение контекстного окна для API-запросов1: Диаграмма контекстного окна 1Для чат-интерфейсов, таких как claude.ai, контекстные окна также могут быть настроены по принципу “первый пришел, первый ушел”.
  • Прогрессивное накопление токенов: По мере продвижения разговора через ходы, каждое сообщение пользователя и ответ ассистента накапливаются в контекстном окне. Предыдущие ходы сохраняются полностью.
  • Линейный паттерн роста: Использование контекста растет линейно с каждым ходом, при этом предыдущие ходы сохраняются полностью.
  • Емкость 200K токенов: Общее доступное контекстное окно (200,000 токенов) представляет максимальную емкость для хранения истории разговора и генерации нового вывода от Claude.
  • Поток ввода-вывода: Каждый ход состоит из:
    • Фаза ввода: Содержит всю предыдущую историю разговора плюс текущее сообщение пользователя
    • Фаза вывода: Генерирует текстовый ответ, который становится частью будущего ввода

Контекстное окно с расширенным мышлением

При использовании расширенного мышления, все входные и выходные токены, включая токены, используемые для мышления, засчитываются в лимит контекстного окна, с несколькими нюансами в многоходовых ситуациях. Токены бюджета мышления являются подмножеством вашего параметра max_tokens, оплачиваются как выходные токены и засчитываются в лимиты скорости. Однако предыдущие блоки мышления автоматически исключаются из расчета контекстного окна API Claude и не являются частью истории разговора, которую модель “видит” для последующих ходов, сохраняя емкость токенов для фактического содержания разговора. Диаграмма ниже демонстрирует специализированное управление токенами при включенном расширенном мышлении: Диаграмма контекстного окна с расширенным мышлением
  • Удаление расширенного мышления: Блоки расширенного мышления (показаны темно-серым) генерируются во время фазы вывода каждого хода, но не переносятся как входные токены для последующих ходов. Вам не нужно удалять блоки мышления самостоятельно. API Claude автоматически делает это за вас, если вы передаете их обратно.
  • Технические детали реализации:
    • API автоматически исключает блоки мышления из предыдущих ходов, когда вы передаете их обратно как часть истории разговора.
    • Токены расширенного мышления оплачиваются как выходные токены только один раз, во время их генерации.
    • Эффективный расчет контекстного окна становится: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Токены мышления включают как блоки thinking, так и блоки redacted_thinking.
Эта архитектура эффективна по токенам и позволяет обширные рассуждения без потери токенов, поскольку блоки мышления могут быть значительными по длине.
Вы можете прочитать больше о контекстном окне и расширенном мышлении в нашем руководстве по расширенному мышлению.

Контекстное окно с расширенным мышлением и использованием инструментов

Диаграмма ниже иллюстрирует управление токенами контекстного окна при сочетании расширенного мышления с использованием инструментов: Диаграмма контекстного окна с расширенным мышлением и использованием инструментов
1

Архитектура первого хода

  • Входные компоненты: Конфигурация инструментов и сообщение пользователя
  • Выходные компоненты: Расширенное мышление + текстовый ответ + запрос на использование инструмента
  • Расчет токенов: Все входные и выходные компоненты засчитываются в контекстное окно, и все выходные компоненты оплачиваются как выходные токены.
2

Обработка результата инструмента (ход 2)

  • Входные компоненты: Каждый блок в первом ходе, а также tool_result. Блок расширенного мышления должен быть возвращен с соответствующими результатами инструмента. Это единственный случай, когда вы обязаны возвращать блоки мышления.
  • Выходные компоненты: После того как результаты инструмента были переданы обратно Claude, Claude ответит только текстом (никакого дополнительного расширенного мышления до следующего сообщения user).
  • Расчет токенов: Все входные и выходные компоненты засчитываются в контекстное окно, и все выходные компоненты оплачиваются как выходные токены.
3

Третий шаг

  • Входные компоненты: Все входы и вывод из предыдущего хода переносятся за исключением блока мышления, который теперь может быть отброшен, поскольку Claude завершил весь цикл использования инструмента. API автоматически удалит блок мышления за вас, если вы передадите его обратно, или вы можете свободно удалить его самостоятельно на этом этапе. Здесь же вы бы добавили следующий ход User.
  • Выходные компоненты: Поскольку есть новый ход User вне цикла использования инструмента, Claude сгенерирует новый блок расширенного мышления и продолжит оттуда.
  • Расчет токенов: Предыдущие токены мышления автоматически исключаются из расчетов контекстного окна. Все остальные предыдущие блоки все еще засчитываются как часть токенного окна, и блок мышления в текущем ходе Assistant засчитывается как часть контекстного окна.
  • Соображения для использования инструментов с расширенным мышлением:
    • При отправке результатов инструмента должен быть включен весь неизмененный блок мышления, который сопровождает этот конкретный запрос инструмента (включая подпись/отредактированные части).
    • Эффективный расчет контекстного окна для расширенного мышления с использованием инструментов становится: context_window = input_tokens + current_turn_tokens.
    • Система использует криптографические подписи для проверки подлинности блока мышления. Неспособность сохранить блоки мышления во время использования инструментов может нарушить непрерывность рассуждений Claude. Таким образом, если вы изменяете блоки мышления, API вернет ошибку.
Модели Claude 4 поддерживают чередующееся мышление, которое позволяет Claude думать между вызовами инструментов и делать более сложные рассуждения после получения результатов инструментов.Claude Sonnet 3.7 не поддерживает чередующееся мышление, поэтому нет чередования расширенного мышления и вызовов инструментов без не-tool_result пользовательского хода между ними.Для получения дополнительной информации об использовании инструментов с расширенным мышлением см. наше руководство по расширенному мышлению.

Контекстное окно на 1M токенов

Claude Sonnet 4 и 4.5 поддерживают контекстное окно на миллион токенов. Это расширенное контекстное окно позволяет вам обрабатывать гораздо большие документы, поддерживать более длинные разговоры и работать с более обширными кодовыми базами.
Контекстное окно на 1M токенов в настоящее время находится в бета-версии для организаций в уровне использования 4 и организаций с пользовательскими лимитами скорости. Контекстное окно на 1M токенов доступно только для Claude Sonnet 4 и Sonnet 4.5.
Чтобы использовать контекстное окно на 1M токенов, включите бета-заголовок context-1m-2025-08-07 в ваши API-запросы:
from anthropic import Anthropic

client = Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Process this large document..."}
    ],
    betas=["context-1m-2025-08-07"]
)
Важные соображения:
  • Статус бета-версии: Это бета-функция, подверженная изменениям. Функции и цены могут быть изменены или удалены в будущих релизах.
  • Требование уровня использования: Контекстное окно на 1M токенов доступно организациям в уровне использования 4 и организациям с пользовательскими лимитами скорости. Организации более низкого уровня должны продвинуться до уровня использования 4, чтобы получить доступ к этой функции.
  • Доступность: Контекстное окно на 1M токенов в настоящее время доступно в Claude API, Amazon Bedrock и Google Cloud’s Vertex AI.
  • Ценообразование: Запросы, превышающие 200K токенов, автоматически оплачиваются по премиальным тарифам (2x ввод, 1.5x вывод). См. документацию по ценообразованию для подробностей.
  • Лимиты скорости: Запросы с длинным контекстом имеют выделенные лимиты скорости. См. документацию по лимитам скорости для подробностей.
  • Мультимодальные соображения: При обработке большого количества изображений или PDF-файлов имейте в виду, что файлы могут различаться по использованию токенов. При сочетании большого запроса с большим количеством изображений вы можете достичь лимитов размера запроса.

Осведомленность о контексте в Claude Sonnet 4.5 и Haiku 4.5

Claude Sonnet 4.5 и Claude Haiku 4.5 имеют осведомленность о контексте, позволяя этим моделям отслеживать свое оставшееся контекстное окно (т.е. “бюджет токенов”) на протяжении разговора. Это позволяет Claude выполнять задачи и управлять контекстом более эффективно, понимая, сколько места у него есть для работы. Claude изначально обучен использовать этот контекст точно для продолжения задачи до самого конца, а не угадывать, сколько токенов осталось. Для модели отсутствие осведомленности о контексте подобно участию в кулинарном шоу без часов. Модели Claude 4.5 изменяют это, явно информируя модель о ее оставшемся контексте, чтобы она могла максимально использовать доступные токены. Как это работает: В начале разговора Claude получает информацию о своем общем контекстном окне:
<budget:token_budget>200000</budget:token_budget>
Бюджет устанавливается на 200K токенов (стандартный), 500K токенов (Claude.ai Enterprise) или 1M токенов (бета, для подходящих организаций). После каждого вызова инструмента Claude получает обновление об оставшейся емкости:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>
Эта осведомленность помогает Claude определить, сколько емкости остается для работы, и обеспечивает более эффективное выполнение долгосрочных задач. Токены изображений включены в эти бюджеты. Преимущества: Осведомленность о контексте особенно ценна для:
  • Долгосрочных агентских сессий, требующих устойчивого фокуса
  • Многоконтекстных рабочих процессов, где переходы состояний имеют значение
  • Сложных задач, требующих тщательного управления токенами
Для руководства по промптингу по использованию осведомленности о контексте см. наше руководство по лучшим практикам Claude 4.

Управление контекстным окном с новыми моделями Claude

В новых моделях Claude (начиная с Claude Sonnet 3.7), если сумма токенов запроса и выходных токенов превышает контекстное окно модели, система вернет ошибку валидации, а не молча обрежет контекст. Это изменение обеспечивает более предсказуемое поведение, но требует более тщательного управления токенами. Чтобы планировать использование токенов и убедиться, что вы остаетесь в пределах лимитов контекстного окна, вы можете использовать API подсчета токенов для оценки того, сколько токенов будут использовать ваши сообщения перед их отправкой Claude. См. нашу таблицу сравнения моделей для списка размеров контекстных окон по моделям.

Следующие шаги