Контекстное окно

“Контекстное окно” относится к количеству текста, на которое языковая модель может оглянуться назад и ссылаться при генерации нового текста. Это отличается от большого корпуса данных, на котором была обучена языковая модель, и вместо этого представляет “рабочую память” для модели. Большее контекстное окно позволяет модели понимать и отвечать на более сложные и длинные запросы, в то время как меньшее контекстное окно может ограничить способность модели обрабатывать более длинные запросы или поддерживать связность в расширенных разговорах. Смотрите наше руководство по пониманию контекстных окон, чтобы узнать больше.

Тонкая настройка

Тонкая настройка - это процесс дальнейшего обучения предварительно обученной языковой модели с использованием дополнительных данных. Это заставляет модель начать представлять и имитировать паттерны и характеристики набора данных для тонкой настройки. Claude не является голой языковой моделью; она уже была тонко настроена, чтобы быть полезным помощником. Наш API в настоящее время не предлагает тонкую настройку, но, пожалуйста, обратитесь к вашему контакту в Anthropic, если вы заинтересованы в изучении этой опции. Тонкая настройка может быть полезна для адаптации языковой модели к конкретной области, задаче или стилю письма, но требует тщательного рассмотрения данных для тонкой настройки и потенциального влияния на производительность и предвзятости модели.

HHH

Эти три H представляют цели Anthropic в обеспечении того, чтобы Claude был полезен для общества:
  • Полезный ИИ будет пытаться выполнить задачу или ответить на поставленный вопрос в меру своих способностей, предоставляя релевантную и полезную информацию.
  • Честный ИИ будет давать точную информацию и не будет галлюцинировать или выдумывать. Он признает свои ограничения и неопределенности, когда это уместно.
  • Безвредный ИИ не будет оскорбительным или дискриминационным, и когда его просят помочь в опасном или неэтичном действии, ИИ должен вежливо отказаться и объяснить, почему он не может выполнить это.

Задержка

Задержка, в контексте генеративного ИИ и больших языковых моделей, относится ко времени, которое требуется модели для ответа на данный запрос. Это задержка между отправкой запроса и получением сгенерированного вывода. Более низкая задержка указывает на более быстрое время отклика, что имеет решающее значение для приложений реального времени, чат-ботов и интерактивных опытов. Факторы, которые могут влиять на задержку, включают размер модели, возможности оборудования, сетевые условия и сложность запроса и сгенерированного ответа.

LLM

Большие языковые модели (LLM) - это языковые модели ИИ с множеством параметров, которые способны выполнять разнообразные удивительно полезные задачи. Эти модели обучаются на огромных объемах текстовых данных и могут генерировать человекоподобный текст, отвечать на вопросы, резюмировать информацию и многое другое. Claude - это разговорный помощник, основанный на большой языковой модели, которая была тонко настроена и обучена с использованием RLHF, чтобы быть более полезной, честной и безвредной.

MCP (Model Context Protocol)

Model Context Protocol (MCP) - это открытый протокол, который стандартизирует то, как приложения предоставляют контекст LLM. Как USB-C порт для приложений ИИ, MCP обеспечивает единый способ подключения моделей ИИ к различным источникам данных и инструментам. MCP позволяет системам ИИ поддерживать согласованный контекст между взаимодействиями и получать доступ к внешним ресурсам стандартизированным способом. Смотрите нашу документацию MCP, чтобы узнать больше.

MCP коннектор

MCP коннектор - это функция, которая позволяет пользователям API подключаться к MCP серверам напрямую из Messages API без создания MCP клиента. Это обеспечивает бесшовную интеграцию с MCP-совместимыми инструментами и сервисами через Claude API. MCP коннектор поддерживает функции, такие как вызов инструментов, и доступен в публичной бета-версии. Смотрите нашу документацию MCP коннектора, чтобы узнать больше.

Предварительное обучение

Предварительное обучение - это начальный процесс обучения языковых моделей на большом неразмеченном корпусе текста. В случае Claude, авторегрессивные языковые модели (как базовая модель Claude) предварительно обучаются предсказывать следующее слово, учитывая предыдущий контекст текста в документе. Эти предварительно обученные модели не являются изначально хорошими в ответах на вопросы или следовании инструкциям, и часто требуют глубокого навыка в инженерии запросов для извлечения желаемого поведения. Тонкая настройка и RLHF используются для уточнения этих предварительно обученных моделей, делая их более полезными для широкого спектра задач.

RAG (Retrieval augmented generation)

Генерация с дополненным поиском (RAG) - это техника, которая сочетает поиск информации с генерацией языковой модели для улучшения точности и релевантности сгенерированного текста, а также для лучшего обоснования ответа модели в доказательствах. В RAG языковая модель дополняется внешней базой знаний или набором документов, которые передаются в контекстное окно. Данные извлекаются во время выполнения, когда запрос отправляется модели, хотя сама модель не обязательно извлекает данные (но может с использованием инструментов и функцией поиска). При генерации текста релевантная информация сначала должна быть извлечена из базы знаний на основе входного запроса, а затем передана модели вместе с исходным запросом. Модель использует эту информацию для направления вывода, который она генерирует. Это позволяет модели получать доступ и использовать информацию за пределами ее обучающих данных, уменьшая зависимость от запоминания и улучшая фактическую точность сгенерированного текста. RAG может быть особенно полезен для задач, которые требуют актуальной информации, знаний конкретной области или явного цитирования источников. Однако эффективность RAG зависит от качества и релевантности внешней базы знаний и знаний, которые извлекаются во время выполнения.

RLHF

Обучение с подкреплением на основе человеческой обратной связи (RLHF) - это техника, используемая для обучения предварительно обученной языковой модели поведению, которое согласуется с человеческими предпочтениями. Это может включать помощь модели в более эффективном следовании инструкциям или действии больше как чат-бот. Человеческая обратная связь состоит из ранжирования набора из двух или более примеров текстов, и процесс обучения с подкреплением поощряет модель предпочитать выводы, которые похожи на более высоко ранжированные. Claude был обучен с использованием RLHF, чтобы быть более полезным помощником. Для получения более подробной информации вы можете прочитать статью Anthropic по этой теме.

Температура

Температура - это параметр, который контролирует случайность предсказаний модели во время генерации текста. Более высокие температуры приводят к более творческим и разнообразным выводам, позволяя множественные вариации в формулировке и, в случае художественной литературы, вариации в ответах также. Более низкие температуры приводят к более консервативным и детерминистическим выводам, которые придерживаются наиболее вероятной формулировки и ответов. Настройка температуры позволяет пользователям поощрять языковую модель исследовать редкие, необычные или удивительные выборы слов и последовательности, а не только выбирать наиболее вероятные предсказания.

TTFT (Time to first token)

Время до первого токена (TTFT) - это метрика производительности, которая измеряет время, необходимое языковой модели для генерации первого токена своего вывода после получения запроса. Это важный индикатор отзывчивости модели и особенно релевантен для интерактивных приложений, чат-ботов и систем реального времени, где пользователи ожидают быструю начальную обратную связь. Более низкий TTFT указывает на то, что модель может начать генерировать ответ быстрее, обеспечивая более бесшовный и увлекательный пользовательский опыт. Факторы, которые могут влиять на TTFT, включают размер модели, возможности оборудования, сетевые условия и сложность запроса.

Токены

Токены - это наименьшие индивидуальные единицы языковой модели и могут соответствовать словам, подсловам, символам или даже байтам (в случае Unicode). Для Claude токен приблизительно представляет 3,5 английских символа, хотя точное число может варьироваться в зависимости от используемого языка. Токены обычно скрыты при взаимодействии с языковыми моделями на “текстовом” уровне, но становятся релевантными при изучении точных входов и выходов языковой модели. Когда Claude предоставляется текст для оценки, текст (состоящий из серии символов) кодируется в серию токенов для обработки моделью. Большие токены обеспечивают эффективность данных во время вывода и предварительного обучения (и используются, когда это возможно), в то время как меньшие токены позволяют модели обрабатывать необычные или никогда ранее не виденные слова. Выбор метода токенизации может влиять на производительность модели, размер словаря и способность обрабатывать слова вне словаря.