Как использовать зрение
Используйте возможности зрения Claude через:- claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
- Console Workbench. Если вы выберете модель, которая принимает изображения (только модели Claude 3 и 4), кнопка добавления изображений появится в верхнем правом углу каждого блока сообщения пользователя.
- Запрос API. См. примеры в этом руководстве.
Перед загрузкой
Основы и ограничения
Вы можете включить несколько изображений в один запрос (до 20 для claude.ai и 100 для запросов API). Claude будет анализировать все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или противопоставления изображений. Если вы отправите изображение размером более 8000x8000 пикселей, оно будет отклонено. Если вы отправите более 20 изображений в одном запросе API, это ограничение составляет 2000x2000 пикселей.Оценка размера изображения
Для оптимальной производительности мы рекомендуем изменять размер изображений перед загрузкой, если они слишком большие. Если длинный край вашего изображения превышает 1568 пикселей или ваше изображение содержит более ~1600 токенов, оно сначала будет масштабировано вниз, сохраняя соотношение сторон, пока не будет находиться в пределах ограничений размера. Если ваше входное изображение слишком большое и требует изменения размера, это увеличит задержку time-to-first-token, не давая вам никакого дополнительного улучшения производительности модели. Очень маленькие изображения размером менее 200 пикселей с любой стороны могут снизить производительность.| Соотношение сторон | Размер изображения |
|---|---|
| 1:1 | 1092x1092 px |
| 3:4 | 951x1268 px |
| 2:3 | 896x1344 px |
| 9:16 | 819x1456 px |
| 1:2 | 784x1568 px |
Расчет стоимости изображения
Каждое изображение, которое вы включаете в запрос к Claude, учитывается в использовании ваших токенов. Чтобы рассчитать приблизительную стоимость, умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете. Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов с помощью этого алгоритма:tokens = (width px * height px)/750
Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера API на основе цены Claude Sonnet 3.7 за токен в размере $3 за миллион входных токенов:
| Размер изображения | Количество токенов | Стоимость / изображение | Стоимость / 1K изображений |
|---|---|---|---|
| 200x200 px(0,04 мегапикселя) | ~54 | ~$0,00016 | ~$0,16 |
| 1000x1000 px(1 мегапиксель) | ~1334 | ~$0,004 | ~$4,00 |
| 1092x1092 px(1,19 мегапикселя) | ~1590 | ~$0,0048 | ~$4,80 |
Обеспечение качества изображения
При предоставлении изображений Claude учитывайте следующее для получения наилучших результатов:- Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
- Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пиксельные.
- Текст: Если изображение содержит важный текст, убедитесь, что он разборчив и не слишком мал. Избегайте обрезания ключевого визуального контекста только для увеличения текста.
Примеры подсказок
Многие из методов подсказок, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к подсказкам на основе изображений. Эти примеры демонстрируют лучшие практики структуры подсказок, включающих изображения.О примерах подсказок
Следующие примеры демонстрируют, как использовать возможности зрения Claude, используя различные языки программирования и подходы. Вы можете предоставить изображения Claude тремя способами:- Как изображение, закодированное в base64, в блоках содержимого
image - Как ссылка URL на изображение, размещенное в Интернете
- Используя Files API (загрузить один раз, использовать несколько раз)
Пример изображения, закодированного в base64
Пример изображения на основе URL
Пример изображения Files API
Для изображений, которые вы будете использовать повторно или когда вы хотите избежать затрат на кодирование, используйте Files API:Пример: одно изображение
Пример: одно изображение
| Роль | Содержание |
|---|---|
| Пользователь | [Изображение] Опишите это изображение. |
Пример: несколько изображений
Пример: несколько изображений
Image 1: и Image 2: и так далее. Вам не нужны разрывы строк между изображениями или между изображениями и подсказкой.Попросите Claude описать различия между несколькими изображениями.| Роль | Содержание |
|---|---|
| Пользователь | Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем эти изображения отличаются? |
Пример: несколько изображений с системной подсказкой
Пример: несколько изображений с системной подсказкой
| Содержание | |
|---|---|
| Система | Отвечайте только на испанском языке. |
| Пользователь | Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем эти изображения отличаются? |
Пример: четыре изображения в двух разговорных ходах
Пример: четыре изображения в двух разговорных ходах
| Роль | Содержание |
|---|---|
| Пользователь | Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем эти изображения отличаются? |
| Помощник | [Ответ Claude] |
| Пользователь | Изображение 1: [Изображение 3] Изображение 2: [Изображение 4] Похожи ли эти изображения на первые два? |
| Помощник | [Ответ Claude] |
user как часть любой стандартной структуры многоходового разговора.Ограничения
Хотя возможности понимания изображений Claude находятся на передовой, есть некоторые ограничения, о которых следует знать:- Идентификация людей: Claude не может использоваться для идентификации (т.е. назвать) людей на изображениях и откажется это делать.
- Точность: Claude может галлюцинировать или делать ошибки при интерпретации изображений низкого качества, повернутых или очень маленьких изображений размером менее 200 пикселей.
- Пространственное рассуждение: Способности Claude к пространственному рассуждению ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение циферблата аналоговых часов или описание точных позиций шахматных фигур.
- Подсчет: Claude может дать приблизительный подсчет объектов на изображении, но может быть не всегда точным, особенно с большим количеством маленьких объектов.
- Изображения, созданные ИИ: Claude не знает, является ли изображение созданным ИИ, и может быть неправ, если его спросить. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
- Неприемлемое содержание: Claude не будет обрабатывать неприемлемые или явные изображения, которые нарушают нашу Политику приемлемого использования.
- Приложения здравоохранения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканирований, таких как КТ или МРТ. Результаты Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностики.
Часто задаваемые вопросы
Какие типы файлов изображений поддерживает Claude?
Какие типы файлов изображений поддерживает Claude?
image/jpegimage/pngimage/gifimage/webp
Может ли Claude читать URL изображений?
Может ли Claude читать URL изображений?
Есть ли ограничение на размер файла изображения, который я могу загрузить?
Есть ли ограничение на размер файла изображения, который я могу загрузить?
- API: максимум 5 МБ на изображение
- claude.ai: максимум 10 МБ на изображение
Сколько изображений я могу включить в один запрос?
Сколько изображений я могу включить в один запрос?
- Messages API: до 100 изображений на запрос
- claude.ai: до 20 изображений за ход
Читает ли Claude метаданные изображения?
Читает ли Claude метаданные изображения?
Могу ли я удалить загруженные изображения?
Могу ли я удалить загруженные изображения?
Где я могу найти детали о конфиденциальности данных для загрузок изображений?
Где я могу найти детали о конфиденциальности данных для загрузок изображений?
Что если интерпретация изображения Claude кажется неправильной?
Что если интерпретация изображения Claude кажется неправильной?
- Убедитесь, что изображение четкое, высокого качества и правильно ориентировано.
- Попробуйте методы инженерии подсказок для улучшения результатов.
- Если проблема сохраняется, отметьте результат в claude.ai (большой палец вверх/вниз) или свяжитесь с нашей командой поддержки.
Может ли Claude генерировать или редактировать изображения?
Может ли Claude генерировать или редактировать изображения?
Углубитесь в зрение
Готовы начать создавать с изображениями, используя Claude? Вот несколько полезных ресурсов:- Мультимодальная кулинарная книга: Эта кулинарная книга содержит советы по началу работы с изображениями и лучшие практики методов для обеспечения наивысшего качества производительности с изображениями. Посмотрите, как вы можете эффективно подсказать Claude с изображениями для выполнения задач, таких как интерпретация и анализ диаграмм или извлечение содержимого из форм.
- Справочник API: Посетите нашу документацию для Messages API, включая примеры вызовов API, включающих изображения.