Зрение

Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.

Как использовать зрение

Используйте возможности зрения Claude через:

claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
Console Workbench. Если вы выберете модель, которая принимает изображения (только модели Claude 3 и 4), кнопка для добавления изображений появится в правом верхнем углу каждого блока сообщения пользователя.
API запрос. См. примеры в этом руководстве.

Перед загрузкой

Основы и ограничения

Вы можете включить несколько изображений в один запрос (до 20 для claude.ai и 100 для API запросов). Claude проанализирует все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или сопоставления изображений. Если вы отправите изображение размером больше 8000x8000 пикселей, оно будет отклонено. Если вы отправите более 20 изображений в одном API запросе, этот лимит составляет 2000x2000 пикселей.

Хотя API поддерживает 100 изображений на запрос, существует ограничение размера запроса в 32МБ для стандартных конечных точек.

Оценка размера изображения

Для оптимальной производительности мы рекомендуем изменить размер изображений перед загрузкой, если они слишком большие. Если длинная сторона вашего изображения превышает 1568 пикселей, или ваше изображение содержит более ~1,600 токенов, оно сначала будет уменьшено с сохранением соотношения сторон, пока не окажется в пределах размерных ограничений. Если ваше входное изображение слишком большое и требует изменения размера, это увеличит задержку времени до первого токена, не давая вам никакой дополнительной производительности модели. Очень маленькие изображения размером менее 200 пикселей по любой стороне могут ухудшить производительность.

Для улучшения времени до первого токена, мы рекомендуем изменять размер изображений до не более 1.15 мегапикселей (и в пределах 1568 пикселей в обеих измерениях).

Вот таблица максимальных размеров изображений, принимаемых нашим API, которые не будут изменены для обычных соотношений сторон. С моделью Claude Sonnet 3.7 эти изображения используют примерно 1,600 токенов и около $4.80/1K изображений.

Соотношение сторон	Размер изображения
1:1	1092x1092 пикс
3:4	951x1268 пикс
2:3	896x1344 пикс
9:16	819x1456 пикс
1:2	784x1568 пикс

Расчет стоимости изображений

Каждое изображение, которое вы включаете в запрос к Claude, засчитывается в ваше использование токенов. Для расчета приблизительной стоимости умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете. Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов через этот алгоритм: токены = (ширина пикс * высота пикс)/750 Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера нашего API, основанные на цене Claude Sonnet 3.7 в $3 за миллион входных токенов:

Размер изображения	Количество токенов	Стоимость / изображение	Стоимость / 1K изображений
200x200 пикс(0.04 мегапикселя)	~54	~$0.00016	~$0.16
1000x1000 пикс(1 мегапиксель)	~1334	~$0.004	~$4.00
1092x1092 пикс(1.19 мегапикселя)	~1590	~$0.0048	~$4.80

Обеспечение качества изображения

При предоставлении изображений Claude учитывайте следующее для лучших результатов:

Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пикселизированные.
Текст: Если изображение содержит важный текст, убедитесь, что он читаемый и не слишком мелкий. Избегайте обрезки ключевого визуального контекста только для увеличения текста.

Примеры промптов

Многие из техник промптинга, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к промптам на основе изображений. Эти примеры демонстрируют структуры промптов лучших практик, включающие изображения.

Так же, как и с размещением документ-запрос, Claude работает лучше всего, когда изображения идут перед текстом. Изображения, размещенные после текста или интерполированные с текстом, все равно будут работать хорошо, но если ваш случай использования позволяет это, мы рекомендуем структуру изображение-затем-текст.

О примерах промптов

Следующие примеры демонстрируют, как использовать возможности зрения Claude, используя различные языки программирования и подходы. Вы можете предоставлять изображения Claude тремя способами:

Как изображение в кодировке base64 в блоках содержимого image
Как URL-ссылку на изображение, размещенное онлайн
Используя Files API (загрузить один раз, использовать несколько раз)

Примеры промптов base64 используют эти переменные:

    # Для изображений на основе URL вы можете использовать URL напрямую в вашем JSON запросе
    
    # Для изображений в кодировке base64 вам нужно сначала закодировать изображение
    # Пример того, как закодировать изображение в base64 в bash:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Закодированные данные теперь можно использовать в ваших API вызовах

Ниже приведены примеры того, как включить изображения в запрос Messages API, используя изображения в кодировке base64 и URL-ссылки:

Пример изображения в кодировке base64

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'

Пример изображения на основе URL

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'

Пример изображения Files API

Для изображений, которые вы будете использовать повторно, или когда вы хотите избежать накладных расходов на кодирование, используйте Files API:

# Сначала загрузите ваше изображение в Files API
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "[email protected]"

# Затем используйте возвращенный file_id в вашем сообщении
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'

См. примеры Messages API для дополнительного примера кода и деталей параметров.

Пример: Одно изображение

Лучше всего размещать изображения раньше в промпте, чем вопросы о них или инструкции для задач, которые их используют.Попросите Claude описать одно изображение.

Роль	Содержание
Пользователь	[Изображение] Опишите это изображение.

Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.

Python

message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Опишите это изображение."
                }
            ],
        }
    ],
)

Пример: Несколько изображений

В ситуациях, где есть несколько изображений, представьте каждое изображение с Изображение 1: и Изображение 2: и так далее. Вам не нужны новые строки между изображениями или между изображениями и промптом.Попросите Claude описать различия между несколькими изображениями.

Роль	Содержание
Пользователь	Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?

Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.

Python

message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Изображение 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Изображение 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Чем отличаются эти изображения?"
                }
            ],
        }
    ],
)

Пример: Несколько изображений с системным промптом

Попросите Claude описать различия между несколькими изображениями, дав ему системный промпт о том, как отвечать.

Содержание
Система	Отвечайте только на испанском языке.
Пользователь	Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?

Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.

Python

message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    system="Отвечайте только на испанском языке.",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Изображение 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Изображение 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Чем отличаются эти изображения?"
                }
            ],
        }
    ],
)

Пример: Четыре изображения в двух поворотах разговора

Возможности зрения Claude блистают в мультимодальных разговорах, которые смешивают изображения и текст. Вы можете вести расширенные диалоги туда-сюда с Claude, добавляя новые изображения или дополнительные вопросы в любой момент. Это обеспечивает мощные рабочие процессы для итеративного анализа изображений, сравнения или объединения визуальных элементов с другими знаниями.Попросите Claude сопоставить два изображения, затем задайте дополнительный вопрос, сравнивая первые изображения с двумя новыми изображениями.

Роль	Содержание
Пользователь	Изображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?
Ассистент	[Ответ Claude]
Пользователь	Изображение 1: [Изображение 3] Изображение 2: [Изображение 4] Похожи ли эти изображения на первые два?
Ассистент	[Ответ Claude]

При использовании API просто вставьте новые изображения в массив Messages в роли user как часть любой стандартной структуры многоходового разговора.

Ограничения

Хотя возможности понимания изображений Claude являются передовыми, есть некоторые ограничения, которые следует учитывать:

Идентификация людей: Claude не может использоваться для идентификации (т.е. именования) людей на изображениях и откажется это делать.
Точность: Claude может галлюцинировать или делать ошибки при интерпретации низкокачественных, повернутых или очень маленьких изображений размером менее 200 пикселей.
Пространственное мышление: Способности пространственного мышления Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение аналогового циферблата часов или описание точных позиций шахматных фигур.
Подсчет: Claude может дать приблизительные подсчеты объектов на изображении, но может не всегда быть точно точным, особенно с большим количеством мелких объектов.
AI-сгенерированные изображения: Claude не знает, является ли изображение AI-сгенерированным, и может быть неправильным, если его спросить. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
Неподходящий контент: Claude не будет обрабатывать неподходящие или откровенные изображения, которые нарушают нашу Политику допустимого использования.
Медицинские приложения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканов, таких как КТ или МРТ. Выходные данные Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностики.

Всегда тщательно проверяйте и верифицируйте интерпретации изображений Claude, особенно для высокорисковых случаев использования. Не используйте Claude для задач, требующих идеальной точности или чувствительного анализа изображений без человеческого надзора.

FAQ

Какие типы файлов изображений поддерживает Claude?

Claude в настоящее время поддерживает форматы изображений JPEG, PNG, GIF и WebP, в частности:

image/jpeg
image/png
image/gif
image/webp

Может ли Claude читать URL изображений?

Да, Claude теперь может обрабатывать изображения из URL с нашими блоками источника изображений URL в API. Просто используйте тип источника “url” вместо “base64” в ваших API запросах. Пример:

{
  "type": "image",
  "source": {
    "type": "url",
    "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
  }
}

Есть ли ограничение на размер файла изображения, который я могу загрузить?

Да, есть ограничения:

API: Максимум 5МБ на изображение
claude.ai: Максимум 10МБ на изображение

Изображения больше этих ограничений будут отклонены и вернут ошибку при использовании нашего API.

Сколько изображений я могу включить в один запрос?

Ограничения изображений:

Messages API: До 100 изображений на запрос
claude.ai: До 20 изображений на ход

Запросы, превышающие эти ограничения, будут отклонены и вернут ошибку.

Читает ли Claude метаданные изображений?

Нет, Claude не парсит и не получает никаких метаданных из изображений, переданных ему.

Могу ли я удалить изображения, которые я загрузил?

Нет. Загрузки изображений являются эфемерными и не хранятся дольше продолжительности API запроса. Загруженные изображения автоматически удаляются после того, как они были обработаны.

Где я могу найти подробности о конфиденциальности данных для загрузок изображений?

Пожалуйста, обратитесь к нашей странице политики конфиденциальности для информации о том, как мы обрабатываем загруженные изображения и другие данные. Мы не используем загруженные изображения для обучения наших моделей.

Что если интерпретация изображения Claude кажется неправильной?

Если интерпретация изображения Claude кажется неправильной:

Убедитесь, что изображение четкое, высокого качества и правильно ориентировано.
Попробуйте техники инженерии промптов для улучшения результатов.
Если проблема сохраняется, отметьте вывод в claude.ai (большой палец вверх/вниз) или свяжитесь с нашей командой поддержки.

Ваша обратная связь помогает нам улучшаться!

Может ли Claude генерировать или редактировать изображения?

Нет, Claude - это модель понимания изображений только. Он может интерпретировать и анализировать изображения, но он не может генерировать, производить, редактировать, манипулировать или создавать изображения.

Погрузитесь глубже в зрение

Готовы начать строить с изображениями, используя Claude? Вот несколько полезных ресурсов:

Мультимодальная поваренная книга: Эта поваренная книга содержит советы по началу работы с изображениями и техники лучших практик для обеспечения высочайшего качества производительности с изображениями. Посмотрите, как вы можете эффективно промптить Claude с изображениями для выполнения таких задач, как интерпретация и анализ диаграмм или извлечение содержимого из форм.
Справочник API: Посетите нашу документацию для Messages API, включая примеры API вызовов, включающих изображения.

Если у вас есть другие вопросы, не стесняйтесь обращаться к нашей команде поддержки. Вы также можете присоединиться к нашему сообществу разработчиков, чтобы связаться с другими создателями и получить помощь от экспертов Anthropic.

Первые шаги

Модели и цены

Создавайте с Claude

Возможности

Инструменты

Навыки агента

Agent SDK

MCP в API

Claude на сторонних платформах

Инженерия подсказок

Тестирование и оценка

Усилить защиту

Как использовать зрение

Перед загрузкой

Основы и ограничения

Оценка размера изображения

Расчет стоимости изображений

Обеспечение качества изображения

Примеры промптов

О примерах промптов

Пример изображения в кодировке base64

Пример изображения на основе URL

Пример изображения Files API

Ограничения

FAQ

Погрузитесь глубже в зрение

Первые шаги

Модели и цены

Создавайте с Claude

Возможности

Инструменты

Навыки агента

Agent SDK

MCP в API

Claude на сторонних платформах

Инженерия подсказок

Тестирование и оценка

Усилить защиту

​Как использовать зрение

​Перед загрузкой

​Основы и ограничения

​Оценка размера изображения

​Расчет стоимости изображений

​Обеспечение качества изображения

​Примеры промптов

​О примерах промптов

​Пример изображения в кодировке base64

​Пример изображения на основе URL

​Пример изображения Files API

​Ограничения

​FAQ

​Погрузитесь глубже в зрение

Как использовать зрение

Перед загрузкой

Основы и ограничения

Оценка размера изображения

Расчет стоимости изображений

Обеспечение качества изображения

Примеры промптов

О примерах промптов

Пример изображения в кодировке base64

Пример изображения на основе URL

Пример изображения Files API

Ограничения

FAQ

Погрузитесь глубже в зрение