Это руководство описывает, как работать с изображениями в Claude, включая лучшие практики, примеры кода и ограничения, которые следует учитывать.

Как использовать зрение

Используйте возможности зрения Claude через:
  • claude.ai. Загрузите изображение как файл или перетащите изображение прямо в окно чата.
  • Console Workbench. Если вы выберете модель, которая принимает изображения (только модели Claude 3 и 4), кнопка для добавления изображений появится в правом верхнем углу каждого блока сообщения пользователя.
  • API запрос. См. примеры в этом руководстве.

Перед загрузкой

Основы и ограничения

Вы можете включить несколько изображений в один запрос (до 20 для claude.ai и 100 для API запросов). Claude проанализирует все предоставленные изображения при формулировании своего ответа. Это может быть полезно для сравнения или сопоставления изображений. Если вы отправите изображение размером больше 8000x8000 пикселей, оно будет отклонено. Если вы отправите более 20 изображений в одном API запросе, этот лимит составляет 2000x2000 пикселей.
Хотя API поддерживает 100 изображений на запрос, существует ограничение размера запроса в 32МБ для стандартных конечных точек.

Оценка размера изображения

Для оптимальной производительности мы рекомендуем изменить размер изображений перед загрузкой, если они слишком большие. Если длинная сторона вашего изображения превышает 1568 пикселей, или ваше изображение содержит более ~1,600 токенов, оно сначала будет уменьшено с сохранением соотношения сторон, пока не окажется в пределах размерных ограничений. Если ваше входное изображение слишком большое и требует изменения размера, это увеличит задержку времени до первого токена, не давая вам никакой дополнительной производительности модели. Очень маленькие изображения размером менее 200 пикселей по любой стороне могут ухудшить производительность.
Для улучшения времени до первого токена, мы рекомендуем изменять размер изображений до не более 1.15 мегапикселей (и в пределах 1568 пикселей в обеих измерениях).
Вот таблица максимальных размеров изображений, принимаемых нашим API, которые не будут изменены для обычных соотношений сторон. С моделью Claude Sonnet 3.7 эти изображения используют примерно 1,600 токенов и около $4.80/1K изображений.
Соотношение сторонРазмер изображения
1:11092x1092 пикс
3:4951x1268 пикс
2:3896x1344 пикс
9:16819x1456 пикс
1:2784x1568 пикс

Расчет стоимости изображений

Каждое изображение, которое вы включаете в запрос к Claude, засчитывается в ваше использование токенов. Для расчета приблизительной стоимости умножьте приблизительное количество токенов изображения на цену за токен модели, которую вы используете. Если ваше изображение не требует изменения размера, вы можете оценить количество используемых токенов через этот алгоритм: токены = (ширина пикс * высота пикс)/750 Вот примеры приблизительной токенизации и стоимости для различных размеров изображений в пределах ограничений размера нашего API, основанные на цене Claude Sonnet 3.7 в $3 за миллион входных токенов:
Размер изображенияКоличество токеновСтоимость / изображениеСтоимость / 1K изображений
200x200 пикс(0.04 мегапикселя)~54~$0.00016~$0.16
1000x1000 пикс(1 мегапиксель)~1334~$0.004~$4.00
1092x1092 пикс(1.19 мегапикселя)~1590~$0.0048~$4.80

Обеспечение качества изображения

При предоставлении изображений Claude учитывайте следующее для лучших результатов:
  • Формат изображения: Используйте поддерживаемый формат изображения: JPEG, PNG, GIF или WebP.
  • Четкость изображения: Убедитесь, что изображения четкие и не слишком размытые или пикселизированные.
  • Текст: Если изображение содержит важный текст, убедитесь, что он читаемый и не слишком мелкий. Избегайте обрезки ключевого визуального контекста только для увеличения текста.

Примеры промптов

Многие из техник промптинга, которые хорошо работают для текстовых взаимодействий с Claude, также могут быть применены к промптам на основе изображений. Эти примеры демонстрируют структуры промптов лучших практик, включающие изображения.
Так же, как и с размещением документ-запрос, Claude работает лучше всего, когда изображения идут перед текстом. Изображения, размещенные после текста или интерполированные с текстом, все равно будут работать хорошо, но если ваш случай использования позволяет это, мы рекомендуем структуру изображение-затем-текст.

О примерах промптов

Следующие примеры демонстрируют, как использовать возможности зрения Claude, используя различные языки программирования и подходы. Вы можете предоставлять изображения Claude тремя способами:
  1. Как изображение в кодировке base64 в блоках содержимого image
  2. Как URL-ссылку на изображение, размещенное онлайн
  3. Используя Files API (загрузить один раз, использовать несколько раз)
Примеры промптов base64 используют эти переменные:
    # Для изображений на основе URL вы можете использовать URL напрямую в вашем JSON запросе
    
    # Для изображений в кодировке base64 вам нужно сначала закодировать изображение
    # Пример того, как закодировать изображение в base64 в bash:
    BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
    
    # Закодированные данные теперь можно использовать в ваших API вызовах
Ниже приведены примеры того, как включить изображения в запрос Messages API, используя изображения в кодировке base64 и URL-ссылки:

Пример изображения в кодировке base64

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "base64",
              "media_type": "image/jpeg",
              "data": "'"$BASE64_IMAGE_DATA"'"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'

Пример изображения на основе URL

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "url",
              "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'

Пример изображения Files API

Для изображений, которые вы будете использовать повторно, или когда вы хотите избежать накладных расходов на кодирование, используйте Files API:
# Сначала загрузите ваше изображение в Files API
curl -X POST https://api.anthropic.com/v1/files \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -F "[email protected]"

# Затем используйте возвращенный file_id в вашем сообщении
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: files-api-2025-04-14" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image",
            "source": {
              "type": "file",
              "file_id": "file_abc123"
            }
          },
          {
            "type": "text",
            "text": "Опишите это изображение."
          }
        ]
      }
    ]
  }'
См. примеры Messages API для дополнительного примера кода и деталей параметров.
Лучше всего размещать изображения раньше в промпте, чем вопросы о них или инструкции для задач, которые их используют.Попросите Claude описать одно изображение.
РольСодержание
Пользователь[Изображение] Опишите это изображение.
Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.
Python
message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Опишите это изображение."
                }
            ],
        }
    ],
)
В ситуациях, где есть несколько изображений, представьте каждое изображение с Изображение 1: и Изображение 2: и так далее. Вам не нужны новые строки между изображениями или между изображениями и промптом.Попросите Claude описать различия между несколькими изображениями.
РольСодержание
ПользовательИзображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?
Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.
Python
message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Изображение 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Изображение 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Чем отличаются эти изображения?"
                }
            ],
        }
    ],
)
Попросите Claude описать различия между несколькими изображениями, дав ему системный промпт о том, как отвечать.
Содержание
СистемаОтвечайте только на испанском языке.
ПользовательИзображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?
Вот соответствующий API вызов, использующий модель Claude Sonnet 3.7.
Python
message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    system="Отвечайте только на испанском языке.",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Изображение 1:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image1_media_type,
                        "data": image1_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Изображение 2:"
                },
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": image2_media_type,
                        "data": image2_data,
                    },
                },
                {
                    "type": "text",
                    "text": "Чем отличаются эти изображения?"
                }
            ],
        }
    ],
)
Возможности зрения Claude блистают в мультимодальных разговорах, которые смешивают изображения и текст. Вы можете вести расширенные диалоги туда-сюда с Claude, добавляя новые изображения или дополнительные вопросы в любой момент. Это обеспечивает мощные рабочие процессы для итеративного анализа изображений, сравнения или объединения визуальных элементов с другими знаниями.Попросите Claude сопоставить два изображения, затем задайте дополнительный вопрос, сравнивая первые изображения с двумя новыми изображениями.
РольСодержание
ПользовательИзображение 1: [Изображение 1] Изображение 2: [Изображение 2] Чем отличаются эти изображения?
Ассистент[Ответ Claude]
ПользовательИзображение 1: [Изображение 3] Изображение 2: [Изображение 4] Похожи ли эти изображения на первые два?
Ассистент[Ответ Claude]
При использовании API просто вставьте новые изображения в массив Messages в роли user как часть любой стандартной структуры многоходового разговора.

Ограничения

Хотя возможности понимания изображений Claude являются передовыми, есть некоторые ограничения, которые следует учитывать:
  • Идентификация людей: Claude не может использоваться для идентификации (т.е. именования) людей на изображениях и откажется это делать.
  • Точность: Claude может галлюцинировать или делать ошибки при интерпретации низкокачественных, повернутых или очень маленьких изображений размером менее 200 пикселей.
  • Пространственное мышление: Способности пространственного мышления Claude ограничены. Он может испытывать трудности с задачами, требующими точной локализации или макетов, такими как чтение аналогового циферблата часов или описание точных позиций шахматных фигур.
  • Подсчет: Claude может дать приблизительные подсчеты объектов на изображении, но может не всегда быть точно точным, особенно с большим количеством мелких объектов.
  • AI-сгенерированные изображения: Claude не знает, является ли изображение AI-сгенерированным, и может быть неправильным, если его спросить. Не полагайтесь на него для обнаружения поддельных или синтетических изображений.
  • Неподходящий контент: Claude не будет обрабатывать неподходящие или откровенные изображения, которые нарушают нашу Политику допустимого использования.
  • Медицинские приложения: Хотя Claude может анализировать общие медицинские изображения, он не предназначен для интерпретации сложных диагностических сканов, таких как КТ или МРТ. Выходные данные Claude не должны рассматриваться как замена профессиональной медицинской консультации или диагностики.
Всегда тщательно проверяйте и верифицируйте интерпретации изображений Claude, особенно для высокорисковых случаев использования. Не используйте Claude для задач, требующих идеальной точности или чувствительного анализа изображений без человеческого надзора.

FAQ

Claude в настоящее время поддерживает форматы изображений JPEG, PNG, GIF и WebP, в частности:
  • image/jpeg
  • image/png
  • image/gif
  • image/webp
Да, Claude теперь может обрабатывать изображения из URL с нашими блоками источника изображений URL в API. Просто используйте тип источника “url” вместо “base64” в ваших API запросах. Пример:
{
  "type": "image",
  "source": {
    "type": "url",
    "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
  }
}
Да, есть ограничения:
  • API: Максимум 5МБ на изображение
  • claude.ai: Максимум 10МБ на изображение
Изображения больше этих ограничений будут отклонены и вернут ошибку при использовании нашего API.
Ограничения изображений:
  • Messages API: До 100 изображений на запрос
  • claude.ai: До 20 изображений на ход
Запросы, превышающие эти ограничения, будут отклонены и вернут ошибку.
Нет, Claude не парсит и не получает никаких метаданных из изображений, переданных ему.
Нет. Загрузки изображений являются эфемерными и не хранятся дольше продолжительности API запроса. Загруженные изображения автоматически удаляются после того, как они были обработаны.
Пожалуйста, обратитесь к нашей странице политики конфиденциальности для информации о том, как мы обрабатываем загруженные изображения и другие данные. Мы не используем загруженные изображения для обучения наших моделей.
Если интерпретация изображения Claude кажется неправильной:
  1. Убедитесь, что изображение четкое, высокого качества и правильно ориентировано.
  2. Попробуйте техники инженерии промптов для улучшения результатов.
  3. Если проблема сохраняется, отметьте вывод в claude.ai (большой палец вверх/вниз) или свяжитесь с нашей командой поддержки.
Ваша обратная связь помогает нам улучшаться!
Нет, Claude - это модель понимания изображений только. Он может интерпретировать и анализировать изображения, но он не может генерировать, производить, редактировать, манипулировать или создавать изображения.

Погрузитесь глубже в зрение

Готовы начать строить с изображениями, используя Claude? Вот несколько полезных ресурсов: Если у вас есть другие вопросы, не стесняйтесь обращаться к нашей команде поддержки. Вы также можете присоединиться к нашему сообществу разработчиков, чтобы связаться с другими создателями и получить помощь от экспертов Anthropic.