Cara menggunakan visi
Gunakan kemampuan visi Claude melalui:- claude.ai. Unggah gambar seperti Anda mengunggah file, atau seret dan lepas gambar langsung ke jendela obrolan.
- Console Workbench. Jika Anda memilih model yang menerima gambar (hanya model Claude 3 dan 4), tombol untuk menambahkan gambar muncul di sudut kanan atas setiap blok pesan Pengguna.
- Permintaan API. Lihat contoh dalam panduan ini.
Sebelum Anda mengunggah
Dasar dan Batas
Anda dapat menyertakan beberapa gambar dalam satu permintaan (hingga 20 untuk claude.ai dan 100 untuk permintaan API). Claude akan menganalisis semua gambar yang disediakan saat merumuskan responsnya. Ini dapat membantu untuk membandingkan atau membedakan gambar. Jika Anda mengirimkan gambar yang lebih besar dari 8000x8000 px, gambar akan ditolak. Jika Anda mengirimkan lebih dari 20 gambar dalam satu permintaan API, batas ini adalah 2000x2000 px.Evaluasi ukuran gambar
Untuk kinerja optimal, kami merekomendasikan mengubah ukuran gambar sebelum mengunggah jika gambar terlalu besar. Jika tepi panjang gambar Anda lebih dari 1568 piksel, atau gambar Anda lebih dari ~1.600 token, gambar akan terlebih dahulu diskalakan ke bawah, mempertahankan rasio aspek, hingga berada dalam batas ukuran. Jika gambar input Anda terlalu besar dan perlu diubah ukurannya, hal ini akan meningkatkan latensi time-to-first-token, tanpa memberikan Anda kinerja model tambahan. Gambar yang sangat kecil di bawah 200 piksel di tepi mana pun dapat menurunkan kinerja.| Rasio aspek | Ukuran gambar |
|---|---|
| 1:1 | 1092x1092 px |
| 3:4 | 951x1268 px |
| 2:3 | 896x1344 px |
| 9:16 | 819x1456 px |
| 1:2 | 784x1568 px |
Hitung biaya gambar
Setiap gambar yang Anda sertakan dalam permintaan ke Claude dihitung terhadap penggunaan token Anda. Untuk menghitung biaya perkiraan, kalikan jumlah token gambar perkiraan dengan harga per-token model yang Anda gunakan. Jika gambar Anda tidak perlu diubah ukurannya, Anda dapat memperkirakan jumlah token yang digunakan melalui algoritma ini:tokens = (width px * height px)/750
Berikut adalah contoh tokenisasi perkiraan dan biaya untuk ukuran gambar berbeda dalam batasan ukuran API kami berdasarkan harga per-token Claude Sonnet 3.7 sebesar $3 per juta token input:
| Ukuran gambar | Jumlah Token | Biaya / gambar | Biaya / 1K gambar |
|---|---|---|---|
| 200x200 px(0,04 megapiksel) | ~54 | ~$0,00016 | ~$0,16 |
| 1000x1000 px(1 megapiksel) | ~1334 | ~$0,004 | ~$4,00 |
| 1092x1092 px(1,19 megapiksel) | ~1590 | ~$0,0048 | ~$4,80 |
Memastikan kualitas gambar
Saat memberikan gambar ke Claude, pertimbangkan hal berikut untuk hasil terbaik:- Format gambar: Gunakan format gambar yang didukung: JPEG, PNG, GIF, atau WebP.
- Kejelasan gambar: Pastikan gambar jelas dan tidak terlalu buram atau piksel.
- Teks: Jika gambar berisi teks penting, pastikan teks dapat dibaca dan tidak terlalu kecil. Hindari memotong konteks visual kunci hanya untuk memperbesar teks.
Contoh prompt
Banyak dari teknik prompting yang bekerja dengan baik untuk interaksi berbasis teks dengan Claude juga dapat diterapkan pada prompt berbasis gambar. Contoh-contoh ini mendemonstrasikan struktur prompt praktik terbaik yang melibatkan gambar.Tentang contoh prompt
Contoh-contoh berikut mendemonstrasikan cara menggunakan kemampuan visi Claude menggunakan berbagai bahasa pemrograman dan pendekatan. Anda dapat memberikan gambar ke Claude dengan tiga cara:- Sebagai gambar yang dikodekan base64 dalam blok konten
image - Sebagai referensi URL ke gambar yang dihosting online
- Menggunakan Files API (unggah sekali, gunakan berkali-kali)
Contoh gambar yang dikodekan base64
Contoh gambar berbasis URL
Contoh gambar Files API
Untuk gambar yang akan Anda gunakan berulang kali atau ketika Anda ingin menghindari overhead pengodean, gunakan Files API:Contoh: Satu gambar
Contoh: Satu gambar
| Peran | Konten |
|---|---|
| Pengguna | [Gambar] Jelaskan gambar ini. |
Contoh: Beberapa gambar
Contoh: Beberapa gambar
Gambar 1: dan Gambar 2: dan seterusnya. Anda tidak perlu baris baru antara gambar atau antara gambar dan prompt.Minta Claude untuk menjelaskan perbedaan antara beberapa gambar.| Peran | Konten |
|---|---|
| Pengguna | Gambar 1: [Gambar 1] Gambar 2: [Gambar 2] Bagaimana perbedaan gambar-gambar ini? |
Contoh: Beberapa gambar dengan prompt sistem
Contoh: Beberapa gambar dengan prompt sistem
| Konten | |
|---|---|
| Sistem | Hanya merespons dalam bahasa Spanyol. |
| Pengguna | Gambar 1: [Gambar 1] Gambar 2: [Gambar 2] Bagaimana perbedaan gambar-gambar ini? |
Contoh: Empat gambar di dua putaran percakapan
Contoh: Empat gambar di dua putaran percakapan
| Peran | Konten |
|---|---|
| Pengguna | Gambar 1: [Gambar 1] Gambar 2: [Gambar 2] Bagaimana perbedaan gambar-gambar ini? |
| Asisten | [Respons Claude] |
| Pengguna | Gambar 1: [Gambar 3] Gambar 2: [Gambar 4] Apakah gambar-gambar ini mirip dengan dua gambar pertama? |
| Asisten | [Respons Claude] |
user sebagai bagian dari struktur percakapan multiturn standar apa pun.Keterbatasan
Meskipun kemampuan pemahaman gambar Claude canggih, ada beberapa keterbatasan yang perlu diketahui:- Identifikasi orang: Claude tidak dapat digunakan untuk mengidentifikasi (yaitu, menyebutkan nama) orang dalam gambar dan akan menolak untuk melakukannya.
- Akurasi: Claude mungkin mengalami halusinasi atau membuat kesalahan saat menafsirkan gambar berkualitas rendah, diputar, atau sangat kecil di bawah 200 piksel.
- Penalaran spasial: Kemampuan penalaran spasial Claude terbatas. Mungkin kesulitan dengan tugas yang memerlukan lokalisasi presisi atau tata letak, seperti membaca wajah jam analog atau menjelaskan posisi pion catur yang tepat.
- Penghitungan: Claude dapat memberikan perkiraan jumlah objek dalam gambar tetapi mungkin tidak selalu akurat, terutama dengan jumlah besar objek kecil.
- Gambar yang dihasilkan AI: Claude tidak tahu apakah gambar dihasilkan AI dan mungkin salah jika ditanya. Jangan mengandalkannya untuk mendeteksi gambar palsu atau sintetis.
- Konten yang tidak pantas: Claude tidak akan memproses gambar yang tidak pantas atau eksplisit yang melanggar Kebijakan Penggunaan yang Dapat Diterima kami.
- Aplikasi kesehatan: Meskipun Claude dapat menganalisis gambar medis umum, Claude tidak dirancang untuk menafsirkan pemindaian diagnostik kompleks seperti CT atau MRI. Output Claude tidak boleh dianggap sebagai pengganti nasihat medis profesional atau diagnosis.
FAQ
Jenis file gambar apa yang didukung Claude?
Jenis file gambar apa yang didukung Claude?
image/jpegimage/pngimage/gifimage/webp
Bisakah Claude membaca URL gambar?
Bisakah Claude membaca URL gambar?
Apakah ada batas ukuran file gambar yang dapat saya unggah?
Apakah ada batas ukuran file gambar yang dapat saya unggah?
- API: Maksimal 5MB per gambar
- claude.ai: Maksimal 10MB per gambar
Berapa banyak gambar yang dapat saya sertakan dalam satu permintaan?
Berapa banyak gambar yang dapat saya sertakan dalam satu permintaan?
- Messages API: Hingga 100 gambar per permintaan
- claude.ai: Hingga 20 gambar per giliran
Apakah Claude membaca metadata gambar?
Apakah Claude membaca metadata gambar?
Bisakah saya menghapus gambar yang telah saya unggah?
Bisakah saya menghapus gambar yang telah saya unggah?
Di mana saya dapat menemukan detail tentang privasi data untuk unggahan gambar?
Di mana saya dapat menemukan detail tentang privasi data untuk unggahan gambar?
Bagaimana jika interpretasi gambar Claude tampak salah?
Bagaimana jika interpretasi gambar Claude tampak salah?
- Pastikan gambar jelas, berkualitas tinggi, dan berorientasi dengan benar.
- Coba teknik prompt engineering untuk meningkatkan hasil.
- Jika masalah berlanjut, tandai output di claude.ai (jempol ke atas/bawah) atau hubungi tim dukungan kami.
Bisakah Claude menghasilkan atau mengedit gambar?
Bisakah Claude menghasilkan atau mengedit gambar?
Selami lebih dalam visi
Siap mulai membangun dengan gambar menggunakan Claude? Berikut adalah beberapa sumber daya yang berguna:- Buku masak multimodal: Buku masak ini memiliki tips tentang memulai dengan gambar dan teknik praktik terbaik untuk memastikan kinerja kualitas tertinggi dengan gambar. Lihat bagaimana Anda dapat secara efektif memberi prompt Claude dengan gambar untuk melakukan tugas seperti menafsirkan dan menganalisis bagan atau mengekstrak konten dari formulir.
- Referensi API: Kunjungi dokumentasi kami untuk Messages API, termasuk contoh panggilan API yang melibatkan gambar.