Model yang didukung
Pemikiran yang diperluas didukung dalam model berikut:- Claude Sonnet 4.5 (
claude-sonnet-4-5-20250929) - Claude Sonnet 4 (
claude-sonnet-4-20250514) - Claude Sonnet 3.7 (
claude-3-7-sonnet-20250219) (tidak direkomendasikan) - Claude Haiku 4.5 (
claude-haiku-4-5-20251001) - Claude Opus 4.1 (
claude-opus-4-1-20250805) - Claude Opus 4 (
claude-opus-4-20250514)
Perilaku API berbeda di seluruh model Claude Sonnet 3.7 dan Claude 4, tetapi bentuk API tetap sama persis.Untuk informasi lebih lanjut, lihat Perbedaan dalam pemikiran di seluruh versi model.
Cara kerja pemikiran yang diperluas
Ketika pemikiran yang diperluas diaktifkan, Claude membuat blok kontenthinking di mana ia mengeluarkan penalaran internalnya. Claude menggabungkan wawasan dari penalaran ini sebelum menyusun respons akhir.
Respons API akan mencakup blok konten thinking, diikuti oleh blok konten text.
Berikut adalah contoh format respons default:
Cara menggunakan pemikiran yang diperluas
Berikut adalah contoh penggunaan pemikiran yang diperluas dalam API Pesan:thinking, dengan parameter type diatur ke enabled dan budget_tokens ke anggaran token yang ditentukan untuk pemikiran yang diperluas.
Parameter budget_tokens menentukan jumlah maksimum token yang diizinkan Claude gunakan untuk proses penalaran internalnya. Dalam model Claude 4, batas ini berlaku untuk token pemikiran penuh, dan bukan untuk output yang diringkas. Anggaran yang lebih besar dapat meningkatkan kualitas respons dengan memungkinkan analisis yang lebih menyeluruh untuk masalah kompleks, meskipun Claude mungkin tidak menggunakan seluruh anggaran yang dialokasikan, terutama pada rentang di atas 32k.
budget_tokens harus diatur ke nilai kurang dari max_tokens. Namun, saat menggunakan pemikiran yang disisipi dengan alat, Anda dapat melampaui batas ini karena batas token menjadi seluruh jendela konteks Anda (200k token).
Pemikiran yang diringkas
Dengan pemikiran yang diperluas diaktifkan, API Pesan untuk model Claude 4 mengembalikan ringkasan dari proses pemikiran penuh Claude. Pemikiran yang diringkas memberikan manfaat intelijen penuh dari pemikiran yang diperluas, sambil mencegah penyalahgunaan. Berikut adalah beberapa pertimbangan penting untuk pemikiran yang diringkas:- Anda dikenakan biaya untuk token pemikiran penuh yang dihasilkan oleh permintaan asli, bukan token ringkasan.
- Jumlah token output yang ditagih akan tidak cocok dengan jumlah token yang Anda lihat dalam respons.
- Beberapa baris pertama dari output pemikiran lebih verbose, memberikan penalaran terperinci yang sangat membantu untuk tujuan rekayasa prompt.
- Saat Anthropic berusaha meningkatkan fitur pemikiran yang diperluas, perilaku ringkasan dapat berubah.
- Ringkasan mempertahankan ide-ide kunci dari proses pemikiran Claude dengan latensi tambahan minimal, memungkinkan pengalaman pengguna yang dapat dialirkan dan migrasi mudah dari Claude Sonnet 3.7 ke model Claude 4.
- Ringkasan diproses oleh model yang berbeda dari yang Anda targetkan dalam permintaan Anda. Model pemikiran tidak melihat output yang diringkas.
Claude Sonnet 3.7 terus mengembalikan output pemikiran penuh.Dalam kasus langka di mana Anda memerlukan akses ke output pemikiran penuh untuk model Claude 4, hubungi tim penjualan kami.
Pemikiran streaming
Anda dapat melakukan streaming respons pemikiran yang diperluas menggunakan server-sent events (SSE). Ketika streaming diaktifkan untuk pemikiran yang diperluas, Anda menerima konten pemikiran melalui acarathinking_delta.
Untuk dokumentasi lebih lanjut tentang streaming melalui API Pesan, lihat Streaming Pesan.
Berikut adalah cara menangani streaming dengan pemikiran:
Saat menggunakan streaming dengan pemikiran diaktifkan, Anda mungkin memperhatikan bahwa teks kadang-kadang tiba dalam potongan yang lebih besar bergantian dengan pengiriman token demi token yang lebih kecil. Ini adalah perilaku yang diharapkan, terutama untuk konten pemikiran.Sistem streaming perlu memproses konten dalam batch untuk kinerja optimal, yang dapat menghasilkan pola pengiriman “chunky” ini, dengan kemungkinan penundaan antara acara streaming. Kami terus bekerja untuk meningkatkan pengalaman ini, dengan pembaruan di masa depan berfokus pada membuat konten pemikiran mengalir lebih lancar.
Pemikiran yang diperluas dengan penggunaan alat
Pemikiran yang diperluas dapat digunakan bersama dengan penggunaan alat, memungkinkan Claude untuk bernalar melalui pemilihan alat dan pemrosesan hasil. Saat menggunakan pemikiran yang diperluas dengan penggunaan alat, perhatikan batasan berikut:-
Batasan pilihan alat: Penggunaan alat dengan pemikiran hanya mendukung
tool_choice: {"type": "auto"}(default) atautool_choice: {"type": "none"}. Menggunakantool_choice: {"type": "any"}atautool_choice: {"type": "tool", "name": "..."}akan menghasilkan kesalahan karena opsi ini memaksa penggunaan alat, yang tidak kompatibel dengan pemikiran yang diperluas. -
Mempertahankan blok pemikiran: Selama penggunaan alat, Anda harus melewatkan blok
thinkingkembali ke API untuk pesan asisten terakhir. Sertakan blok yang tidak dimodifikasi sepenuhnya kembali ke API untuk mempertahankan kontinuitas penalaran.
Mengalihkan mode pemikiran dalam percakapan
Anda tidak dapat mengalihkan pemikiran di tengah giliran asisten, termasuk selama loop penggunaan alat. Seluruh giliran asisten harus beroperasi dalam mode pemikiran tunggal:- Jika pemikiran diaktifkan, giliran asisten akhir harus dimulai dengan blok pemikiran.
- Jika pemikiran dinonaktifkan, giliran asisten akhir tidak boleh berisi blok pemikiran apa pun
Skenario kesalahan umum
Anda mungkin mengalami kesalahan ini:- Anda memiliki pemikiran dinonaktifkan selama urutan penggunaan alat
- Anda ingin mengaktifkan pemikiran lagi
- Pesan asisten terakhir Anda berisi blok penggunaan alat tetapi tidak ada blok pemikiran
Panduan praktis
✗ Tidak valid: Mengalihkan pemikiran segera setelah penggunaan alatMengalihkan mode pemikiran juga membatalkan penyimpanan prompt untuk riwayat pesan. Untuk detail lebih lanjut, lihat bagian Pemikiran yang diperluas dengan penyimpanan prompt.
Contoh: Melewatkan blok pemikiran dengan hasil alat
Contoh: Melewatkan blok pemikiran dengan hasil alat
Berikut adalah contoh praktis yang menunjukkan cara mempertahankan blok pemikiran saat memberikan hasil alat:Respons API akan mencakup blok pemikiran, teks, dan penggunaan_alat:Sekarang mari kita lanjutkan percakapan dan gunakan alatRespons API sekarang akan hanya mencakup teks
Mempertahankan blok pemikiran
Selama penggunaan alat, Anda harus melewatkan blokthinking kembali ke API, dan Anda harus menyertakan blok yang tidak dimodifikasi sepenuhnya kembali ke API. Ini sangat penting untuk mempertahankan aliran penalaran model dan integritas percakapan.
Meskipun Anda dapat menghilangkan blok
thinking dari giliran assistant sebelumnya, kami menyarankan selalu melewatkan semua blok pemikiran kembali ke API untuk percakapan multi-giliran apa pun. API akan:- Secara otomatis memfilter blok pemikiran yang disediakan
- Menggunakan blok pemikiran yang relevan yang diperlukan untuk mempertahankan penalaran model
- Hanya menagih token input untuk blok yang ditampilkan ke Claude
Saat mengalihkan mode pemikiran selama percakapan, ingat bahwa seluruh giliran asisten (termasuk loop penggunaan alat) harus beroperasi dalam mode pemikiran tunggal. Untuk detail lebih lanjut, lihat Mengalihkan mode pemikiran dalam percakapan.
- Kontinuitas penalaran: Blok pemikiran menangkap penalaran langkah demi langkah Claude yang menyebabkan permintaan alat. Ketika Anda memposting hasil alat, menyertakan pemikiran asli memastikan Claude dapat melanjutkan penalarannya dari tempat ia berhenti.
- Pemeliharaan konteks: Meskipun hasil alat muncul sebagai pesan pengguna dalam struktur API, mereka adalah bagian dari aliran penalaran yang berkelanjutan. Mempertahankan blok pemikiran mempertahankan aliran konseptual ini di seluruh beberapa panggilan API. Untuk informasi lebih lanjut tentang manajemen konteks, lihat panduan kami tentang jendela konteks.
thinking, seluruh urutan blok thinking berturut-turut harus cocok dengan output yang dihasilkan oleh model selama permintaan asli; Anda tidak dapat mengatur ulang atau memodifikasi urutan blok ini.
Pemikiran yang disisipi
Pemikiran yang diperluas dengan penggunaan alat dalam model Claude 4 mendukung pemikiran yang disisipi, yang memungkinkan Claude untuk berpikir di antara panggilan alat dan membuat penalaran yang lebih canggih setelah menerima hasil alat. Dengan pemikiran yang disisipi, Claude dapat:- Bernalar tentang hasil panggilan alat sebelum memutuskan apa yang harus dilakukan selanjutnya
- Menghubungkan beberapa panggilan alat dengan langkah penalaran di antara
- Membuat keputusan yang lebih bernuansa berdasarkan hasil perantara
interleaved-thinking-2025-05-14 ke permintaan API Anda.
Berikut adalah beberapa pertimbangan penting untuk pemikiran yang disisipi:
- Dengan pemikiran yang disisipi,
budget_tokensdapat melebihi parametermax_tokens, karena mewakili total anggaran di semua blok pemikiran dalam satu giliran asisten. - Pemikiran yang disisipi hanya didukung untuk alat yang digunakan melalui API Pesan.
- Pemikiran yang disisipi didukung untuk model Claude 4 hanya, dengan header beta
interleaved-thinking-2025-05-14. - Panggilan langsung ke API Claude memungkinkan Anda melewatkan
interleaved-thinking-2025-05-14dalam permintaan ke model apa pun, tanpa efek. - Pada platform pihak ketiga (misalnya, Amazon Bedrock dan Vertex AI), jika Anda melewatkan
interleaved-thinking-2025-05-14ke model apa pun selain Claude Opus 4.1, Opus 4, atau Sonnet 4, permintaan Anda akan gagal.
Penggunaan alat tanpa pemikiran yang disisipi
Penggunaan alat tanpa pemikiran yang disisipi
- Claude berpikir sekali di awal untuk memahami tugas
- Membuat semua keputusan penggunaan alat di muka
- Ketika hasil alat dikembalikan, Claude segera memberikan respons tanpa pemikiran tambahan
Penggunaan alat dengan pemikiran yang disisipi
Penggunaan alat dengan pemikiran yang disisipi
- Claude berpikir tentang tugas awal
- Setelah menerima hasil kalkulator, Claude dapat berpikir lagi tentang apa arti hasil itu
- Claude kemudian memutuskan cara menanyakan basis data berdasarkan hasil pertama
- Setelah menerima hasil basis data, Claude berpikir sekali lagi tentang kedua hasil sebelum merumuskan respons akhir
- Anggaran pemikiran didistribusikan di semua blok pemikiran dalam giliran
Pemikiran yang diperluas dengan penyimpanan prompt
Penyimpanan prompt dengan pemikiran memiliki beberapa pertimbangan penting:Tugas pemikiran yang diperluas sering kali memakan waktu lebih dari 5 menit untuk diselesaikan. Pertimbangkan menggunakan durasi cache 1 jam untuk mempertahankan cache hit di seluruh sesi pemikiran yang lebih lama dan alur kerja multi-langkah.
- Blok pemikiran dari giliran sebelumnya dihapus dari konteks, yang dapat mempengaruhi titik cache
- Saat melanjutkan percakapan dengan penggunaan alat, blok pemikiran di-cache dan dihitung sebagai token input saat dibaca dari cache
- Ini menciptakan pertukaran: meskipun blok pemikiran tidak mengonsumsi ruang jendela konteks secara visual, mereka tetap dihitung terhadap penggunaan token input Anda saat di-cache
- Jika pemikiran menjadi dinonaktifkan, permintaan akan gagal jika Anda melewatkan konten pemikiran dalam giliran penggunaan alat saat ini. Dalam konteks lain, konten pemikiran yang dilewatkan ke API hanya diabaikan
- Perubahan parameter pemikiran (diaktifkan/dinonaktifkan atau alokasi anggaran) membatalkan titik cache pesan
- Pemikiran yang disisipi memperkuat pembatalan cache, karena blok pemikiran dapat terjadi di antara beberapa panggilan alat
- Prompt sistem dan alat tetap di-cache meskipun ada perubahan parameter pemikiran atau penghapusan blok
Meskipun blok pemikiran dihapus untuk penyimpanan dan perhitungan konteks, mereka harus dipertahankan saat melanjutkan percakapan dengan penggunaan alat, terutama dengan pemikiran yang disisipi.
Memahami perilaku penyimpanan blok pemikiran
Saat menggunakan pemikiran yang diperluas dengan penggunaan alat, blok pemikiran menunjukkan perilaku penyimpanan tertentu yang mempengaruhi penghitungan token: Cara kerjanya:- Penyimpanan hanya terjadi ketika Anda membuat permintaan berikutnya yang mencakup hasil alat
- Ketika permintaan berikutnya dibuat, riwayat percakapan sebelumnya (termasuk blok pemikiran) dapat di-cache
- Blok pemikiran yang di-cache ini dihitung sebagai token input dalam metrik penggunaan Anda saat dibaca dari cache
- Ketika blok pengguna non-hasil-alat disertakan, semua blok pemikiran sebelumnya diabaikan dan dihapus dari konteks
- Perilaku penyimpanan ini terjadi secara otomatis, bahkan tanpa penanda
cache_controleksplisit - Perilaku ini konsisten apakah menggunakan pemikiran reguler atau pemikiran yang disisipi
Penyimpanan prompt sistem (dipertahankan saat pemikiran berubah)
Penyimpanan prompt sistem (dipertahankan saat pemikiran berubah)
Penyimpanan pesan (tidak valid saat pemikiran berubah)
Penyimpanan pesan (tidak valid saat pemikiran berubah)
cache_creation_input_tokens=1370 dan cache_read_input_tokens=0, membuktikan bahwa penyimpanan berbasis pesan tidak valid saat parameter pemikiran berubah.Token maksimal dan ukuran jendela konteks dengan pemikiran yang diperluas
Dalam model Claude yang lebih lama (sebelum Claude Sonnet 3.7), jika jumlah token prompt danmax_tokens melebihi jendela konteks model, sistem akan secara otomatis menyesuaikan max_tokens agar sesuai dalam batas konteks. Ini berarti Anda dapat mengatur nilai max_tokens yang besar dan sistem akan secara diam-diam menguranginya sesuai kebutuhan.
Dengan model Claude 3.7 dan 4, max_tokens (yang mencakup anggaran pemikiran Anda saat pemikiran diaktifkan) diberlakukan sebagai batas ketat. Sistem sekarang akan mengembalikan kesalahan validasi jika token prompt + max_tokens melebihi ukuran jendela konteks.
Anda dapat membaca panduan kami tentang jendela konteks untuk penyelaman yang lebih mendalam.
Jendela konteks dengan pemikiran yang diperluas
Saat menghitung penggunaan jendela konteks dengan pemikiran diaktifkan, ada beberapa pertimbangan yang harus diperhatikan:- Blok pemikiran dari giliran sebelumnya dihapus dan tidak dihitung terhadap jendela konteks Anda
- Pemikiran giliran saat ini dihitung terhadap batas
max_tokensAnda untuk giliran itu
Jendela konteks dengan pemikiran yang diperluas dan penggunaan alat
Saat menggunakan pemikiran yang diperluas dengan penggunaan alat, blok pemikiran harus secara eksplisit dipertahankan dan dikembalikan dengan hasil alat. Perhitungan jendela konteks yang efektif untuk pemikiran yang diperluas dengan penggunaan alat menjadi:Mengelola token dengan pemikiran yang diperluas
Mengingat perilaku jendela konteks danmax_tokens dengan pemikiran yang diperluas Claude 3.7 dan model 4, Anda mungkin perlu:
- Lebih aktif memantau dan mengelola penggunaan token Anda
- Menyesuaikan nilai
max_tokenssaat panjang prompt Anda berubah - Berpotensi menggunakan endpoint penghitungan token lebih sering
- Menyadari bahwa blok pemikiran sebelumnya tidak terakumulasi dalam jendela konteks Anda
Enkripsi pemikiran
Konten pemikiran penuh dienkripsi dan dikembalikan dalam bidangsignature. Bidang ini digunakan untuk memverifikasi bahwa blok pemikiran dihasilkan oleh Claude saat dilewatkan kembali ke API.
Hanya benar-benar diperlukan untuk mengirim kembali blok pemikiran saat menggunakan alat dengan pemikiran yang diperluas. Jika tidak, Anda dapat menghilangkan blok pemikiran dari giliran sebelumnya, atau membiarkan API menghapusnya untuk Anda jika Anda melewatkannya kembali.Jika mengirim kembali blok pemikiran, kami merekomendasikan melewatkan semuanya kembali seperti yang Anda terima untuk konsistensi dan untuk menghindari potensi masalah.
- Saat streaming respons, tanda tangan ditambahkan melalui
signature_deltadi dalam acaracontent_block_deltatepat sebelum acaracontent_block_stop. - Nilai
signaturesecara signifikan lebih panjang dalam model Claude 4 daripada dalam model sebelumnya. - Bidang
signatureadalah bidang buram dan tidak boleh diinterpretasikan atau diurai - bidang ini hanya ada untuk tujuan verifikasi. - Nilai
signaturekompatibel di seluruh platform (API Claude, Amazon Bedrock, dan Vertex AI). Nilai yang dihasilkan di satu platform akan kompatibel dengan platform lain.
Redaksi pemikiran
Kadang-kadang penalaran internal Claude akan ditandai oleh sistem keselamatan kami. Ketika ini terjadi, kami mengenkripsi beberapa atau semua blokthinking dan mengembalikannya kepada Anda sebagai blok redacted_thinking. Blok redacted_thinking didekripsi saat dilewatkan kembali ke API, memungkinkan Claude untuk melanjutkan responsnya tanpa kehilangan konteks.
Saat membangun aplikasi yang menghadap pelanggan yang menggunakan pemikiran yang diperluas:
- Sadari bahwa blok pemikiran yang diredaksi berisi konten terenkripsi yang tidak dapat dibaca manusia
- Pertimbangkan memberikan penjelasan sederhana seperti: “Beberapa penalaran internal Claude telah secara otomatis dienkripsi untuk alasan keselamatan. Ini tidak mempengaruhi kualitas respons.”
- Jika menampilkan blok pemikiran kepada pengguna, Anda dapat memfilter blok yang diredaksi sambil mempertahankan blok pemikiran normal
- Jadilah transparan bahwa menggunakan fitur pemikiran yang diperluas dapat menghasilkan beberapa penalaran yang dienkripsi
- Implementasikan penanganan kesalahan yang sesuai untuk mengelola pemikiran yang diredaksi dengan anggun tanpa merusak UI Anda
Melihat blok pemikiran yang diredaksi dalam output Anda adalah perilaku yang diharapkan. Model masih dapat menggunakan penalaran yang diredaksi ini untuk menginformasikan responsnya sambil mempertahankan penjaga keselamatan.Jika Anda perlu menguji penanganan pemikiran yang diredaksi dalam aplikasi Anda, Anda dapat menggunakan string uji khusus ini sebagai prompt Anda:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CBthinking dan redacted_thinking kembali ke API dalam percakapan multi-giliran, Anda harus menyertakan blok yang tidak dimodifikasi sepenuhnya kembali ke API untuk giliran asisten terakhir. Ini sangat penting untuk mempertahankan aliran penalaran model. Kami menyarankan selalu melewatkan semua blok pemikiran kembali ke API. Untuk detail lebih lanjut, lihat bagian Mempertahankan blok pemikiran di atas.
Contoh: Bekerja dengan blok pemikiran yang diredaksi
Contoh: Bekerja dengan blok pemikiran yang diredaksi
Contoh ini menunjukkan cara menangani blok
redacted_thinking yang mungkin muncul dalam respons ketika penalaran internal Claude berisi konten yang ditandai oleh sistem keselamatan:Perbedaan dalam pemikiran di seluruh versi model
API Pesan menangani pemikiran secara berbeda di seluruh model Claude Sonnet 3.7 dan Claude 4, terutama dalam perilaku redaksi dan ringkasan. Lihat tabel di bawah untuk perbandingan yang dipadatkan:| Fitur | Claude Sonnet 3.7 | Model Claude 4 |
|---|---|---|
| Output Pemikiran | Mengembalikan output pemikiran penuh | Mengembalikan pemikiran yang diringkas |
| Pemikiran yang Disisipi | Tidak didukung | Didukung dengan header beta interleaved-thinking-2025-05-14 |
Harga
Pem ikiran yang diperluas menggunakan skema harga token standar:| Model | Token Input Dasar | Penulisan Cache | Cache Hit | Token Output |
|---|---|---|---|---|
| Claude Opus 4.1 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
| Claude Opus 4 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
| Claude Sonnet 4.5 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
| Claude Sonnet 4 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
| Claude Sonnet 3.7 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
- Token yang digunakan selama pemikiran (token output)
- Blok pemikiran dari giliran asisten terakhir yang disertakan dalam permintaan berikutnya (token input)
- Token output teks standar
Ketika pemikiran yang diperluas diaktifkan, prompt sistem khusus secara otomatis disertakan untuk mendukung fitur ini.
- Token input: Token dalam permintaan asli Anda (mengecualikan token pemikiran dari giliran sebelumnya)
- Token output (ditagih): Token pemikiran asli yang dihasilkan Claude secara internal
- Token output (terlihat): Token pemikiran yang diringkas yang Anda lihat dalam respons
- Tidak ada biaya: Token yang digunakan untuk menghasilkan ringkasan
Jumlah token output yang ditagih akan tidak cocok dengan jumlah token yang terlihat dalam respons. Anda dikenakan biaya untuk proses pemikiran penuh, bukan ringkasan yang Anda lihat.
Praktik terbaik dan pertimbangan untuk pemikiran yang diperluas
Bekerja dengan anggaran pemikiran
- Optimasi anggaran: Anggaran minimum adalah 1.024 token. Kami menyarankan memulai dengan minimum dan meningkatkan anggaran pemikiran secara bertahap untuk menemukan rentang optimal untuk kasus penggunaan Anda. Jumlah token yang lebih tinggi memungkinkan penalaran yang lebih komprehensif tetapi dengan hasil yang berkurang tergantung pada tugas. Meningkatkan anggaran dapat meningkatkan kualitas respons dengan mengorbankan latensi yang meningkat. Untuk tugas-tugas penting, uji pengaturan berbeda untuk menemukan keseimbangan optimal. Perhatikan bahwa anggaran pemikiran adalah target daripada batas ketat—penggunaan token aktual dapat bervariasi berdasarkan tugas.
- Titik awal: Mulai dengan anggaran pemikiran yang lebih besar (16k+ token) untuk tugas kompleks dan sesuaikan berdasarkan kebutuhan Anda.
- Anggaran besar: Untuk anggaran pemikiran di atas 32k, kami merekomendasikan menggunakan pemrosesan batch untuk menghindari masalah jaringan. Permintaan yang mendorong model untuk berpikir di atas 32k token menyebabkan permintaan yang berjalan lama yang mungkin mengalami batas waktu sistem dan batas koneksi terbuka.
- Pelacakan penggunaan token: Pantau penggunaan token pemikiran untuk mengoptimalkan biaya dan kinerja.
Pertimbangan kinerja
- Waktu respons: Bersiaplah untuk waktu respons yang berpotensi lebih lama karena pemrosesan tambahan yang diperlukan untuk proses penalaran. Faktor dalam bahwa menghasilkan blok pemikiran dapat meningkatkan waktu respons keseluruhan.
- Persyaratan streaming: Streaming diperlukan ketika
max_tokenslebih besar dari 21.333. Saat streaming, bersiaplah untuk menangani blok konten pemikiran dan teks saat tiba.
Kompatibilitas fitur
- Pemikiran tidak kompatibel dengan modifikasi
temperatureatautop_kserta penggunaan alat yang dipaksa. - Ketika pemikiran diaktifkan, Anda dapat mengatur
top_pke nilai antara 1 dan 0.95. - Anda tidak dapat mengisi respons sebelumnya ketika pemikiran diaktifkan.
- Perubahan pada anggaran pemikiran membatalkan awalan prompt yang di-cache yang mencakup pesan. Namun, prompt sistem yang di-cache dan definisi alat akan terus berfungsi saat parameter pemikiran berubah.
Panduan penggunaan
- Pemilihan tugas: Gunakan pemikiran yang diperluas untuk tugas-tugas yang sangat kompleks yang mendapat manfaat dari penalaran langkah demi langkah seperti matematika, pengkodean, dan analisis.
- Penanganan konteks: Anda tidak perlu menghapus blok pemikiran sebelumnya sendiri. API Claude secara otomatis mengabaikan blok pemikiran dari giliran sebelumnya dan tidak disertakan saat menghitung penggunaan konteks.
- Rekayasa prompt: Tinjau tips prompt pemikiran yang diperluas kami jika Anda ingin memaksimalkan kemampuan pemikiran Claude.