Membangun dengan pemikiran yang diperluas

Pemikiran yang diperluas memberikan Claude kemampuan penalaran yang ditingkatkan untuk tugas-tugas kompleks, sambil memberikan tingkat transparansi yang berbeda-beda ke dalam proses pemikiran langkah demi langkah sebelum memberikan jawaban akhirnya.

Model yang didukung

Pemikiran yang diperluas didukung dalam model berikut:

Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
Claude Sonnet 4 (claude-sonnet-4-20250514)
Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (tidak direkomendasikan)
Claude Haiku 4.5 (claude-haiku-4-5-20251001)
Claude Opus 4.1 (claude-opus-4-1-20250805)
Claude Opus 4 (claude-opus-4-20250514)

Perilaku API berbeda di seluruh model Claude Sonnet 3.7 dan Claude 4, tetapi bentuk API tetap sama persis.Untuk informasi lebih lanjut, lihat Perbedaan dalam pemikiran di seluruh versi model.

Cara kerja pemikiran yang diperluas

Ketika pemikiran yang diperluas diaktifkan, Claude membuat blok konten thinking di mana ia mengeluarkan penalaran internalnya. Claude menggabungkan wawasan dari penalaran ini sebelum menyusun respons akhir. Respons API akan mencakup blok konten thinking, diikuti oleh blok konten text. Berikut adalah contoh format respons default:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Mari saya analisis ini langkah demi langkah...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "Berdasarkan analisis saya..."
    }
  ]
}

Untuk informasi lebih lanjut tentang format respons pemikiran yang diperluas, lihat Referensi API Pesan.

Cara menggunakan pemikiran yang diperluas

Berikut adalah contoh penggunaan pemikiran yang diperluas dalam API Pesan:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Apakah ada jumlah bilangan prima yang tak terbatas sehingga n mod 4 == 3?"
        }
    ]
}'

Untuk mengaktifkan pemikiran yang diperluas, tambahkan objek thinking, dengan parameter type diatur ke enabled dan budget_tokens ke anggaran token yang ditentukan untuk pemikiran yang diperluas. Parameter budget_tokens menentukan jumlah maksimum token yang diizinkan Claude gunakan untuk proses penalaran internalnya. Dalam model Claude 4, batas ini berlaku untuk token pemikiran penuh, dan bukan untuk output yang diringkas. Anggaran yang lebih besar dapat meningkatkan kualitas respons dengan memungkinkan analisis yang lebih menyeluruh untuk masalah kompleks, meskipun Claude mungkin tidak menggunakan seluruh anggaran yang dialokasikan, terutama pada rentang di atas 32k. budget_tokens harus diatur ke nilai kurang dari max_tokens. Namun, saat menggunakan pemikiran yang disisipi dengan alat, Anda dapat melampaui batas ini karena batas token menjadi seluruh jendela konteks Anda (200k token).

Pemikiran yang diringkas

Dengan pemikiran yang diperluas diaktifkan, API Pesan untuk model Claude 4 mengembalikan ringkasan dari proses pemikiran penuh Claude. Pemikiran yang diringkas memberikan manfaat intelijen penuh dari pemikiran yang diperluas, sambil mencegah penyalahgunaan. Berikut adalah beberapa pertimbangan penting untuk pemikiran yang diringkas:

Anda dikenakan biaya untuk token pemikiran penuh yang dihasilkan oleh permintaan asli, bukan token ringkasan.
Jumlah token output yang ditagih akan tidak cocok dengan jumlah token yang Anda lihat dalam respons.
Beberapa baris pertama dari output pemikiran lebih verbose, memberikan penalaran terperinci yang sangat membantu untuk tujuan rekayasa prompt.
Saat Anthropic berusaha meningkatkan fitur pemikiran yang diperluas, perilaku ringkasan dapat berubah.
Ringkasan mempertahankan ide-ide kunci dari proses pemikiran Claude dengan latensi tambahan minimal, memungkinkan pengalaman pengguna yang dapat dialirkan dan migrasi mudah dari Claude Sonnet 3.7 ke model Claude 4.
Ringkasan diproses oleh model yang berbeda dari yang Anda targetkan dalam permintaan Anda. Model pemikiran tidak melihat output yang diringkas.

Claude Sonnet 3.7 terus mengembalikan output pemikiran penuh.Dalam kasus langka di mana Anda memerlukan akses ke output pemikiran penuh untuk model Claude 4, hubungi tim penjualan kami.

Pemikiran streaming

Anda dapat melakukan streaming respons pemikiran yang diperluas menggunakan server-sent events (SSE). Ketika streaming diaktifkan untuk pemikiran yang diperluas, Anda menerima konten pemikiran melalui acara thinking_delta. Untuk dokumentasi lebih lanjut tentang streaming melalui API Pesan, lihat Streaming Pesan. Berikut adalah cara menangani streaming dengan pemikiran:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Berapa 27 * 453?"
        }
    ]
}'

Coba di Konsol

Contoh output streaming:

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-5", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Mari saya selesaikan ini langkah demi langkah:\n\n1. Pertama pecahkan 27 * 453"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}

// Delta pemikiran tambahan...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12.231"}}

// Delta teks tambahan...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

Saat menggunakan streaming dengan pemikiran diaktifkan, Anda mungkin memperhatikan bahwa teks kadang-kadang tiba dalam potongan yang lebih besar bergantian dengan pengiriman token demi token yang lebih kecil. Ini adalah perilaku yang diharapkan, terutama untuk konten pemikiran.Sistem streaming perlu memproses konten dalam batch untuk kinerja optimal, yang dapat menghasilkan pola pengiriman “chunky” ini, dengan kemungkinan penundaan antara acara streaming. Kami terus bekerja untuk meningkatkan pengalaman ini, dengan pembaruan di masa depan berfokus pada membuat konten pemikiran mengalir lebih lancar.

Pemikiran yang diperluas dengan penggunaan alat

Pemikiran yang diperluas dapat digunakan bersama dengan penggunaan alat, memungkinkan Claude untuk bernalar melalui pemilihan alat dan pemrosesan hasil. Saat menggunakan pemikiran yang diperluas dengan penggunaan alat, perhatikan batasan berikut:

Batasan pilihan alat: Penggunaan alat dengan pemikiran hanya mendukung tool_choice: {"type": "auto"} (default) atau tool_choice: {"type": "none"}. Menggunakan tool_choice: {"type": "any"} atau tool_choice: {"type": "tool", "name": "..."} akan menghasilkan kesalahan karena opsi ini memaksa penggunaan alat, yang tidak kompatibel dengan pemikiran yang diperluas.
Mempertahankan blok pemikiran: Selama penggunaan alat, Anda harus melewatkan blok thinking kembali ke API untuk pesan asisten terakhir. Sertakan blok yang tidak dimodifikasi sepenuhnya kembali ke API untuk mempertahankan kontinuitas penalaran.

Mengalihkan mode pemikiran dalam percakapan

Anda tidak dapat mengalihkan pemikiran di tengah giliran asisten, termasuk selama loop penggunaan alat. Seluruh giliran asisten harus beroperasi dalam mode pemikiran tunggal:

Jika pemikiran diaktifkan, giliran asisten akhir harus dimulai dengan blok pemikiran.
Jika pemikiran dinonaktifkan, giliran asisten akhir tidak boleh berisi blok pemikiran apa pun

Dari perspektif model, loop penggunaan alat adalah bagian dari giliran asisten. Giliran asisten tidak selesai sampai Claude menyelesaikan respons penuhnya, yang mungkin mencakup beberapa panggilan alat dan hasil. Misalnya, urutan ini semuanya bagian dari satu giliran asisten:

Pengguna: "Bagaimana cuaca di Paris?"
Asisten: [pemikiran] + [penggunaan_alat: dapatkan_cuaca]
Pengguna: [hasil_alat: "20°C, cerah"]
Asisten: [teks: "Cuaca di Paris adalah 20°C dan cerah"]

Meskipun ada beberapa pesan API, loop penggunaan alat secara konseptual adalah bagian dari satu respons asisten yang berkelanjutan.

Skenario kesalahan umum

Anda mungkin mengalami kesalahan ini:

Diharapkan `thinking` atau `redacted_thinking`, tetapi ditemukan `tool_use`.
Ketika `thinking` diaktifkan, pesan `assistant` akhir harus dimulai
dengan blok pemikiran (mendahului set terakhir blok `tool_use` dan
`tool_result`).

Ini biasanya terjadi ketika:

Anda memiliki pemikiran dinonaktifkan selama urutan penggunaan alat
Anda ingin mengaktifkan pemikiran lagi
Pesan asisten terakhir Anda berisi blok penggunaan alat tetapi tidak ada blok pemikiran

Panduan praktis

✗ Tidak valid: Mengalihkan pemikiran segera setelah penggunaan alat

Pengguna: "Bagaimana cuacanya?"
Asisten: [penggunaan_alat] (pemikiran dinonaktifkan)
Pengguna: [hasil_alat]
// Tidak dapat mengaktifkan pemikiran di sini - masih dalam giliran asisten yang sama

✓ Valid: Selesaikan giliran asisten terlebih dahulu

Pengguna: "Bagaimana cuacanya?"
Asisten: [penggunaan_alat] (pemikiran dinonaktifkan)
Pengguna: [hasil_alat]
Asisten: [teks: "Cerah"] 
Pengguna: "Bagaimana besok?" (pemikiran dinonaktifkan)
Asisten: [pemikiran] + [teks: "..."] (pemikiran diaktifkan - giliran baru)

Praktik terbaik: Rencanakan strategi pemikiran Anda di awal setiap giliran daripada mencoba mengalihkan di tengah giliran.

Mengalihkan mode pemikiran juga membatalkan penyimpanan prompt untuk riwayat pesan. Untuk detail lebih lanjut, lihat bagian Pemikiran yang diperluas dengan penyimpanan prompt.

Contoh: Melewatkan blok pemikiran dengan hasil alat

Berikut adalah contoh praktis yang menunjukkan cara mempertahankan blok pemikiran saat memberikan hasil alat:

weather_tool = {
    "name": "get_weather",
    "description": "Dapatkan cuaca saat ini untuk lokasi",
    "input_schema": {
        "type": "object",
        "properties": {
            "location": {"type": "string"}
        },
        "required": ["location"]
    }
}

# Permintaan pertama - Claude merespons dengan pemikiran dan permintaan alat
response = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[weather_tool],
    messages=[
        {"role": "user", "content": "Bagaimana cuaca di Paris?"}
    ]
)

Respons API akan mencakup blok pemikiran, teks, dan penggunaan_alat:

{
    "content": [
        {
            "type": "thinking",
            "thinking": "Pengguna ingin mengetahui cuaca saat ini di Paris. Saya memiliki akses ke fungsi `get_weather`...",
            "signature": "BDaL4VrbR2Oj0hO4XpJxT28J5TILnCrrUXoKiiNBZW9P+nr8XSj1zuZzAl4egiCCpQNvfyUuFFJP5CncdYZEQPPmLxYsNrcs...."
        },
        {
            "type": "text",
            "text": "Saya dapat membantu Anda mendapatkan informasi cuaca saat ini untuk Paris. Mari saya periksa itu untuk Anda"
        },
        {
            "type": "tool_use",
            "id": "toolu_01CswdEQBMshySk6Y9DFKrfq",
            "name": "get_weather",
            "input": {
                "location": "Paris"
            }
        }
    ]
}

Sekarang mari kita lanjutkan percakapan dan gunakan alat

# Ekstrak blok pemikiran dan blok penggunaan alat
thinking_block = next((block for block in response.content
                      if block.type == 'thinking'), None)
tool_use_block = next((block for block in response.content
                      if block.type == 'tool_use'), None)

# Panggil API cuaca aktual Anda, di sini adalah tempat panggilan API aktual Anda akan dilakukan
# mari kita pura-pura ini adalah apa yang kami dapatkan kembali
weather_data = {"temperature": 88}

# Permintaan kedua - Sertakan blok pemikiran dan hasil alat
# Tidak ada blok pemikiran baru yang akan dihasilkan dalam respons
continuation = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[weather_tool],
    messages=[
        {"role": "user", "content": "Bagaimana cuaca di Paris?"},
        # perhatikan bahwa thinking_block dilewatkan bersama dengan tool_use_block
        # jika ini tidak dilewatkan, kesalahan akan dimunculkan
        {"role": "assistant", "content": [thinking_block, tool_use_block]},
        {"role": "user", "content": [{
            "type": "tool_result",
            "tool_use_id": tool_use_block.id,
            "content": f"Suhu saat ini: {weather_data['temperature']}°F"
        }]}
    ]
)

Respons API sekarang akan hanya mencakup teks

{
    "content": [
        {
            "type": "text",
            "text": "Saat ini di Paris, suhu adalah 88°F (31°C)"
        }
    ]
}

Mempertahankan blok pemikiran

Selama penggunaan alat, Anda harus melewatkan blok thinking kembali ke API, dan Anda harus menyertakan blok yang tidak dimodifikasi sepenuhnya kembali ke API. Ini sangat penting untuk mempertahankan aliran penalaran model dan integritas percakapan.

Meskipun Anda dapat menghilangkan blok thinking dari giliran assistant sebelumnya, kami menyarankan selalu melewatkan semua blok pemikiran kembali ke API untuk percakapan multi-giliran apa pun. API akan:

Secara otomatis memfilter blok pemikiran yang disediakan
Menggunakan blok pemikiran yang relevan yang diperlukan untuk mempertahankan penalaran model
Hanya menagih token input untuk blok yang ditampilkan ke Claude

Saat mengalihkan mode pemikiran selama percakapan, ingat bahwa seluruh giliran asisten (termasuk loop penggunaan alat) harus beroperasi dalam mode pemikiran tunggal. Untuk detail lebih lanjut, lihat Mengalihkan mode pemikiran dalam percakapan.

Ketika Claude memanggil alat, ia sedang menjeda konstruksi respons untuk menunggu informasi eksternal. Ketika hasil alat dikembalikan, Claude akan melanjutkan membangun respons yang ada. Ini memerlukan pempertahanan blok pemikiran selama penggunaan alat, untuk beberapa alasan:

Kontinuitas penalaran: Blok pemikiran menangkap penalaran langkah demi langkah Claude yang menyebabkan permintaan alat. Ketika Anda memposting hasil alat, menyertakan pemikiran asli memastikan Claude dapat melanjutkan penalarannya dari tempat ia berhenti.
Pemeliharaan konteks: Meskipun hasil alat muncul sebagai pesan pengguna dalam struktur API, mereka adalah bagian dari aliran penalaran yang berkelanjutan. Mempertahankan blok pemikiran mempertahankan aliran konseptual ini di seluruh beberapa panggilan API. Untuk informasi lebih lanjut tentang manajemen konteks, lihat panduan kami tentang jendela konteks.

Penting: Saat memberikan blok thinking, seluruh urutan blok thinking berturut-turut harus cocok dengan output yang dihasilkan oleh model selama permintaan asli; Anda tidak dapat mengatur ulang atau memodifikasi urutan blok ini.

Pemikiran yang disisipi

Pemikiran yang diperluas dengan penggunaan alat dalam model Claude 4 mendukung pemikiran yang disisipi, yang memungkinkan Claude untuk berpikir di antara panggilan alat dan membuat penalaran yang lebih canggih setelah menerima hasil alat. Dengan pemikiran yang disisipi, Claude dapat:

Bernalar tentang hasil panggilan alat sebelum memutuskan apa yang harus dilakukan selanjutnya
Menghubungkan beberapa panggilan alat dengan langkah penalaran di antara
Membuat keputusan yang lebih bernuansa berdasarkan hasil perantara

Untuk mengaktifkan pemikiran yang disisipi, tambahkan header beta interleaved-thinking-2025-05-14 ke permintaan API Anda. Berikut adalah beberapa pertimbangan penting untuk pemikiran yang disisipi:

Dengan pemikiran yang disisipi, budget_tokens dapat melebihi parameter max_tokens, karena mewakili total anggaran di semua blok pemikiran dalam satu giliran asisten.
Pemikiran yang disisipi hanya didukung untuk alat yang digunakan melalui API Pesan.
Pemikiran yang disisipi didukung untuk model Claude 4 hanya, dengan header beta interleaved-thinking-2025-05-14.
Panggilan langsung ke API Claude memungkinkan Anda melewatkan interleaved-thinking-2025-05-14 dalam permintaan ke model apa pun, tanpa efek.
Pada platform pihak ketiga (misalnya, Amazon Bedrock dan Vertex AI), jika Anda melewatkan interleaved-thinking-2025-05-14 ke model apa pun selain Claude Opus 4.1, Opus 4, atau Sonnet 4, permintaan Anda akan gagal.

Penggunaan alat tanpa pemikiran yang disisipi

import anthropic

client = anthropic.Anthropic()

# Tentukan alat
calculator_tool = {
    "name": "calculator",
    "description": "Lakukan perhitungan matematika",
    "input_schema": {
        "type": "object",
        "properties": {
            "expression": {
                "type": "string",
                "description": "Ekspresi matematika untuk dievaluasi"
            }
        },
        "required": ["expression"]
    }
}

database_tool = {
    "name": "database_query",
    "description": "Kueri basis data produk",
    "input_schema": {
        "type": "object",
        "properties": {
            "query": {
                "type": "string",
                "description": "Kueri SQL untuk dieksekusi"
            }
        },
        "required": ["query"]
    }
}

# Permintaan pertama - Claude berpikir sekali sebelum semua panggilan alat
response = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[calculator_tool, database_tool],
    messages=[{
        "role": "user",
        "content": "Berapa total pendapatan jika kami menjual 150 unit produk A dengan harga $50 masing-masing, dan bagaimana ini dibandingkan dengan pendapatan bulanan rata-rata kami dari basis data?"
    }]
)

# Respons mencakup pemikiran diikuti oleh penggunaan alat
# Catatan: Claude berpikir sekali di awal, kemudian membuat semua keputusan alat
print("Respons pertama:")
for block in response.content:
    if block.type == "thinking":
        print(f"Pemikiran (diringkas): {block.thinking}")
    elif block.type == "tool_use":
        print(f"Penggunaan alat: {block.name} dengan input {block.input}")
    elif block.type == "text":
        print(f"Teks: {block.text}")

# Anda akan menjalankan alat dan mengembalikan hasil...
# Setelah mendapatkan kedua hasil alat kembali, Claude langsung merespons tanpa pemikiran tambahan

Dalam contoh ini tanpa pemikiran yang disisipi:

Claude berpikir sekali di awal untuk memahami tugas
Membuat semua keputusan penggunaan alat di muka
Ketika hasil alat dikembalikan, Claude segera memberikan respons tanpa pemikiran tambahan

Penggunaan alat dengan pemikiran yang disisipi

import anthropic

client = anthropic.Anthropic()

# Definisi alat yang sama seperti sebelumnya
calculator_tool = {
    "name": "calculator",
    "description": "Lakukan perhitungan matematika",
    "input_schema": {
        "type": "object",
        "properties": {
            "expression": {
                "type": "string",
                "description": "Ekspresi matematika untuk dievaluasi"
            }
        },
        "required": ["expression"]
    }
}

database_tool = {
    "name": "database_query",
    "description": "Kueri basis data produk",
    "input_schema": {
        "type": "object",
        "properties": {
            "query": {
                "type": "string",
                "description": "Kueri SQL untuk dieksekusi"
            }
        },
        "required": ["query"]
    }
}

# Permintaan pertama dengan pemikiran yang disisipi diaktifkan
response = client.beta.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[calculator_tool, database_tool],
    betas=["interleaved-thinking-2025-05-14"],
    messages=[{
        "role": "user",
        "content": "Berapa total pendapatan jika kami menjual 150 unit produk A dengan harga $50 masing-masing, dan bagaimana ini dibandingkan dengan pendapatan bulanan rata-rata kami dari basis data?"
    }]
)

print("Respons awal:")
thinking_blocks = []
tool_use_blocks = []

for block in response.content:
    if block.type == "thinking":
        thinking_blocks.append(block)
        print(f"Pemikiran: {block.thinking}")
    elif block.type == "tool_use":
        tool_use_blocks.append(block)
        print(f"Penggunaan alat: {block.name} dengan input {block.input}")
    elif block.type == "text":
        print(f"Teks: {block.text}")

# Hasil alat pertama (kalkulator)
calculator_result = "7500"  # 150 * 50

# Lanjutkan dengan hasil alat pertama
response2 = client.beta.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[calculator_tool, database_tool],
    betas=["interleaved-thinking-2025-05-14"],
    messages=[
        {
            "role": "user",
            "content": "Berapa total pendapatan jika kami menjual 150 unit produk A dengan harga $50 masing-masing, dan bagaimana ini dibandingkan dengan pendapatan bulanan rata-rata kami dari basis data?"
        },
        {
            "role": "assistant",
            "content": [thinking_blocks[0], tool_use_blocks[0]]
        },
        {
            "role": "user",
            "content": [{
                "type": "tool_result",
                "tool_use_id": tool_use_blocks[0].id,
                "content": calculator_result
            }]
        }
    ]
)

print("\nSetelah hasil kalkulator:")
# Dengan pemikiran yang disisipi, Claude dapat berpikir tentang hasil kalkulator
# sebelum memutuskan untuk menanyakan basis data
for block in response2.content:
    if block.type == "thinking":
        thinking_blocks.append(block)
        print(f"Pemikiran yang disisipi: {block.thinking}")
    elif block.type == "tool_use":
        tool_use_blocks.append(block)
        print(f"Penggunaan alat: {block.name} dengan input {block.input}")

# Hasil alat kedua (basis data)
database_result = "5200"  # Contoh pendapatan bulanan rata-rata

# Lanjutkan dengan hasil alat kedua
response3 = client.beta.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    tools=[calculator_tool, database_tool],
    betas=["interleaved-thinking-2025-05-14"],
    messages=[
        {
            "role": "user",
            "content": "Berapa total pendapatan jika kami menjual 150 unit produk A dengan harga $50 masing-masing, dan bagaimana ini dibandingkan dengan pendapatan bulanan rata-rata kami dari basis data?"
        },
        {
            "role": "assistant",
            "content": [thinking_blocks[0], tool_use_blocks[0]]
        },
        {
            "role": "user",
            "content": [{
                "type": "tool_result",
                "tool_use_id": tool_use_blocks[0].id,
                "content": calculator_result
            }]
        },
        {
            "role": "assistant",
            "content": thinking_blocks[1:] + tool_use_blocks[1:]
        },
        {
            "role": "user",
            "content": [{
                "type": "tool_result",
                "tool_use_id": tool_use_blocks[1].id,
                "content": database_result
            }]
        }
    ]
)

print("\nSetelah hasil basis data:")
# Dengan pemikiran yang disisipi, Claude dapat berpikir tentang kedua hasil
# sebelum merumuskan respons akhir
for block in response3.content:
    if block.type == "thinking":
        print(f"Pemikiran akhir: {block.thinking}")
    elif block.type == "text":
        print(f"Respons akhir: {block.text}")

Dalam contoh ini dengan pemikiran yang disisipi:

Claude berpikir tentang tugas awal
Setelah menerima hasil kalkulator, Claude dapat berpikir lagi tentang apa arti hasil itu
Claude kemudian memutuskan cara menanyakan basis data berdasarkan hasil pertama
Setelah menerima hasil basis data, Claude berpikir sekali lagi tentang kedua hasil sebelum merumuskan respons akhir
Anggaran pemikiran didistribusikan di semua blok pemikiran dalam giliran

Pola ini memungkinkan rantai penalaran yang lebih canggih di mana output setiap alat menginformasikan keputusan berikutnya.

Pemikiran yang diperluas dengan penyimpanan prompt

Penyimpanan prompt dengan pemikiran memiliki beberapa pertimbangan penting:

Tugas pemikiran yang diperluas sering kali memakan waktu lebih dari 5 menit untuk diselesaikan. Pertimbangkan menggunakan durasi cache 1 jam untuk mempertahankan cache hit di seluruh sesi pemikiran yang lebih lama dan alur kerja multi-langkah.

Penghapusan konteks blok pemikiran

Blok pemikiran dari giliran sebelumnya dihapus dari konteks, yang dapat mempengaruhi titik cache
Saat melanjutkan percakapan dengan penggunaan alat, blok pemikiran di-cache dan dihitung sebagai token input saat dibaca dari cache
Ini menciptakan pertukaran: meskipun blok pemikiran tidak mengonsumsi ruang jendela konteks secara visual, mereka tetap dihitung terhadap penggunaan token input Anda saat di-cache
Jika pemikiran menjadi dinonaktifkan, permintaan akan gagal jika Anda melewatkan konten pemikiran dalam giliran penggunaan alat saat ini. Dalam konteks lain, konten pemikiran yang dilewatkan ke API hanya diabaikan

Pola pembatalan cache

Perubahan parameter pemikiran (diaktifkan/dinonaktifkan atau alokasi anggaran) membatalkan titik cache pesan
Pemikiran yang disisipi memperkuat pembatalan cache, karena blok pemikiran dapat terjadi di antara beberapa panggilan alat
Prompt sistem dan alat tetap di-cache meskipun ada perubahan parameter pemikiran atau penghapusan blok

Meskipun blok pemikiran dihapus untuk penyimpanan dan perhitungan konteks, mereka harus dipertahankan saat melanjutkan percakapan dengan penggunaan alat, terutama dengan pemikiran yang disisipi.

Memahami perilaku penyimpanan blok pemikiran

Saat menggunakan pemikiran yang diperluas dengan penggunaan alat, blok pemikiran menunjukkan perilaku penyimpanan tertentu yang mempengaruhi penghitungan token: Cara kerjanya:

Penyimpanan hanya terjadi ketika Anda membuat permintaan berikutnya yang mencakup hasil alat
Ketika permintaan berikutnya dibuat, riwayat percakapan sebelumnya (termasuk blok pemikiran) dapat di-cache
Blok pemikiran yang di-cache ini dihitung sebagai token input dalam metrik penggunaan Anda saat dibaca dari cache
Ketika blok pengguna non-hasil-alat disertakan, semua blok pemikiran sebelumnya diabaikan dan dihapus dari konteks

Contoh alur terperinci: Permintaan 1:

Pengguna: "Bagaimana cuaca di Paris?"

Respons 1:

[blok_pemikiran_1] + [blok penggunaan alat 1]

Permintaan 2:

Pengguna: ["Bagaimana cuaca di Paris?"], 
Asisten: [blok_pemikiran_1] + [blok penggunaan alat 1], 
Pengguna: [hasil_alat_1, cache=True]

Respons 2:

[blok_pemikiran_2] + [blok teks 2]

Permintaan 2 menulis cache dari konten permintaan (bukan respons). Cache mencakup pesan pengguna asli, blok pemikiran pertama, blok penggunaan alat, dan hasil alat. Permintaan 3:

Pengguna: ["Bagaimana cuaca di Paris?"], 
Asisten: [blok_pemikiran_1] + [blok penggunaan alat 1], 
Pengguna: [hasil_alat_1, cache=True], 
Asisten: [blok_pemikiran_2] + [blok teks 2], 
Pengguna: [Respons teks, cache=True]

Karena blok pengguna non-hasil-alat disertakan, semua blok pemikiran sebelumnya diabaikan. Permintaan ini akan diproses sama dengan:

Pengguna: ["Bagaimana cuaca di Paris?"], 
Asisten: [blok penggunaan alat 1], 
Pengguna: [hasil_alat_1, cache=True], 
Asisten: [blok teks 2], 
Pengguna: [Respons teks, cache=True]

Poin kunci:

Perilaku penyimpanan ini terjadi secara otomatis, bahkan tanpa penanda cache_control eksplisit
Perilaku ini konsisten apakah menggunakan pemikiran reguler atau pemikiran yang disisipi

Penyimpanan prompt sistem (dipertahankan saat pemikiran berubah)

from anthropic import Anthropic
import requests
from bs4 import BeautifulSoup

client = Anthropic()

def fetch_article_content(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Hapus elemen script dan style
    for script in soup(["script", "style"]):
        script.decompose()

    # Dapatkan teks
    text = soup.get_text()

    # Pecah menjadi baris dan hapus spasi di awal dan akhir setiap baris
    lines = (line.strip() for line in text.splitlines())
    # Pecah headline multi menjadi satu baris masing-masing
    chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
    # Hapus baris kosong
    text = '\n'.join(chunk for chunk in chunks if chunk)

    return text

# Ambil konten artikel
book_url = "https://www.gutenberg.org/cache/epub/1342/pg1342.txt"
book_content = fetch_article_content(book_url)
# Gunakan cukup teks untuk penyimpanan (beberapa bab pertama)
LARGE_TEXT = book_content[:5000]

SYSTEM_PROMPT=[
    {
        "type": "text",
        "text": "Anda adalah asisten AI yang ditugaskan dengan analisis sastra. Analisis teks berikut dengan cermat.",
    },
    {
        "type": "text",
        "text": LARGE_TEXT,
        "cache_control": {"type": "ephemeral"}
    }
]

MESSAGES = [
    {
        "role": "user",
        "content": "Analisis nada bagian ini."
    }
]

# Permintaan pertama - tetapkan cache
print("Permintaan pertama - menetapkan cache")
response1 = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 4000
    },
    system=SYSTEM_PROMPT,
    messages=MESSAGES
)

print(f"Penggunaan respons pertama: {response1.usage}")

MESSAGES.append({
    "role": "assistant",
    "content": response1.content
})
MESSAGES.append({
    "role": "user",
    "content": "Analisis karakter dalam bagian ini."
})
# Permintaan kedua - parameter pemikiran yang sama (cache hit diharapkan)
print("\nPermintaan kedua - parameter pemikiran yang sama (cache hit diharapkan)")
response2 = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 4000
    },
    system=SYSTEM_PROMPT,
    messages=MESSAGES
)

print(f"Penggunaan respons kedua: {response2.usage}")

# Permintaan ketiga - parameter pemikiran berbeda (cache miss untuk pesan)
print("\nPermintaan ketiga - parameter pemikiran berbeda (cache miss untuk pesan)")
response3 = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 8000  # Anggaran pemikiran berubah
    },
    system=SYSTEM_PROMPT,  # Prompt sistem tetap di-cache
    messages=MESSAGES  # Cache pesan tidak valid
)

print(f"Penggunaan respons ketiga: {response3.usage}")

Penyimpanan pesan (tidak valid saat pemikiran berubah)

from anthropic import Anthropic
import requests
from bs4 import BeautifulSoup

client = Anthropic()

def fetch_article_content(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Hapus elemen script dan style
    for script in soup(["script", "style"]):
        script.decompose()

    # Dapatkan teks
    text = soup.get_text()

    # Pecah menjadi baris dan hapus spasi di awal dan akhir setiap baris
    lines = (line.strip() for line in text.splitlines())
    # Pecah headline multi menjadi satu baris masing-masing
    chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
    # Hapus baris kosong
    text = '\n'.join(chunk for chunk in chunks if chunk)

    return text

# Ambil konten artikel
book_url = "https://www.gutenberg.org/cache/epub/1342/pg1342.txt"
book_content = fetch_article_content(book_url)
# Gunakan cukup teks untuk penyimpanan (beberapa bab pertama)
LARGE_TEXT = book_content[:5000]

# Tidak ada prompt sistem - penyimpanan dalam pesan sebagai gantinya
MESSAGES = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": LARGE_TEXT,
                "cache_control": {"type": "ephemeral"},
            },
            {
                "type": "text",
                "text": "Analisis nada bagian ini."
            }
        ]
    }
]

# Permintaan pertama - tetapkan cache
print("Permintaan pertama - menetapkan cache")
response1 = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 4000
    },
    messages=MESSAGES
)

print(f"Penggunaan respons pertama: {response1.usage}")

MESSAGES.append({
    "role": "assistant",
    "content": response1.content
})
MESSAGES.append({
    "role": "user",
    "content": "Analisis karakter dalam bagian ini."
})
# Permintaan kedua - parameter pemikiran yang sama (cache hit diharapkan)
print("\nPermintaan kedua - parameter pemikiran yang sama (cache hit diharapkan)")
response2 = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 4000  # Anggaran pemikiran yang sama
    },
    messages=MESSAGES
)

print(f"Penggunaan respons kedua: {response2.usage}")

MESSAGES.append({
    "role": "assistant",
    "content": response2.content
})
MESSAGES.append({
    "role": "user",
    "content": "Analisis pengaturan dalam bagian ini."
})

# Permintaan ketiga - anggaran pemikiran berbeda (cache miss diharapkan)
print("\nPermintaan ketiga - anggaran pemikiran berbeda (cache miss diharapkan)")
response3 = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=20000,
    thinking={
        "type": "enabled",
        "budget_tokens": 8000  # Anggaran pemikiran berbeda memecahkan cache
    },
    messages=MESSAGES
)

print(f"Penggunaan respons ketiga: {response3.usage}")

Berikut adalah output dari skrip (Anda mungkin melihat angka yang sedikit berbeda)

Permintaan pertama - menetapkan cache
Penggunaan respons pertama: { cache_creation_input_tokens: 1370, cache_read_input_tokens: 0, input_tokens: 17, output_tokens: 700 }

Permintaan kedua - parameter pemikiran yang sama (cache hit diharapkan)

Penggunaan respons kedua: { cache_creation_input_tokens: 0, cache_read_input_tokens: 1370, input_tokens: 303, output_tokens: 874 }

Permintaan ketiga - anggaran pemikiran berbeda (cache miss diharapkan)
Penggunaan respons ketiga: { cache_creation_input_tokens: 1370, cache_read_input_tokens: 0, input_tokens: 747, output_tokens: 619 }

Contoh ini menunjukkan bahwa ketika penyimpanan disiapkan dalam array pesan, mengubah parameter pemikiran (budget_tokens meningkat dari 4000 menjadi 8000) membatalkan cache. Permintaan ketiga menunjukkan tidak ada cache hit dengan cache_creation_input_tokens=1370 dan cache_read_input_tokens=0, membuktikan bahwa penyimpanan berbasis pesan tidak valid saat parameter pemikiran berubah.

Token maksimal dan ukuran jendela konteks dengan pemikiran yang diperluas

Dalam model Claude yang lebih lama (sebelum Claude Sonnet 3.7), jika jumlah token prompt dan max_tokens melebihi jendela konteks model, sistem akan secara otomatis menyesuaikan max_tokens agar sesuai dalam batas konteks. Ini berarti Anda dapat mengatur nilai max_tokens yang besar dan sistem akan secara diam-diam menguranginya sesuai kebutuhan. Dengan model Claude 3.7 dan 4, max_tokens (yang mencakup anggaran pemikiran Anda saat pemikiran diaktifkan) diberlakukan sebagai batas ketat. Sistem sekarang akan mengembalikan kesalahan validasi jika token prompt + max_tokens melebihi ukuran jendela konteks.

Anda dapat membaca panduan kami tentang jendela konteks untuk penyelaman yang lebih mendalam.

Jendela konteks dengan pemikiran yang diperluas

Saat menghitung penggunaan jendela konteks dengan pemikiran diaktifkan, ada beberapa pertimbangan yang harus diperhatikan:

Blok pemikiran dari giliran sebelumnya dihapus dan tidak dihitung terhadap jendela konteks Anda
Pemikiran giliran saat ini dihitung terhadap batas max_tokens Anda untuk giliran itu

Diagram di bawah menunjukkan manajemen token khusus saat pemikiran yang diperluas diaktifkan:

Diagram jendela konteks dengan pemikiran yang diperluas

Jendela konteks yang efektif dihitung sebagai:

jendela konteks =
  (token input saat ini - token pemikiran sebelumnya) +
  (token pemikiran + token pemikiran terenkripsi + token output teks)

Kami merekomendasikan menggunakan API penghitungan token untuk mendapatkan penghitungan token yang akurat untuk kasus penggunaan spesifik Anda, terutama saat bekerja dengan percakapan multi-giliran yang mencakup pemikiran.

Jendela konteks dengan pemikiran yang diperluas dan penggunaan alat

Saat menggunakan pemikiran yang diperluas dengan penggunaan alat, blok pemikiran harus secara eksplisit dipertahankan dan dikembalikan dengan hasil alat. Perhitungan jendela konteks yang efektif untuk pemikiran yang diperluas dengan penggunaan alat menjadi:

jendela konteks =
  (token input saat ini + token pemikiran sebelumnya + token penggunaan alat) +
  (token pemikiran + token pemikiran terenkripsi + token output teks)

Diagram di bawah mengilustrasikan manajemen token untuk pemikiran yang diperluas dengan penggunaan alat:

Diagram jendela konteks dengan pemikiran yang diperluas dan penggunaan alat

Mengelola token dengan pemikiran yang diperluas

Mengingat perilaku jendela konteks dan max_tokens dengan pemikiran yang diperluas Claude 3.7 dan model 4, Anda mungkin perlu:

Lebih aktif memantau dan mengelola penggunaan token Anda
Menyesuaikan nilai max_tokens saat panjang prompt Anda berubah
Berpotensi menggunakan endpoint penghitungan token lebih sering
Menyadari bahwa blok pemikiran sebelumnya tidak terakumulasi dalam jendela konteks Anda

Perubahan ini telah dilakukan untuk memberikan perilaku yang lebih dapat diprediksi dan transparan, terutama karena batas token maksimum telah meningkat secara signifikan.

Enkripsi pemikiran

Konten pemikiran penuh dienkripsi dan dikembalikan dalam bidang signature. Bidang ini digunakan untuk memverifikasi bahwa blok pemikiran dihasilkan oleh Claude saat dilewatkan kembali ke API.

Hanya benar-benar diperlukan untuk mengirim kembali blok pemikiran saat menggunakan alat dengan pemikiran yang diperluas. Jika tidak, Anda dapat menghilangkan blok pemikiran dari giliran sebelumnya, atau membiarkan API menghapusnya untuk Anda jika Anda melewatkannya kembali.Jika mengirim kembali blok pemikiran, kami merekomendasikan melewatkan semuanya kembali seperti yang Anda terima untuk konsistensi dan untuk menghindari potensi masalah.

Berikut adalah beberapa pertimbangan penting tentang enkripsi pemikiran:

Saat streaming respons, tanda tangan ditambahkan melalui signature_delta di dalam acara content_block_delta tepat sebelum acara content_block_stop.
Nilai signature secara signifikan lebih panjang dalam model Claude 4 daripada dalam model sebelumnya.
Bidang signature adalah bidang buram dan tidak boleh diinterpretasikan atau diurai - bidang ini hanya ada untuk tujuan verifikasi.
Nilai signature kompatibel di seluruh platform (API Claude, Amazon Bedrock, dan Vertex AI). Nilai yang dihasilkan di satu platform akan kompatibel dengan platform lain.

Redaksi pemikiran

Kadang-kadang penalaran internal Claude akan ditandai oleh sistem keselamatan kami. Ketika ini terjadi, kami mengenkripsi beberapa atau semua blok thinking dan mengembalikannya kepada Anda sebagai blok redacted_thinking. Blok redacted_thinking didekripsi saat dilewatkan kembali ke API, memungkinkan Claude untuk melanjutkan responsnya tanpa kehilangan konteks. Saat membangun aplikasi yang menghadap pelanggan yang menggunakan pemikiran yang diperluas:

Sadari bahwa blok pemikiran yang diredaksi berisi konten terenkripsi yang tidak dapat dibaca manusia
Pertimbangkan memberikan penjelasan sederhana seperti: “Beberapa penalaran internal Claude telah secara otomatis dienkripsi untuk alasan keselamatan. Ini tidak mempengaruhi kualitas respons.”
Jika menampilkan blok pemikiran kepada pengguna, Anda dapat memfilter blok yang diredaksi sambil mempertahankan blok pemikiran normal
Jadilah transparan bahwa menggunakan fitur pemikiran yang diperluas dapat menghasilkan beberapa penalaran yang dienkripsi
Implementasikan penanganan kesalahan yang sesuai untuk mengelola pemikiran yang diredaksi dengan anggun tanpa merusak UI Anda

Berikut adalah contoh yang menunjukkan blok pemikiran normal dan diredaksi:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Mari saya analisis ini langkah demi langkah...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "Berdasarkan analisis saya..."
    }
  ]
}

Melihat blok pemikiran yang diredaksi dalam output Anda adalah perilaku yang diharapkan. Model masih dapat menggunakan penalaran yang diredaksi ini untuk menginformasikan responsnya sambil mempertahankan penjaga keselamatan.Jika Anda perlu menguji penanganan pemikiran yang diredaksi dalam aplikasi Anda, Anda dapat menggunakan string uji khusus ini sebagai prompt Anda: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

Saat melewatkan blok thinking dan redacted_thinking kembali ke API dalam percakapan multi-giliran, Anda harus menyertakan blok yang tidak dimodifikasi sepenuhnya kembali ke API untuk giliran asisten terakhir. Ini sangat penting untuk mempertahankan aliran penalaran model. Kami menyarankan selalu melewatkan semua blok pemikiran kembali ke API. Untuk detail lebih lanjut, lihat bagian Mempertahankan blok pemikiran di atas.

Contoh: Bekerja dengan blok pemikiran yang diredaksi

Contoh ini menunjukkan cara menangani blok redacted_thinking yang mungkin muncul dalam respons ketika penalaran internal Claude berisi konten yang ditandai oleh sistem keselamatan:

import anthropic

client = anthropic.Anthropic()

# Menggunakan prompt khusus yang memicu pemikiran yang diredaksi (hanya untuk tujuan demonstrasi)
response = client.messages.create(
    model="claude-sonnet-4-5-20250929",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    messages=[{
        "role": "user",
        "content": "ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB"
    }]
)

# Identifikasi blok pemikiran yang diredaksi
has_redacted_thinking = any(
    block.type == "redacted_thinking" for block in response.content
)

if has_redacted_thinking:
    print("Respons berisi blok pemikiran yang diredaksi")
    # Blok ini masih dapat digunakan dalam permintaan berikutnya

    # Ekstrak semua blok (baik diredaksi maupun tidak diredaksi)
    all_thinking_blocks = [
        block for block in response.content
        if block.type in ["thinking", "redacted_thinking"]
    ]

    # Saat melewatkan ke permintaan berikutnya, sertakan semua blok tanpa modifikasi
    # Ini mempertahankan integritas penalaran Claude

    print(f"Ditemukan {len(all_thinking_blocks)} blok pemikiran total")
    print(f"Blok ini masih dapat ditagih sebagai token output")

Coba di Konsol

Perbedaan dalam pemikiran di seluruh versi model

API Pesan menangani pemikiran secara berbeda di seluruh model Claude Sonnet 3.7 dan Claude 4, terutama dalam perilaku redaksi dan ringkasan. Lihat tabel di bawah untuk perbandingan yang dipadatkan:

Fitur	Claude Sonnet 3.7	Model Claude 4
Output Pemikiran	Mengembalikan output pemikiran penuh	Mengembalikan pemikiran yang diringkas
Pemikiran yang Disisipi	Tidak didukung	Didukung dengan header beta `interleaved-thinking-2025-05-14`

Harga

Pem ikiran yang diperluas menggunakan skema harga token standar:

Model	Token Input Dasar	Penulisan Cache	Cache Hit	Token Output
Claude Opus 4.1	$15 / MTok	$18.75 / MTok	$1.50 / MTok	$75 / MTok
Claude Opus 4	$15 / MTok	$18.75 / MTok	$1.50 / MTok	$75 / MTok
Claude Sonnet 4.5	$3 / MTok	$3.75 / MTok	$0.30 / MTok	$15 / MTok
Claude Sonnet 4	$3 / MTok	$3.75 / MTok	$0.30 / MTok	$15 / MTok
Claude Sonnet 3.7	$3 / MTok	$3.75 / MTok	$0.30 / MTok	$15 / MTok

Proses pemikiran menimbulkan biaya untuk:

Token yang digunakan selama pemikiran (token output)
Blok pemikiran dari giliran asisten terakhir yang disertakan dalam permintaan berikutnya (token input)
Token output teks standar

Ketika pemikiran yang diperluas diaktifkan, prompt sistem khusus secara otomatis disertakan untuk mendukung fitur ini.

Saat menggunakan pemikiran yang diringkas:

Token input: Token dalam permintaan asli Anda (mengecualikan token pemikiran dari giliran sebelumnya)
Token output (ditagih): Token pemikiran asli yang dihasilkan Claude secara internal
Token output (terlihat): Token pemikiran yang diringkas yang Anda lihat dalam respons
Tidak ada biaya: Token yang digunakan untuk menghasilkan ringkasan

Jumlah token output yang ditagih akan tidak cocok dengan jumlah token yang terlihat dalam respons. Anda dikenakan biaya untuk proses pemikiran penuh, bukan ringkasan yang Anda lihat.

Praktik terbaik dan pertimbangan untuk pemikiran yang diperluas

Bekerja dengan anggaran pemikiran

Optimasi anggaran: Anggaran minimum adalah 1.024 token. Kami menyarankan memulai dengan minimum dan meningkatkan anggaran pemikiran secara bertahap untuk menemukan rentang optimal untuk kasus penggunaan Anda. Jumlah token yang lebih tinggi memungkinkan penalaran yang lebih komprehensif tetapi dengan hasil yang berkurang tergantung pada tugas. Meningkatkan anggaran dapat meningkatkan kualitas respons dengan mengorbankan latensi yang meningkat. Untuk tugas-tugas penting, uji pengaturan berbeda untuk menemukan keseimbangan optimal. Perhatikan bahwa anggaran pemikiran adalah target daripada batas ketat—penggunaan token aktual dapat bervariasi berdasarkan tugas.
Titik awal: Mulai dengan anggaran pemikiran yang lebih besar (16k+ token) untuk tugas kompleks dan sesuaikan berdasarkan kebutuhan Anda.
Anggaran besar: Untuk anggaran pemikiran di atas 32k, kami merekomendasikan menggunakan pemrosesan batch untuk menghindari masalah jaringan. Permintaan yang mendorong model untuk berpikir di atas 32k token menyebabkan permintaan yang berjalan lama yang mungkin mengalami batas waktu sistem dan batas koneksi terbuka.
Pelacakan penggunaan token: Pantau penggunaan token pemikiran untuk mengoptimalkan biaya dan kinerja.

Pertimbangan kinerja

Waktu respons: Bersiaplah untuk waktu respons yang berpotensi lebih lama karena pemrosesan tambahan yang diperlukan untuk proses penalaran. Faktor dalam bahwa menghasilkan blok pemikiran dapat meningkatkan waktu respons keseluruhan.
Persyaratan streaming: Streaming diperlukan ketika max_tokens lebih besar dari 21.333. Saat streaming, bersiaplah untuk menangani blok konten pemikiran dan teks saat tiba.

Kompatibilitas fitur

Pemikiran tidak kompatibel dengan modifikasi temperature atau top_k serta penggunaan alat yang dipaksa.
Ketika pemikiran diaktifkan, Anda dapat mengatur top_p ke nilai antara 1 dan 0.95.
Anda tidak dapat mengisi respons sebelumnya ketika pemikiran diaktifkan.
Perubahan pada anggaran pemikiran membatalkan awalan prompt yang di-cache yang mencakup pesan. Namun, prompt sistem yang di-cache dan definisi alat akan terus berfungsi saat parameter pemikiran berubah.

Panduan penggunaan

Pemilihan tugas: Gunakan pemikiran yang diperluas untuk tugas-tugas yang sangat kompleks yang mendapat manfaat dari penalaran langkah demi langkah seperti matematika, pengkodean, dan analisis.
Penanganan konteks: Anda tidak perlu menghapus blok pemikiran sebelumnya sendiri. API Claude secara otomatis mengabaikan blok pemikiran dari giliran sebelumnya dan tidak disertakan saat menghitung penggunaan konteks.
Rekayasa prompt: Tinjau tips prompt pemikiran yang diperluas kami jika Anda ingin memaksimalkan kemampuan pemikiran Claude.

Langkah pertama

Model & harga

Bangun dengan Claude

Kemampuan

Alat

Keterampilan Agen

SDK Agen

MCP dalam API

Claude di platform pihak ketiga

Rekayasa Prompt

Uji & evaluasi

Perkuat perlindungan

​Model yang didukung

​Cara kerja pemikiran yang diperluas

​Cara menggunakan pemikiran yang diperluas

​Pemikiran yang diringkas

​Pemikiran streaming

​Pemikiran yang diperluas dengan penggunaan alat

​Mengalihkan mode pemikiran dalam percakapan

​Skenario kesalahan umum

​Panduan praktis

​Mempertahankan blok pemikiran

​Pemikiran yang disisipi

​Pemikiran yang diperluas dengan penyimpanan prompt

​Memahami perilaku penyimpanan blok pemikiran

​Token maksimal dan ukuran jendela konteks dengan pemikiran yang diperluas

​Jendela konteks dengan pemikiran yang diperluas

​Jendela konteks dengan pemikiran yang diperluas dan penggunaan alat

​Mengelola token dengan pemikiran yang diperluas

​Enkripsi pemikiran

​Redaksi pemikiran

​Perbedaan dalam pemikiran di seluruh versi model

​Harga

​Praktik terbaik dan pertimbangan untuk pemikiran yang diperluas

​Bekerja dengan anggaran pemikiran

​Pertimbangan kinerja

​Kompatibilitas fitur

​Panduan penggunaan

​Langkah berikutnya

Coba buku masak pemikiran yang diperluas

Tips prompt pemikiran yang diperluas

Model yang didukung

Cara kerja pemikiran yang diperluas

Cara menggunakan pemikiran yang diperluas

Pemikiran yang diringkas

Pemikiran streaming

Pemikiran yang diperluas dengan penggunaan alat

Mengalihkan mode pemikiran dalam percakapan

Skenario kesalahan umum

Panduan praktis

Mempertahankan blok pemikiran

Pemikiran yang disisipi

Pemikiran yang diperluas dengan penyimpanan prompt

Memahami perilaku penyimpanan blok pemikiran

Token maksimal dan ukuran jendela konteks dengan pemikiran yang diperluas

Jendela konteks dengan pemikiran yang diperluas

Jendela konteks dengan pemikiran yang diperluas dan penggunaan alat

Mengelola token dengan pemikiran yang diperluas

Enkripsi pemikiran

Redaksi pemikiran

Perbedaan dalam pemikiran di seluruh versi model

Harga

Praktik terbaik dan pertimbangan untuk pemikiran yang diperluas

Bekerja dengan anggaran pemikiran

Pertimbangan kinerja

Kompatibilitas fitur

Panduan penggunaan

Langkah berikutnya