Batas laju

Kami memiliki dua jenis batas:

Batas pengeluaran menetapkan biaya bulanan maksimum yang dapat dikeluarkan organisasi untuk penggunaan API.
Batas laju menetapkan jumlah maksimum permintaan API yang dapat dibuat organisasi selama periode waktu yang ditentukan.

Kami menerapkan batas yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat menetapkan batas yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda. Batas ini berlaku untuk penggunaan Tier Standar dan Prioritas. Untuk informasi lebih lanjut tentang Tier Prioritas, yang menawarkan tingkat layanan yang ditingkatkan sebagai imbalan komitmen pengeluaran, lihat Service Tiers.

Tentang batas kami

Batas dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
Batas didefinisikan oleh tingkat penggunaan, di mana setiap tingkat dikaitkan dengan set batas pengeluaran dan laju yang berbeda.
Organisasi Anda akan meningkat tingkat secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batas ditetapkan di tingkat organisasi. Anda dapat melihat batas organisasi Anda di halaman Batas di Claude Console.
Anda mungkin mencapai batas laju selama interval waktu yang lebih pendek. Misalnya, laju 60 permintaan per menit (RPM) dapat diberlakukan sebagai 1 permintaan per detik. Lonjakan permintaan singkat dengan volume tinggi dapat melampaui batas laju dan menghasilkan kesalahan batas laju.
Batas yang diuraikan di bawah ini adalah batas tingkat standar kami. Jika Anda mencari batas yang lebih tinggi dan khusus atau Tier Prioritas untuk tingkat layanan yang ditingkatkan, hubungi penjualan melalui Claude Console.
Kami menggunakan algoritma token bucket untuk melakukan pembatasan laju. Ini berarti kapasitas Anda terus diisi ulang hingga batas maksimum Anda, daripada direset pada interval tetap.
Semua batas yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batas ini dimaksudkan untuk mengurangi pengeluaran yang tidak disengaja dan memastikan distribusi sumber daya yang adil di antara pengguna.

Batas pengeluaran

Setiap tingkat penggunaan memiliki batas tentang berapa banyak yang dapat Anda keluarkan di API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkat Anda, sampai Anda memenuhi syarat untuk tingkat berikutnya, Anda harus menunggu sampai bulan berikutnya untuk dapat menggunakan API lagi. Untuk memenuhi syarat untuk tingkat berikutnya, Anda harus memenuhi persyaratan setoran. Untuk meminimalkan risiko pendanaan berlebih pada akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.

Persyaratan untuk meningkatkan tingkat

Tingkat Penggunaan	Pembelian Kredit	Pembelian Kredit Maksimum
Tier 1	$5	$100
Tier 2	$40	$500
Tier 3	$200	$1,000
Tier 4	$400	$5,000
Penagihan Bulanan	N/A	N/A

Pembelian Kredit menunjukkan pembelian kredit kumulatif (tidak termasuk pajak) yang diperlukan untuk maju ke tingkat tersebut. Anda maju segera setelah mencapai ambang batas.Pembelian Kredit Maksimum membatasi jumlah maksimum yang dapat Anda tambahkan ke akun Anda dalam satu transaksi untuk mencegah pendanaan berlebih akun.

Batas laju kami untuk Messages API diukur dalam permintaan per menit (RPM), token input per menit (ITPM), dan token output per menit (OTPM) untuk setiap kelas model. Jika Anda melampaui salah satu batas laju, Anda akan mendapatkan kesalahan 429 yang menjelaskan batas laju mana yang terlampaui, bersama dengan header retry-after yang menunjukkan berapa lama harus menunggu.

Anda mungkin juga mengalami kesalahan 429 karena batas akselerasi di API jika organisasi Anda mengalami peningkatan penggunaan yang tajam. Untuk menghindari mencapai batas akselerasi, tingkatkan lalu lintas Anda secara bertahap dan pertahankan pola penggunaan yang konsisten.

ITPM yang menyadari cache

Banyak penyedia API menggunakan batas “token per menit” (TPM) gabungan yang mungkin mencakup semua token, baik yang di-cache maupun tidak di-cache, input dan output. Untuk sebagian besar model Claude, hanya token input yang tidak di-cache yang dihitung terhadap batas laju ITPM Anda. Ini adalah keuntungan utama yang membuat batas laju kami secara efektif lebih tinggi daripada yang mungkin terlihat pada awalnya. Batas laju ITPM diperkirakan di awal setiap permintaan, dan perkiraan disesuaikan selama permintaan untuk mencerminkan jumlah sebenarnya dari token input yang digunakan. Berikut ini yang dihitung terhadap ITPM:

input_tokens (token input baru yang tidak di-cache) ✓ Dihitung terhadap ITPM
cache_creation_input_tokens (token yang ditulis ke cache) ✓ Dihitung terhadap ITPM
cache_read_input_tokens (token yang dibaca dari cache) ✗ TIDAK dihitung terhadap ITPM untuk sebagian besar model

Contoh: Dengan batas ITPM 2.000.000 dan tingkat cache hit 80%, Anda dapat secara efektif memproses 10.000.000 total token input per menit (2M tidak di-cache + 8M di-cache), karena token yang di-cache tidak dihitung terhadap batas laju Anda.

Beberapa model yang lebih lama (ditandai dengan † dalam tabel batas laju di bawah) juga menghitung cache_read_input_tokens terhadap batas laju ITPM.Untuk semua model tanpa penanda †, token input yang di-cache tidak dihitung terhadap batas laju dan ditagih dengan tarif yang dikurangi (10% dari harga token input dasar). Ini berarti Anda dapat mencapai throughput efektif yang jauh lebih tinggi dengan menggunakan prompt caching.

Maksimalkan batas laju Anda dengan prompt cachingUntuk memanfaatkan batas laju Anda sebaik-baiknya, gunakan prompt caching untuk konten berulang seperti:

Instruksi sistem dan prompt
Dokumen konteks besar
Definisi alat
Riwayat percakapan

Dengan caching yang efektif, Anda dapat secara dramatis meningkatkan throughput aktual Anda tanpa meningkatkan batas laju Anda. Pantau tingkat cache hit Anda di halaman Penggunaan untuk mengoptimalkan strategi caching Anda.

Batas laju OTPM diperkirakan berdasarkan max_tokens di awal setiap permintaan, dan perkiraan disesuaikan di akhir permintaan untuk mencerminkan jumlah sebenarnya dari token output yang digunakan. Jika Anda mencapai batas OTPM lebih awal dari yang diharapkan, coba kurangi max_tokens untuk lebih baik memperkirakan ukuran penyelesaian Anda. Batas laju diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batas laju saat ini dan perilaku Anda di Claude Console.

Untuk permintaan konteks panjang (>200K token) saat menggunakan header beta context-1m-2025-08-07 dengan Claude Sonnet 4.x, batas laju terpisah berlaku. Lihat Batas laju konteks panjang di bawah.

Model	Permintaan maksimum per menit (RPM)	Token input maksimum per menit (ITPM)	Token output maksimum per menit (OTPM)
Claude Sonnet 4.x^**	50	30.000	8.000
Claude Sonnet 3.7 (deprecated)	50	20.000	8.000
Claude Haiku 4.5	50	50.000	10.000
Claude Haiku 3.5	50	50.000^†	10.000
Claude Haiku 3	50	50.000^†	10.000
Claude Opus 4.x^*	50	30.000	8.000
Claude Opus 3 (deprecated)	50	20.000^†	4.000

^{* - Batas laju Opus 4.x adalah batas total yang berlaku untuk lalu lintas gabungan di seluruh Opus 4 dan Opus 4.1.} ^{** - Batas laju Sonnet 4.x adalah batas total yang berlaku untuk lalu lintas gabungan di seluruh Sonnet 4 dan Sonnet 4.5.} ^{† - Batas menghitung cache_read_input_tokens terhadap penggunaan ITPM.}

Message Batches API

Message Batches API memiliki set batas laju sendiri yang dibagikan di semua model. Ini termasuk batas permintaan per menit (RPM) ke semua titik akhir API dan batas jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, masing-masing dihitung terhadap batas ini. Permintaan batch dianggap bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.

Permintaan maksimum per menit (RPM)	Permintaan batch maksimum dalam antrian pemrosesan	Permintaan batch maksimum per batch
50	100.000	100.000

Batas laju konteks panjang

Saat menggunakan Claude Sonnet 4 dan Sonnet 4.5 dengan jendela konteks token 1M diaktifkan, batas laju khusus berikut berlaku untuk permintaan yang melebihi 200K token.

Jendela konteks token 1M saat ini dalam beta untuk organisasi di tingkat penggunaan 4 dan organisasi dengan batas laju khusus. Jendela konteks token 1M hanya tersedia untuk Claude Sonnet 4 dan Sonnet 4.5.

Token input maksimum per menit (ITPM)	Token output maksimum per menit (OTPM)
1.000.000	200.000

Untuk memanfaatkan jendela konteks token 1M dengan batas laju sebaik-baiknya, gunakan prompt caching.

Memantau batas laju Anda di Console

Anda dapat memantau penggunaan batas laju Anda di halaman Penggunaan dari Claude Console. Selain menyediakan bagan token dan permintaan, halaman Penggunaan menyediakan dua bagan batas laju terpisah. Gunakan bagan ini untuk melihat berapa banyak ruang yang Anda miliki untuk berkembang, kapan Anda mungkin mencapai penggunaan puncak, lebih memahami batas laju apa yang harus diminta, atau bagaimana Anda dapat meningkatkan tingkat caching Anda. Bagan memvisualisasikan sejumlah metrik untuk batas laju tertentu (misalnya per model):

Bagan Batas Laju - Token Input mencakup:
- Maksimum per jam token input yang tidak di-cache per menit
- Batas laju token input per menit saat ini Anda
- Tingkat cache untuk token input Anda (yaitu persentase token input yang dibaca dari cache)
Bagan Batas Laju - Token Output mencakup:
- Maksimum per jam token output per menit
- Batas laju token output per menit saat ini Anda

Menetapkan batas yang lebih rendah untuk Ruang Kerja

Untuk melindungi Ruang Kerja di Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat menetapkan batas pengeluaran dan laju khusus per Ruang Kerja. Contoh: Jika batas Organisasi Anda adalah 40.000 token input per menit dan 8.000 token output per menit, Anda mungkin membatasi satu Ruang Kerja hingga 30.000 total token per menit. Ini melindungi Ruang Kerja lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Token per menit yang tidak digunakan yang tersisa (atau lebih, jika Ruang Kerja itu tidak menggunakan batas) kemudian tersedia untuk Ruang Kerja lain gunakan. Catatan:

Anda tidak dapat menetapkan batas pada Ruang Kerja default.
Jika tidak ditetapkan, batas Ruang Kerja cocok dengan batas Organisasi.
Batas di seluruh Organisasi selalu berlaku, bahkan jika batas Ruang Kerja ditambahkan hingga lebih banyak.
Dukungan untuk batas token input dan output akan ditambahkan ke Ruang Kerja di masa depan.

Header respons

Respons API mencakup header yang menunjukkan batas laju yang diberlakukan, penggunaan saat ini, dan kapan batas akan direset. Header berikut dikembalikan:

Header	Deskripsi
`retry-after`	Jumlah detik untuk menunggu sampai Anda dapat mencoba ulang permintaan. Percobaan ulang lebih awal akan gagal.
`anthropic-ratelimit-requests-limit`	Jumlah maksimum permintaan yang diizinkan dalam periode batas laju apa pun.
`anthropic-ratelimit-requests-remaining`	Jumlah permintaan yang tersisa sebelum dibatasi laju.
`anthropic-ratelimit-requests-reset`	Waktu ketika batas laju permintaan akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
`anthropic-ratelimit-tokens-limit`	Jumlah maksimum token yang diizinkan dalam periode batas laju apa pun.
`anthropic-ratelimit-tokens-remaining`	Jumlah token yang tersisa (dibulatkan ke seribu terdekat) sebelum dibatasi laju.
`anthropic-ratelimit-tokens-reset`	Waktu ketika batas laju token akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
`anthropic-ratelimit-input-tokens-limit`	Jumlah maksimum token input yang diizinkan dalam periode batas laju apa pun.
`anthropic-ratelimit-input-tokens-remaining`	Jumlah token input yang tersisa (dibulatkan ke seribu terdekat) sebelum dibatasi laju.
`anthropic-ratelimit-input-tokens-reset`	Waktu ketika batas laju token input akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
`anthropic-ratelimit-output-tokens-limit`	Jumlah maksimum token output yang diizinkan dalam periode batas laju apa pun.
`anthropic-ratelimit-output-tokens-remaining`	Jumlah token output yang tersisa (dibulatkan ke seribu terdekat) sebelum dibatasi laju.
`anthropic-ratelimit-output-tokens-reset`	Waktu ketika batas laju token output akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339.
`anthropic-priority-input-tokens-limit`	Jumlah maksimum token input Tier Prioritas yang diizinkan dalam periode batas laju apa pun. (Hanya Tier Prioritas)
`anthropic-priority-input-tokens-remaining`	Jumlah token input Tier Prioritas yang tersisa (dibulatkan ke seribu terdekat) sebelum dibatasi laju. (Hanya Tier Prioritas)
`anthropic-priority-input-tokens-reset`	Waktu ketika batas laju token input Tier Prioritas akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. (Hanya Tier Prioritas)
`anthropic-priority-output-tokens-limit`	Jumlah maksimum token output Tier Prioritas yang diizinkan dalam periode batas laju apa pun. (Hanya Tier Prioritas)
`anthropic-priority-output-tokens-remaining`	Jumlah token output Tier Prioritas yang tersisa (dibulatkan ke seribu terdekat) sebelum dibatasi laju. (Hanya Tier Prioritas)
`anthropic-priority-output-tokens-reset`	Waktu ketika batas laju token output Tier Prioritas akan sepenuhnya diisi ulang, disediakan dalam format RFC 3339. (Hanya Tier Prioritas)

Header anthropic-ratelimit-tokens-* menampilkan nilai untuk batas yang paling ketat saat ini berlaku. Misalnya, jika Anda telah melampaui batas token per menit Ruang Kerja, header akan berisi nilai batas laju token per menit Ruang Kerja. Jika batas Ruang Kerja tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token input dan output. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke dalam kendala yang paling relevan pada penggunaan API saat ini Anda.

​Tentang batas kami

​Batas pengeluaran

​Persyaratan untuk meningkatkan tingkat

​Batas laju

​ITPM yang menyadari cache

​Message Batches API

​Batas laju konteks panjang

​Memantau batas laju Anda di Console

​Menetapkan batas yang lebih rendah untuk Ruang Kerja

​Header respons

Tentang batas kami

Batas pengeluaran

Persyaratan untuk meningkatkan tingkat

Batas laju

ITPM yang menyadari cache

Message Batches API

Batas laju konteks panjang

Memantau batas laju Anda di Console

Menetapkan batas yang lebih rendah untuk Ruang Kerja

Header respons