Batas tingkat
Untuk mengurangi penyalahgunaan dan mengelola kapasitas pada API kami, kami telah menerapkan batas pada seberapa banyak organisasi dapat menggunakan API Claude.
Kami memiliki dua jenis batas:
- Batas pengeluaran menetapkan biaya bulanan maksimum yang dapat dikeluarkan organisasi untuk penggunaan API.
- Batas tingkat menetapkan jumlah maksimum permintaan API yang dapat dibuat organisasi dalam periode waktu yang ditentukan.
Kami menerapkan batas yang dikonfigurasi layanan di tingkat organisasi, tetapi Anda juga dapat menetapkan batas yang dapat dikonfigurasi pengguna untuk ruang kerja organisasi Anda.
Batas ini berlaku untuk penggunaan Tingkat Standar dan Tingkat Prioritas. Untuk informasi lebih lanjut tentang Tingkat Prioritas, yang menawarkan tingkat layanan yang ditingkatkan sebagai imbalan atas komitmen pengeluaran, lihat Tingkat Layanan.
Tentang batas kami
- Batas dirancang untuk mencegah penyalahgunaan API, sambil meminimalkan dampak pada pola penggunaan pelanggan yang umum.
- Batas didefinisikan berdasarkan tingkat penggunaan, di mana setiap tingkat dikaitkan dengan serangkaian batas pengeluaran dan tingkat yang berbeda.
- Organisasi Anda akan meningkat tingkat secara otomatis saat Anda mencapai ambang batas tertentu saat menggunakan API. Batas ditetapkan di tingkat organisasi. Anda dapat melihat batas organisasi Anda di halaman Batas di Konsol Anthropic.
- Anda mungkin mencapai batas tingkat dalam interval waktu yang lebih pendek. Misalnya, tingkat 60 permintaan per menit (RPM) dapat diterapkan sebagai 1 permintaan per detik. Ledakan singkat permintaan dalam volume tinggi dapat melampaui batas tingkat dan menghasilkan kesalahan batas tingkat.
- Batas yang diuraikan di bawah ini adalah batas tingkat standar kami. Jika Anda mencari batas yang lebih tinggi, batas khusus, atau Tingkat Prioritas untuk tingkat layanan yang ditingkatkan, hubungi penjualan melalui Konsol Anthropic.
- Kami menggunakan algoritma token bucket untuk melakukan pembatasan tingkat. Ini berarti bahwa kapasitas Anda terus diisi ulang hingga batas maksimum Anda, daripada direset pada interval tetap.
- Semua batas yang dijelaskan di sini mewakili penggunaan maksimum yang diizinkan, bukan minimum yang dijamin. Batas ini dimaksudkan untuk mengurangi pengeluaran berlebihan yang tidak disengaja dan memastikan distribusi sumber daya yang adil di antara pengguna.
Batas pengeluaran
Setiap tingkat penggunaan memiliki batas berapa banyak yang dapat Anda belanjakan untuk API setiap bulan kalender. Setelah Anda mencapai batas pengeluaran tingkat Anda, sampai Anda memenuhi syarat untuk tingkat berikutnya, Anda harus menunggu sampai bulan berikutnya untuk dapat menggunakan API lagi.
Untuk memenuhi syarat untuk tingkat berikutnya, Anda harus memenuhi persyaratan deposit. Untuk meminimalkan risiko pendanaan berlebihan akun Anda, Anda tidak dapat menyetor lebih dari batas pengeluaran bulanan Anda.
Persyaratan untuk naik tingkat
Tingkat Penggunaan | Pembelian Kredit | Penggunaan Maks per Bulan |
---|---|---|
Tingkat 1 | $5 | $100 |
Tingkat 2 | $40 | $500 |
Tingkat 3 | $200 | $1,000 |
Tingkat 4 | $400 | $5,000 |
Penagihan Bulanan | N/A | N/A |
Batas tingkat
Batas tingkat kami untuk API Messages diukur dalam permintaan per menit (RPM), token input per menit (ITPM), dan token output per menit (OTPM) untuk setiap kelas model.
Jika Anda melebihi salah satu batas tingkat, Anda akan mendapatkan kesalahan 429 yang menjelaskan batas tingkat mana yang terlampaui, bersama dengan header retry-after
yang menunjukkan berapa lama harus menunggu.
Batas tingkat ITPM diperkirakan pada awal setiap permintaan, dan perkiraan disesuaikan selama permintaan untuk mencerminkan jumlah token input yang sebenarnya digunakan.
Penyesuaian akhir menghitung input_tokens
dan cache_creation_input_tokens
terhadap batas tingkat ITPM.
Untuk beberapa model, cache_read_input_tokens
juga dihitung terhadap batas tingkat ITPM. ITPM maksimum untuk model ini ditandai dengan † dalam tabel batas tingkat di bawah ini.
Untuk semua model lainnya, cache_read_input_tokens
tidak dihitung terhadap batas tingkat ITPM (meskipun masih ditagih).
Batas tingkat OTPM diperkirakan berdasarkan max_tokens
pada awal setiap permintaan, dan perkiraan disesuaikan pada akhir permintaan untuk mencerminkan jumlah token output yang sebenarnya digunakan.
Jika Anda mencapai batas OTPM lebih awal dari yang diharapkan, coba kurangi max_tokens
untuk lebih memperkirakan ukuran penyelesaian Anda.
Batas tingkat diterapkan secara terpisah untuk setiap model; oleh karena itu Anda dapat menggunakan model yang berbeda hingga batas masing-masing secara bersamaan. Anda dapat memeriksa batas tingkat dan perilaku saat ini di Konsol Anthropic.
Untuk permintaan konteks panjang (>200K token) saat menggunakan header beta context-1m-2025-08-07
dengan Claude Sonnet 4, batas tingkat terpisah berlaku. Lihat Batas tingkat konteks panjang di bawah ini.
Model | Permintaan maksimum per menit (RPM) | Token input maksimum per menit (ITPM) | Token output maksimum per menit (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (deprecated) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (deprecated) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (deprecated) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Model | Permintaan maksimum per menit (RPM) | Token input maksimum per menit (ITPM) | Token output maksimum per menit (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (deprecated) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (deprecated) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (deprecated) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Model | Permintaan maksimum per menit (RPM) | Token input maksimum per menit (ITPM) | Token output maksimum per menit (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 1,000 | 450,000 | 90,000 |
Claude Sonnet 4 | 1,000 | 450,000 | 90,000 |
Claude Sonnet 3.7 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.5 2024-10-22 (deprecated) | 1,000 | 80,000† | 16,000 |
Claude Sonnet 3.5 2024-06-20 (deprecated) | 1,000 | 80,000† | 16,000 |
Claude Haiku 3.5 | 1,000 | 100,000† | 20,000 |
Claude Opus 3 (deprecated) | 1,000 | 40,000† | 8,000 |
Claude Haiku 3 | 1,000 | 100,000† | 20,000 |
Model | Permintaan maksimum per menit (RPM) | Token input maksimum per menit (ITPM) | Token output maksimum per menit (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 2,000 | 800,000 | 160,000 |
Claude Sonnet 4 | 2,000 | 800,000 | 160,000 |
Claude Sonnet 3.7 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.5 2024-10-22 (deprecated) | 2,000 | 160,000† | 32,000 |
Claude Sonnet 3.5 2024-06-20 (deprecated) | 2,000 | 160,000† | 32,000 |
Claude Haiku 3.5 | 2,000 | 200,000† | 40,000 |
Claude Opus 3 (deprecated) | 2,000 | 80,000† | 16,000 |
Claude Haiku 3 | 2,000 | 200,000† | 40,000 |
Model | Permintaan maksimum per menit (RPM) | Token input maksimum per menit (ITPM) | Token output maksimum per menit (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 4 | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 3.7 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.5 2024-10-22 (deprecated) | 4,000 | 400,000† | 80,000 |
Claude Sonnet 3.5 2024-06-20 (deprecated) | 4,000 | 400,000† | 80,000 |
Claude Haiku 3.5 | 4,000 | 400,000† | 80,000 |
Claude Opus 3 (deprecated) | 4,000 | 400,000† | 80,000 |
Claude Haiku 3 | 4,000 | 400,000† | 80,000 |
Jika Anda mencari batas yang lebih tinggi untuk kasus penggunaan Enterprise, hubungi penjualan melalui Konsol Anthropic.
* - Batas tingkat Opus 4.x adalah batas total yang berlaku untuk lalu lintas gabungan di Opus 4.0 dan Opus 4.1.
† - Batas menghitung cache_read_input_tokens
terhadap penggunaan ITPM.
API Message Batches
API Message Batches memiliki serangkaian batas tingkat sendiri yang dibagikan di semua model. Ini termasuk batas permintaan per menit (RPM) ke semua endpoint API dan batas pada jumlah permintaan batch yang dapat berada dalam antrian pemrosesan pada saat yang sama. “Permintaan batch” di sini mengacu pada bagian dari Message Batch. Anda dapat membuat Message Batch yang berisi ribuan permintaan batch, yang masing-masing dihitung terhadap batas ini. Permintaan batch dianggap sebagai bagian dari antrian pemrosesan ketika belum berhasil diproses oleh model.
Permintaan maksimum per menit (RPM) | Permintaan batch maksimum dalam antrian pemrosesan | Permintaan batch maksimum per batch |
---|---|---|
50 | 100,000 | 100,000 |
Permintaan maksimum per menit (RPM) | Permintaan batch maksimum dalam antrian pemrosesan | Permintaan batch maksimum per batch |
---|---|---|
50 | 100,000 | 100,000 |
Permintaan maksimum per menit (RPM) | Permintaan batch maksimum dalam antrian pemrosesan | Permintaan batch maksimum per batch |
---|---|---|
1,000 | 200,000 | 100,000 |
Permintaan maksimum per menit (RPM) | Permintaan batch maksimum dalam antrian pemrosesan | Permintaan batch maksimum per batch |
---|---|---|
2,000 | 300,000 | 100,000 |
Permintaan maksimum per menit (RPM) | Permintaan batch maksimum dalam antrian pemrosesan | Permintaan batch maksimum per batch |
---|---|---|
4,000 | 500,000 | 100,000 |
Jika Anda mencari batas yang lebih tinggi untuk kasus penggunaan Enterprise, hubungi penjualan melalui Konsol Anthropic.
Batas tingkat konteks panjang
Saat menggunakan Claude Sonnet 4 dengan jendela konteks 1M token diaktifkan, batas tingkat khusus berikut berlaku untuk permintaan yang melebihi 200K token.
Jendela konteks 1M token saat ini dalam beta untuk organisasi di tingkat penggunaan 4 dan organisasi dengan batas tingkat kustom. Jendela konteks 1M token hanya tersedia untuk Claude Sonnet 4.
Token input maksimum per menit (ITPM) | Token output maksimum per menit (OTPM) |
---|---|
1,000,000 | 200,000 |
Token input maksimum per menit (ITPM) | Token output maksimum per menit (OTPM) |
---|---|
1,000,000 | 200,000 |
Untuk batas tingkat konteks panjang kustom untuk kasus penggunaan enterprise, hubungi penjualan melalui Konsol Anthropic.
Untuk mendapatkan hasil maksimal dari jendela konteks 1M token dengan batas tingkat, gunakan prompt caching.
Memantau batas tingkat Anda di Konsol
Anda dapat memantau penggunaan batas tingkat Anda di halaman Penggunaan dari Konsol Anthropic.
Selain menyediakan grafik token dan permintaan, halaman Penggunaan menyediakan dua grafik batas tingkat terpisah. Gunakan grafik ini untuk melihat ruang gerak yang Anda miliki untuk berkembang, kapan Anda mungkin mencapai penggunaan puncak, lebih memahami batas tingkat apa yang harus diminta, atau bagaimana Anda dapat meningkatkan tingkat caching Anda. Grafik memvisualisasikan sejumlah metrik untuk batas tingkat tertentu (misalnya per model):
- Grafik Batas Tingkat - Token Input mencakup:
- Token input maksimum per menit tanpa cache per jam
- Batas tingkat token input per menit Anda saat ini
- Tingkat cache untuk token input Anda (yaitu persentase token input yang dibaca dari cache)
- Grafik Batas Tingkat - Token Output mencakup:
- Token output maksimum per menit per jam
- Batas tingkat token output per menit Anda saat ini
Menetapkan batas yang lebih rendah untuk Ruang Kerja
Untuk melindungi Ruang Kerja di Organisasi Anda dari potensi penggunaan berlebihan, Anda dapat menetapkan batas pengeluaran dan tingkat kustom per Ruang Kerja.
Contoh: Jika batas Organisasi Anda adalah 40,000 token input per menit dan 8,000 token output per menit, Anda mungkin membatasi satu Ruang Kerja hingga 30,000 total token per menit. Ini melindungi Ruang Kerja lain dari potensi penggunaan berlebihan dan memastikan distribusi sumber daya yang lebih adil di seluruh Organisasi Anda. Token per menit yang tersisa yang tidak digunakan (atau lebih, jika Ruang Kerja tersebut tidak menggunakan batas) kemudian tersedia untuk digunakan Ruang Kerja lain.
Catatan:
- Anda tidak dapat menetapkan batas pada Ruang Kerja default.
- Jika tidak ditetapkan, batas Ruang Kerja sesuai dengan batas Organisasi.
- Batas seluruh Organisasi selalu berlaku, bahkan jika batas Ruang Kerja bertambah hingga lebih banyak.
- Dukungan untuk batas token input dan output akan ditambahkan ke Ruang Kerja di masa mendatang.
Header respons
Respons API mencakup header yang menunjukkan batas tingkat yang diterapkan, penggunaan saat ini, dan kapan batas akan direset.
Header berikut dikembalikan:
Header | Deskripsi |
---|---|
retry-after | Jumlah detik untuk menunggu sampai Anda dapat mencoba ulang permintaan. Percobaan ulang lebih awal akan gagal. |
anthropic-ratelimit-requests-limit | Jumlah maksimum permintaan yang diizinkan dalam periode batas tingkat apa pun. |
anthropic-ratelimit-requests-remaining | Jumlah permintaan yang tersisa sebelum dibatasi tingkat. |
anthropic-ratelimit-requests-reset | Waktu ketika batas tingkat permintaan akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. |
anthropic-ratelimit-tokens-limit | Jumlah maksimum token yang diizinkan dalam periode batas tingkat apa pun. |
anthropic-ratelimit-tokens-remaining | Jumlah token yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tingkat. |
anthropic-ratelimit-tokens-reset | Waktu ketika batas tingkat token akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Jumlah maksimum token input yang diizinkan dalam periode batas tingkat apa pun. |
anthropic-ratelimit-input-tokens-remaining | Jumlah token input yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tingkat. |
anthropic-ratelimit-input-tokens-reset | Waktu ketika batas tingkat token input akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Jumlah maksimum token output yang diizinkan dalam periode batas tingkat apa pun. |
anthropic-ratelimit-output-tokens-remaining | Jumlah token output yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tingkat. |
anthropic-ratelimit-output-tokens-reset | Waktu ketika batas tingkat token output akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. |
anthropic-priority-input-tokens-limit | Jumlah maksimum token input Tingkat Prioritas yang diizinkan dalam periode batas tingkat apa pun. (Hanya Tingkat Prioritas) |
anthropic-priority-input-tokens-remaining | Jumlah token input Tingkat Prioritas yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tingkat. (Hanya Tingkat Prioritas) |
anthropic-priority-input-tokens-reset | Waktu ketika batas tingkat token input Tingkat Prioritas akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. (Hanya Tingkat Prioritas) |
anthropic-priority-output-tokens-limit | Jumlah maksimum token output Tingkat Prioritas yang diizinkan dalam periode batas tingkat apa pun. (Hanya Tingkat Prioritas) |
anthropic-priority-output-tokens-remaining | Jumlah token output Tingkat Prioritas yang tersisa (dibulatkan ke ribuan terdekat) sebelum dibatasi tingkat. (Hanya Tingkat Prioritas) |
anthropic-priority-output-tokens-reset | Waktu ketika batas tingkat token output Tingkat Prioritas akan diisi ulang sepenuhnya, disediakan dalam format RFC 3339. (Hanya Tingkat Prioritas) |
Header anthropic-ratelimit-tokens-*
menampilkan nilai untuk batas paling ketat yang saat ini berlaku. Misalnya, jika Anda telah melebihi batas token per menit Ruang Kerja, header akan berisi nilai batas tingkat token per menit Ruang Kerja. Jika batas Ruang Kerja tidak berlaku, header akan mengembalikan total token yang tersisa, di mana total adalah jumlah token input dan output. Pendekatan ini memastikan bahwa Anda memiliki visibilitas ke dalam kendala yang paling relevan pada penggunaan API Anda saat ini.