我們有兩種類型的限制:
  1. 支出限制設定組織在 API 使用上每月可能產生的最大成本。
  2. 速率限制設定組織在定義的時間段內可以進行的最大 API 請求數。
我們在組織級別強制執行服務配置的限制,但您也可以為組織的工作區設定使用者可配置的限制。 這些限制適用於標準層和優先層使用。有關優先層的更多資訊(優先層以承諾支出換取增強的服務級別),請參閱服務層級

關於我們的限制

  • 限制旨在防止 API 濫用,同時最小化對常見客戶使用模式的影響。
  • 限制由使用層級定義,其中每個層級與不同的支出和速率限制集相關聯。
  • 當您在使用 API 時達到某些閾值時,您的組織將自動提升層級。 限制在組織級別設定。您可以在 Claude 控制台限制頁面中查看您的組織限制。
  • 您可能在較短的時間間隔內達到速率限制。例如,每分鐘 60 個請求 (RPM) 的速率可能被強制執行為每秒 1 個請求。短時間內大量請求的突發可能會超過速率限制並導致速率限制錯誤。
  • 下面列出的限制是我們的標準層限制。如果您尋求更高的自訂限制或優先層以獲得增強的服務級別,請通過 Claude 控制台聯絡銷售。
  • 我們使用令牌桶演算法進行速率限制。這意味著您的容量會持續補充至您的最大限制,而不是在固定間隔重置。
  • 此處描述的所有限制代表最大允許使用量,而非保證最小值。這些限制旨在減少無意中的超支並確保使用者之間的資源公平分配。

支出限制

每個使用層級都有一個限制,說明您每個日曆月在 API 上的支出。一旦您達到您層級的支出限制,在您符合下一個層級的資格之前,您必須等到下個月才能再次使用 API。 要符合下一個層級的資格,您必須滿足存款要求。為了最小化帳戶過度資金的風險,您不能存款超過您的月度支出限制。

晉升層級的要求

使用層級信用購買最大信用購買
層級 1$5$100
層級 2$40$500
層級 3$200$1,000
層級 4$400$5,000
月度發票N/AN/A
信用購買顯示晉升到該層級所需的累積信用購買(不含稅)。您在達到閾值時立即晉升。最大信用購買限制您在單筆交易中可以添加到帳戶的最大金額,以防止帳戶過度資金。

速率限制

我們的 Messages API 速率限制按每個模型類別的每分鐘請求數 (RPM)、每分鐘輸入令牌數 (ITPM) 和每分鐘輸出令牌數 (OTPM) 測量。 如果您超過任何速率限制,您將收到一個 429 錯誤,描述超過了哪個速率限制,以及一個 retry-after 標頭,指示要等待多長時間。
如果您的組織使用量急劇增加,您可能還會遇到由於 API 加速限制而導致的 429 錯誤。為了避免達到加速限制,請逐步增加您的流量並保持一致的使用模式。

快取感知 ITPM

許多 API 提供商使用組合的「每分鐘令牌數」(TPM) 限制,可能包括所有令牌,包括快取和未快取、輸入和輸出。**對於大多數 Claude 模型,只有未快取的輸入令牌計入您的 ITPM 速率限制。**這是一個關鍵優勢,使我們的速率限制實際上比初看起來要高。 ITPM 速率限制在每個請求開始時估計,並在請求期間調整估計以反映使用的實際輸入令牌數。 以下內容計入 ITPM:
  • input_tokens(未快取的新輸入令牌)✓ 計入 ITPM
  • cache_creation_input_tokens(寫入快取的令牌)✓ 計入 ITPM
  • cache_read_input_tokens(從快取讀取的令牌)✗ 對於大多數模型不計入 ITPM
示例:使用 2,000,000 ITPM 限制和 80% 快取命中率,您每分鐘可以有效處理 10,000,000 個總輸入令牌(2M 未快取 + 8M 快取),因為快取令牌不計入您的速率限制。
一些較舊的模型(在下面的速率限制表中用 † 標記)也將 cache_read_input_tokens 計入 ITPM 速率限制。對於所有沒有 † 標記的模型,快取輸入令牌不計入速率限制,並按降低的費率計費(基礎輸入令牌價格的 10%)。這意味著您可以通過使用提示快取來實現顯著更高的有效吞吐量。
使用提示快取最大化您的速率限制要充分利用您的速率限制,請對重複內容使用提示快取,例如:
  • 系統指令和提示
  • 大型上下文文檔
  • 工具定義
  • 對話歷史
通過有效的快取,您可以大幅增加實際吞吐量,而無需增加速率限制。在 Usage 頁面上監控您的快取命中率以優化您的快取策略。
OTPM 速率限制在每個請求開始時根據 max_tokens 估計,並在請求結束時調整估計以反映使用的實際輸出令牌數。 如果您比預期更早達到 OTPM 限制,請嘗試減少 max_tokens 以更好地近似您的完成大小。 速率限制分別應用於每個模型;因此您可以同時使用不同的模型直至其各自的限制。 您可以在 Claude 控制台中檢查您當前的速率限制和行為。
對於使用 Claude Sonnet 4.x 的 context-1m-2025-08-07 測試版標頭的長上下文請求(>200K 令牌),適用單獨的速率限制。請參閱下面的長上下文速率限制
模型最大每分鐘請求數 (RPM)最大每分鐘輸入令牌數 (ITPM)最大每分鐘輸出令牌數 (OTPM)
Claude Sonnet 4.x**5030,0008,000
Claude Sonnet 3.7 (已棄用)5020,0008,000
Claude Haiku 4.55050,00010,000
Claude Haiku 3.55050,00010,000
Claude Haiku 35050,00010,000
Claude Opus 4.x*5030,0008,000
Claude Opus 3 (已棄用)5020,0004,000
* - Opus 4.x 速率限制是適用於 Opus 4 和 Opus 4.1 之間組合流量的總限制。 ** - Sonnet 4.x 速率限制是適用於 Sonnet 4 和 Sonnet 4.5 之間組合流量的總限制。 † - 限制將 cache_read_input_tokens 計入 ITPM 使用。

Message Batches API

Message Batches API 有自己的一組速率限制,在所有模型中共享。這些包括對所有 API 端點的每分鐘請求數 (RPM) 限制,以及對同時可以在處理隊列中的批次請求數的限制。此處的「批次請求」是指 Message Batch 的一部分。您可以創建包含數千個批次請求的 Message Batch,每個都計入此限制。當批次請求尚未被模型成功處理時,它被視為處理隊列的一部分。
最大每分鐘請求數 (RPM)處理隊列中的最大批次請求數每個批次的最大批次請求數
50100,000100,000

長上下文速率限制

使用啟用了 1M 令牌上下文窗口的 Claude Sonnet 4 和 Sonnet 4.5 時,以下專用速率限制適用於超過 200K 令牌的請求。
1M 令牌上下文窗口目前對使用層級 4 的組織和具有自訂速率限制的組織處於測試版。1M 令牌上下文窗口僅適用於 Claude Sonnet 4 和 Sonnet 4.5。
最大每分鐘輸入令牌數 (ITPM)最大每分鐘輸出令牌數 (OTPM)
1,000,000200,000
要充分利用 1M 令牌上下文窗口和速率限制,請使用提示快取

在控制台中監控您的速率限制

您可以在 Claude 控制台Usage 頁面上監控您的速率限制使用情況。 除了提供令牌和請求圖表外,Usage 頁面還提供兩個單獨的速率限制圖表。使用這些圖表查看您有多少增長空間、何時可能達到峰值使用、更好地理解要請求的速率限制,或如何改進您的快取率。這些圖表為給定的速率限制(例如每個模型)可視化多個指標:
  • 速率限制 - 輸入令牌圖表包括:
    • 每分鐘未快取輸入令牌的每小時最大值
    • 您當前的每分鐘輸入令牌速率限制
    • 您的輸入令牌快取率(即從快取讀取的輸入令牌的百分比)
  • 速率限制 - 輸出令牌圖表包括:
    • 每分鐘輸出令牌的每小時最大值
    • 您當前的每分鐘輸出令牌速率限制

為工作區設定較低的限制

為了保護您的組織中的工作區免受潛在過度使用,您可以為每個工作區設定自訂支出和速率限制。 示例:如果您的組織限制是每分鐘 40,000 個輸入令牌和 8,000 個輸出令牌,您可能會將一個工作區限制為每分鐘 30,000 個總令牌。這可以保護其他工作區免受潛在過度使用,並確保在您的組織中更公平地分配資源。然後,剩餘的未使用每分鐘令牌(或更多,如果該工作區不使用限制)可供其他工作區使用。 注意:
  • 您不能對預設工作區設定限制。
  • 如果未設定,工作區限制與組織限制相符。
  • 組織範圍的限制始終適用,即使工作區限制加起來更多。
  • 對工作區的輸入和輸出令牌限制的支持將在未來添加。

回應標頭

API 回應包括顯示強制執行的速率限制、當前使用情況以及何時重置限制的標頭。 返回以下標頭:
標頭描述
retry-after在您可以重試請求之前要等待的秒數。較早的重試將失敗。
anthropic-ratelimit-requests-limit任何速率限制期間允許的最大請求數。
anthropic-ratelimit-requests-remaining在被速率限制之前剩餘的請求數。
anthropic-ratelimit-requests-reset請求速率限制將完全補充的時間,以 RFC 3339 格式提供。
anthropic-ratelimit-tokens-limit任何速率限制期間允許的最大令牌數。
anthropic-ratelimit-tokens-remaining在被速率限制之前剩餘的令牌數(四捨五入到最近的千位)。
anthropic-ratelimit-tokens-reset令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。
anthropic-ratelimit-input-tokens-limit任何速率限制期間允許的最大輸入令牌數。
anthropic-ratelimit-input-tokens-remaining在被速率限制之前剩餘的輸入令牌數(四捨五入到最近的千位)。
anthropic-ratelimit-input-tokens-reset輸入令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。
anthropic-ratelimit-output-tokens-limit任何速率限制期間允許的最大輸出令牌數。
anthropic-ratelimit-output-tokens-remaining在被速率限制之前剩餘的輸出令牌數(四捨五入到最近的千位)。
anthropic-ratelimit-output-tokens-reset輸出令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。
anthropic-priority-input-tokens-limit任何速率限制期間允許的最大優先層輸入令牌數。(僅限優先層)
anthropic-priority-input-tokens-remaining在被速率限制之前剩餘的優先層輸入令牌數(四捨五入到最近的千位)。(僅限優先層)
anthropic-priority-input-tokens-reset優先層輸入令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。(僅限優先層)
anthropic-priority-output-tokens-limit任何速率限制期間允許的最大優先層輸出令牌數。(僅限優先層)
anthropic-priority-output-tokens-remaining在被速率限制之前剩餘的優先層輸出令牌數(四捨五入到最近的千位)。(僅限優先層)
anthropic-priority-output-tokens-reset優先層輸出令牌速率限制將完全補充的時間,以 RFC 3339 格式提供。(僅限優先層)
anthropic-ratelimit-tokens-* 標頭顯示當前生效的最嚴格限制的值。例如,如果您超過了工作區每分鐘令牌限制,標頭將包含工作區每分鐘令牌速率限制值。如果工作區限制不適用,標頭將返回剩餘的總令牌,其中總計是輸入和輸出令牌的總和。這種方法確保您可以看到對您當前 API 使用的最相關的限制。