- 優先層級: 最適合在生產環境中部署的工作流程,其中時間、可用性和可預測的定價很重要
- 標準層級: 用於試驗和擴展日常使用案例的預設層級
- 批次層級: 最適合可以等待或受益於在正常容量之外運行的非同步工作流程
標準層級
標準層級是所有 API 請求的預設服務層級。此層級中的請求與所有其他請求一起優先處理,並遵循盡力而為的可用性。優先層級
此層級中的請求優先於所有其他對 Anthropic 的請求。此優先順序有助於最小化 “伺服器超載” 錯誤,即使在尖峰時段也是如此。 如需更多資訊,請參閱 開始使用優先層級請求如何被分配層級
在處理請求時,Anthropic 在以下情況下決定將請求分配給優先層級:- 您的組織具有足夠的優先層級容量 輸入 每分鐘令牌數
- 您的組織具有足夠的優先層級容量 輸出 每分鐘令牌數
- 快取讀取為每個從快取讀取的令牌 0.1 個令牌
- 快取寫入為每個寫入快取的令牌 1.25 個令牌,TTL 為 5 分鐘
- 快取寫入為每個寫入快取的令牌 2.00 個令牌,TTL 為 1 小時
- 對於 長上下文(>200k 輸入令牌)請求,輸入令牌為每個令牌 2 個令牌
- 所有其他輸入令牌為每個令牌 1 個令牌
- 對於 長上下文(>200k 輸入令牌)請求,輸出令牌為每個令牌 1.5 個令牌
- 所有其他輸出令牌為每個令牌 1 個令牌
分配給優先層級的請求從優先層級容量和常規速率限制中提取。
如果服務該請求會超過速率限制,則該請求被拒絕。
使用服務層級
您可以通過設定service_tier 參數來控制可用於請求的服務層級:
service_tier 參數接受以下值:
"auto"(預設)- 如果可用,使用優先層級容量,否則回退到您的其他容量"standard_only"- 僅使用標準層級容量,如果您不想使用優先層級容量,這很有用
usage 物件也包括分配給請求的服務層級:
service_tier="auto" 時,這些回應標頭提供見解:
開始使用優先層級
如果您對以下內容感興趣,您可能想要承諾優先層級容量:- 更高的可用性:目標正常運行時間 99.5%,具有優先計算資源
- 成本控制:可預測的支出和更長承諾的折扣
- 靈活溢出:當您超過承諾容量時自動回退到標準層級
- 每分鐘輸入令牌數
- 每分鐘輸出令牌數
- 承諾期限(1、3、6 或 12 個月)
- 特定的模型版本
您購買的輸入令牌與輸出令牌的比率很重要。調整您的優先層級容量以符合您的實際流量模式有助於您最大化購買令牌的利用率。
支援的模型
優先層級支援:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Haiku 3.5
如何存取優先層級
要開始使用優先層級:- 聯絡銷售 以完成佈建
- (可選)更新您的 API 請求以選擇性地將
service_tier參數設定為auto - 通過回應標頭和 Claude 控制台監控您的使用情況