速率限制

我们有两种类型的限制：

支出限制设置组织在一个月内可能产生的 API 使用成本的最大值。
速率限制设置组织在定义的时间段内可以发出的 API 请求的最大数量。

我们在组织级别强制执行服务配置的限制，但您也可以为组织的工作区设置用户可配置的限制。这些限制适用于标准层和优先级层的使用。有关优先级层的更多信息（它提供增强的服务级别以换取承诺支出），请参阅服务层级。

关于我们的限制

限制旨在防止 API 滥用，同时最大程度地减少对常见客户使用模式的影响。
限制由使用层级定义，其中每个层级与不同的支出和速率限制集相关联。
当您在使用 API 时达到某些阈值时，您的组织将自动提升层级。限制在组织级别设置。您可以在 Claude 控制台中的限制页面中查看您的组织限制。
您可能会在较短的时间间隔内达到速率限制。例如，每分钟 60 个请求 (RPM) 的速率可能被强制执行为每秒 1 个请求。短时间内大量请求的突发可能会超过速率限制并导致速率限制错误。
下面列出的限制是我们的标准层限制。如果您寻求更高的自定义限制或优先级层以获得增强的服务级别，请通过 Claude 控制台联系销售。
我们使用令牌桶算法进行速率限制。这意味着您的容量会持续补充到您的最大限制，而不是在固定间隔处重置。
此处描述的所有限制代表最大允许使用量，而不是保证的最小值。这些限制旨在减少无意中的超支并确保用户之间的资源公平分配。

支出限制

每个使用层级都有一个限制，限制您每个日历月在 API 上的支出。一旦您达到您的层级的支出限制，在您符合下一个层级的条件之前，您必须等到下个月才能再次使用 API。要符合下一个层级的条件，您必须满足存款要求。为了最大程度地降低账户过度充值的风险，您不能存入超过您的月度支出限制的金额。

提升层级的要求

使用层级	信用购买	最大信用购买
第 1 层	$5	$100
第 2 层	$40	$500
第 3 层	$200	$1,000
第 4 层	$400	$5,000
月度发票	N/A	N/A

信用购买显示提升到该层级所需的累计信用购买（不含税）。您在达到阈值时立即提升。最大信用购买限制您在单个交易中可以添加到账户的最大金额，以防止账户过度充值。

我们的 Messages API 速率限制以每分钟请求数 (RPM)、每分钟输入令牌数 (ITPM) 和每分钟输出令牌数 (OTPM) 为单位进行测量，适用于每个模型类别。如果您超过任何速率限制，您将收到一个 429 错误，描述超过了哪个速率限制，以及一个 retry-after 标头，指示需要等待多长时间。

如果您的组织使用量急剧增加，您可能还会因为 API 上的加速限制而遇到 429 错误。为了避免达到加速限制，请逐步增加您的流量并保持一致的使用模式。

缓存感知 ITPM

许多 API 提供商使用组合的”每分钟令牌数”(TPM) 限制，可能包括所有令牌，包括缓存和未缓存的、输入和输出的。**对于大多数 Claude 模型，只有未缓存的输入令牌计入您的 ITPM 速率限制。**这是一个关键优势，使我们的速率限制实际上比最初看起来要高。 ITPM 速率限制在每个请求开始时进行估计，并在请求期间调整估计以反映实际使用的输入令牌数。以下是计入 ITPM 的内容：

input_tokens（未缓存的新输入令牌）✓ 计入 ITPM
cache_creation_input_tokens（写入缓存的令牌）✓ 计入 ITPM
cache_read_input_tokens（从缓存读取的令牌）✗ 对于大多数模型不计入 ITPM

示例：使用 2,000,000 ITPM 限制和 80% 缓存命中率，您每分钟可以有效处理 10,000,000 个总输入令牌（2M 未缓存 + 8M 缓存），因为缓存令牌不计入您的速率限制。

一些较旧的模型（在下面的速率限制表中用 † 标记）也会将 cache_read_input_tokens 计入 ITPM 速率限制。对于所有没有 † 标记的模型，缓存的输入令牌不计入速率限制，并以降低的速率计费（基础输入令牌价格的 10%）。这意味着通过使用提示缓存，您可以实现显著更高的有效吞吐量。

使用提示缓存最大化您的速率限制为了充分利用您的速率限制，对重复内容使用提示缓存，例如：

系统指令和提示
大型上下文文档
工具定义
对话历史

通过有效的缓存，您可以显著增加实际吞吐量，而无需增加速率限制。在使用页面上监控您的缓存命中率以优化您的缓存策略。

OTPM 速率限制基于请求开始时的 max_tokens 进行估计，并在请求结束时调整估计以反映实际使用的输出令牌数。如果您比预期更早达到 OTPM 限制，请尝试减少 max_tokens 以更好地近似您的完成大小。速率限制分别应用于每个模型；因此您可以同时使用不同的模型，直到它们各自的限制。您可以在 Claude 控制台中检查您当前的速率限制和行为。

对于长上下文请求（>200K 令牌），当使用带有 Claude Sonnet 4.x 的 context-1m-2025-08-07 测试版标头时，适用单独的速率限制。请参阅下面的长上下文速率限制。

模型	最大每分钟请求数 (RPM)	最大每分钟输入令牌数 (ITPM)	最大每分钟输出令牌数 (OTPM)
Claude Sonnet 4.x^**	50	30,000	8,000
Claude Sonnet 3.7	50	20,000	8,000
Claude Sonnet 3.5 2024-10-22 (已弃用)	50	40,000^†	8,000
Claude Sonnet 3.5 2024-06-20 (已弃用)	50	40,000^†	8,000
Claude Haiku 4.5	50	50,000	10,000
Claude Haiku 3.5	50	50,000^†	10,000
Claude Haiku 3	50	50,000^†	10,000
Claude Opus 4.x^*	50	30,000	8,000
Claude Opus 3 (已弃用)	50	20,000^†	4,000

^{* - Opus 4.x 速率限制是适用于 Opus 4 和 Opus 4.1 之间组合流量的总限制。} ^{** - Sonnet 4.x 速率限制是适用于 Sonnet 4 和 Sonnet 4.5 之间组合流量的总限制。} ^{† - 限制将 cache_read_input_tokens 计入 ITPM 使用。}

Message Batches API

Message Batches API 有自己的一组速率限制，这些限制在所有模型中共享。这些包括对所有 API 端点的每分钟请求数 (RPM) 限制，以及对同时可以在处理队列中的批处理请求数量的限制。这里的”批处理请求”是指 Message Batch 的一部分。您可以创建包含数千个批处理请求的 Message Batch，每个请求都计入此限制。当批处理请求尚未被模型成功处理时，它被视为处理队列的一部分。

最大每分钟请求数 (RPM)	处理队列中的最大批处理请求数	每个批处理的最大批处理请求数
50	100,000	100,000

长上下文速率限制

当使用 Claude Sonnet 4 和 Sonnet 4.5 并启用 1M 令牌上下文窗口时，以下专用速率限制适用于超过 200K 令牌的请求。

1M 令牌上下文窗口目前处于测试版，适用于使用层级 4 中的组织和具有自定义速率限制的组织。1M 令牌上下文窗口仅适用于 Claude Sonnet 4 和 Sonnet 4.5。

最大每分钟输入令牌数 (ITPM)	最大每分钟输出令牌数 (OTPM)
1,000,000	200,000

为了充分利用 1M 令牌上下文窗口和速率限制，请使用提示缓存。

在控制台中监控您的速率限制

您可以在 Claude 控制台的使用页面上监控您的速率限制使用情况。除了提供令牌和请求图表外，使用页面还提供两个单独的速率限制图表。使用这些图表查看您有多少增长空间、何时可能达到峰值使用、更好地理解要请求的速率限制，或如何改进您的缓存速率。这些图表为给定的速率限制（例如按模型）可视化多个指标：

速率限制 - 输入令牌图表包括：
- 每小时最大未缓存每分钟输入令牌数
- 您当前的每分钟输入令牌速率限制
- 您的输入令牌缓存速率（即从缓存读取的输入令牌的百分比）
速率限制 - 输出令牌图表包括：
- 每小时最大每分钟输出令牌数
- 您当前的每分钟输出令牌速率限制

为工作区设置较低的限制

为了保护您的组织中的工作区免受潜在过度使用，您可以为每个工作区设置自定义支出和速率限制。示例：如果您的组织限制是每分钟 40,000 个输入令牌和每分钟 8,000 个输出令牌，您可能会将一个工作区限制为每分钟 30,000 个总令牌。这保护其他工作区免受潜在过度使用，并确保在您的组织中更公平地分配资源。剩余的未使用每分钟令牌数（或更多，如果该工作区不使用限制）随后可供其他工作区使用。注意：

您不能对默认工作区设置限制。
如果未设置，工作区限制与组织的限制相匹配。
组织范围的限制始终适用，即使工作区限制加起来更多。
对工作区的输入和输出令牌限制的支持将在未来添加。

响应标头

API 响应包括显示强制执行的速率限制、当前使用情况以及何时将重置限制的标头。返回以下标头：

标头	描述
`retry-after`	在您可以重试请求之前需要等待的秒数。更早的重试将失败。
`anthropic-ratelimit-requests-limit`	任何速率限制期间允许的最大请求数。
`anthropic-ratelimit-requests-remaining`	在被速率限制之前剩余的请求数。
`anthropic-ratelimit-requests-reset`	请求速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-tokens-limit`	任何速率限制期间允许的最大令牌数。
`anthropic-ratelimit-tokens-remaining`	在被速率限制之前剩余的令牌数（四舍五入到最近的千位）。
`anthropic-ratelimit-tokens-reset`	令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-input-tokens-limit`	任何速率限制期间允许的最大输入令牌数。
`anthropic-ratelimit-input-tokens-remaining`	在被速率限制之前剩余的输入令牌数（四舍五入到最近的千位）。
`anthropic-ratelimit-input-tokens-reset`	输入令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-output-tokens-limit`	任何速率限制期间允许的最大输出令牌数。
`anthropic-ratelimit-output-tokens-remaining`	在被速率限制之前剩余的输出令牌数（四舍五入到最近的千位）。
`anthropic-ratelimit-output-tokens-reset`	输出令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-priority-input-tokens-limit`	任何速率限制期间允许的最大优先级层输入令牌数。（仅限优先级层）
`anthropic-priority-input-tokens-remaining`	在被速率限制之前剩余的优先级层输入令牌数（四舍五入到最近的千位）。（仅限优先级层）
`anthropic-priority-input-tokens-reset`	优先级层输入令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。（仅限优先级层）
`anthropic-priority-output-tokens-limit`	任何速率限制期间允许的最大优先级层输出令牌数。（仅限优先级层）
`anthropic-priority-output-tokens-remaining`	在被速率限制之前剩余的优先级层输出令牌数（四舍五入到最近的千位）。（仅限优先级层）
`anthropic-priority-output-tokens-reset`	优先级层输出令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。（仅限优先级层）

anthropic-ratelimit-tokens-* 标头显示当前生效的最严格限制的值。例如，如果您已超过工作区每分钟令牌限制，标头将包含工作区每分钟令牌速率限制值。如果工作区限制不适用，标头将返回总令牌剩余数，其中总数是输入和输出令牌的总和。这种方法确保您可以看到对当前 API 使用的最相关的约束。

Release Notes

​关于我们的限制

​支出限制

​提升层级的要求

​速率限制

​缓存感知 ITPM

​Message Batches API

​长上下文速率限制

​在控制台中监控您的速率限制

​为工作区设置较低的限制

​响应标头

关于我们的限制

支出限制

提升层级的要求

速率限制

缓存感知 ITPM

Message Batches API

长上下文速率限制

在控制台中监控您的速率限制

为工作区设置较低的限制

响应标头