2つのタイプの制限があります:
  1. 支出制限は、組織がAPI使用に対して月間で発生できる最大コストを設定します。
  2. レート制限は、組織が定義された期間内に行うことができるAPI要求の最大数を設定します。
サービス設定の制限は組織レベルで実施されますが、組織のワークスペースに対してユーザーが設定可能な制限を設定することもできます。 これらの制限は、Standard TierとPriority Tier使用の両方に適用されます。コミットされた支出と引き換えに強化されたサービスレベルを提供するPriority Tierの詳細については、Service Tiersを参照してください。

制限について

  • 制限は、API悪用を防ぐと同時に、一般的な顧客の使用パターンへの影響を最小化するように設計されています。
  • 制限は使用ティアによって定義され、各ティアは異なる支出制限とレート制限のセットに関連付けられています。
  • 組織はAPIを使用する際に特定のしきい値に達すると、自動的にティアが上がります。 制限は組織レベルで設定されます。Claude ConsoleLimits pageで組織の制限を確認できます。
  • より短い時間間隔でレート制限に達する可能性があります。たとえば、1分あたり60要求(RPM)のレートは1秒あたり1要求として実施される場合があります。高い量での短いバーストの要求はレート制限を超過し、レート制限エラーが発生する可能性があります。
  • 以下に概説されている制限は、標準ティアの制限です。より高い、カスタム制限、または強化されたサービスレベルのためのPriority Tierを求めている場合は、Claude Consoleを通じて営業に連絡してください。
  • レート制限を行うためにトークンバケットアルゴリズムを使用しています。これは、容量が固定間隔でリセットされるのではなく、最大制限まで継続的に補充されることを意味します。
  • ここで説明されているすべての制限は、最大許容使用量を表し、保証された最小値ではありません。これらの制限は、意図しない過剰支出を減らし、ユーザー間でリソースの公正な分配を確保することを目的としています。

支出制限

各使用ティアには、毎月のカレンダー月にAPI上で支出できる金額の制限があります。ティアの支出制限に達すると、次のティアの対象になるまで、次の月まで待つ必要があります。 次のティアの対象になるには、デポジット要件を満たす必要があります。アカウントへの過剰資金提供のリスクを最小化するために、月間支出制限を超える金額をデポジットすることはできません。

ティアを進めるための要件

使用ティアクレジット購入最大クレジット購入
Tier 1$5$100
Tier 2$40$500
Tier 3$200$1,000
Tier 4$400$5,000
月間請求N/AN/A
クレジット購入は、そのティアに進むために必要な累積クレジット購入(税金を除く)を示しています。しきい値に達すると、すぐに進みます。最大クレジット購入は、アカウント過剰資金提供を防ぐために、単一トランザクションでアカウントに追加できる最大金額を制限します。

レート制限

Messages APIのレート制限は、各モデルクラスの1分あたりの要求数(RPM)、1分あたりの入力トークン数(ITPM)、および1分あたりの出力トークン数(OTPM)で測定されます。 レート制限のいずれかを超えた場合、超過したレート制限を説明する429エラーと、待機時間を示すretry-afterヘッダーが表示されます。
APIの加速制限により429エラーが発生する可能性もあります。これは、組織の使用が急激に増加した場合に発生します。加速制限に達するのを避けるために、トラフィックを段階的に増やし、一貫した使用パターンを維持してください。

キャッシュ対応ITPM

多くのAPIプロバイダーは、キャッシュされたトークンとキャッシュされていないトークン、入力と出力の両方を含む可能性のある、結合された「1分あたりのトークン数」(TPM)制限を使用しています。**ほとんどのClaudeモデルでは、キャッシュされていない入力トークンのみがITPMレート制限にカウントされます。**これは、レート制限を最初に見えるよりも効果的に高くする主な利点です。 ITPM レート制限は各要求の開始時に推定され、要求中に実際に使用された入力トークン数を反映するように調整されます。 ITPMにカウントされるもの:
  • input_tokens(キャッシュされていない新しい入力トークン)✓ ITPMにカウント
  • cache_creation_input_tokens(キャッシュに書き込まれるトークン)✓ ITPMにカウント
  • cache_read_input_tokens(キャッシュから読み取られるトークン)✗ ほとんどのモデルではITPMにカウントされません
:2,000,000 ITPMの制限と80%のキャッシュヒット率で、キャッシュされたトークンはレート制限にカウントされないため、1分あたり10,000,000の合計入力トークン(2M キャッシュなし + 8M キャッシュ)を効果的に処理できます。
一部の古いモデル(以下のレート制限テーブルで†でマークされています)も、cache_read_input_tokensをITPMレート制限にカウントします。†マーカーのないすべてのモデルでは、キャッシュされた入力トークンはレート制限にカウントされず、基本入力トークン価格の10%で請求されます。これは、プロンプトキャッシングを使用することで、大幅に高い有効スループットを達成できることを意味します。
プロンプトキャッシングでレート制限を最大化するレート制限を最大限に活用するには、以下のような繰り返されるコンテンツに対してプロンプトキャッシングを使用してください:
  • システム指示とプロンプト
  • 大規模なコンテキストドキュメント
  • ツール定義
  • 会話履歴
効果的なキャッシングにより、レート制限を増やさずに実際のスループットを大幅に増やすことができます。Usage pageでキャッシュヒット率を監視して、キャッシング戦略を最適化してください。
OTPM レート制限は、各要求の開始時にmax_tokensに基づいて推定され、要求の終了時に実際に使用された出力トークン数を反映するように調整されます。 予想より早くOTPM制限に達している場合は、max_tokensを減らして、補完のサイズをより適切に近似してください。 レート制限は各モデルに対して個別に適用されるため、異なるモデルをそれぞれの制限まで同時に使用できます。 Claude Consoleで現在のレート制限と動作を確認できます。
Claude Sonnet 4.xでcontext-1m-2025-08-07ベータヘッダーを使用する場合の長いコンテキスト要求(>200Kトークン)では、個別のレート制限が適用されます。以下の長いコンテキストレート制限を参照してください。
モデル1分あたりの最大要求数(RPM)1分あたりの最大入力トークン数(ITPM)1分あたりの最大出力トークン数(OTPM)
Claude Sonnet 4.x**5030,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22 (非推奨)
5040,0008,000
Claude Sonnet 3.5
2024-06-20 (非推奨)
5040,0008,000
Claude Haiku 4.55050,00010,000
Claude Haiku 3.55050,00010,000
Claude Haiku 35050,00010,000
Claude Opus 4.x*5030,0008,000
Claude Opus 3 (非推奨)5020,0004,000
* - Opus 4.x レート制限は、Opus 4 と Opus 4.1 の両方にわたる結合トラフィックに適用される合計制限です。 ** - Sonnet 4.x レート制限は、Sonnet 4 と Sonnet 4.5 の両方にわたる結合トラフィックに適用される合計制限です。 † - 制限はcache_read_input_tokensをITPM使用量にカウントします。

Message Batches API

Message Batches APIには、すべてのモデルで共有される独自のレート制限セットがあります。これには、すべてのAPIエンドポイントへの1分あたりの要求数(RPM)制限と、同時に処理キューにある可能性のあるバッチ要求の数の制限が含まれます。ここで「バッチ要求」とは、Message Batchの一部を指します。数千のバッチ要求を含むMessage Batchを作成でき、それぞれがこの制限にカウントされます。バッチ要求は、モデルによってまだ正常に処理されていない場合、処理キューの一部と見なされます。
1分あたりの最大要求数(RPM)処理キューの最大バッチ要求数バッチあたりの最大バッチ要求数
50100,000100,000

長いコンテキストレート制限

1M トークンコンテキストウィンドウが有効な Claude Sonnet 4 および Sonnet 4.5 を使用する場合、200K トークンを超える要求に対して以下の専用レート制限が適用されます。
1M トークンコンテキストウィンドウは現在、使用ティア 4 の組織およびカスタムレート制限を持つ組織のベータ版です。1M トークンコンテキストウィンドウは Claude Sonnet 4 および Sonnet 4.5 でのみ利用可能です。
1分あたりの最大入力トークン数(ITPM)1分あたりの最大出力トークン数(OTPM)
1,000,000200,000
1M トークンコンテキストウィンドウをレート制限で最大限に活用するには、プロンプトキャッシングを使用してください。

Console でレート制限を監視する

Claude ConsoleUsage ページでレート制限の使用状況を監視できます。 トークンと要求チャートを提供することに加えて、Usage ページは 2 つの個別のレート制限チャートを提供します。これらのチャートを使用して、成長の余地がどの程度あるか、ピーク使用に達する可能性がある時期、要求するレート制限をより理解する方法、またはキャッシング率を改善する方法を確認できます。チャートは、特定のレート制限(例:モデルごと)の多くのメトリクスを視覚化します:
  • Rate Limit - Input Tokens チャートには以下が含まれます:
    • 1分あたりのキャッシュなし入力トークンの時間ごとの最大値
    • 現在の1分あたりの入力トークンレート制限
    • 入力トークンのキャッシュレート(つまり、キャッシュから読み取られた入力トークンの割合)
  • Rate Limit - Output Tokens チャートには以下が含まれます:
    • 1分あたりの出力トークンの時間ごとの最大値
    • 現在の1分あたりの出力トークンレート制限

ワークスペースの下限を設定する

組織内のワークスペースを潜在的な過剰使用から保護するために、ワークスペースごとにカスタム支出制限とレート制限を設定できます。 例:組織の制限が1分あたり40,000入力トークンと1分あたり8,000出力トークンの場合、1つのワークスペースを1分あたり30,000合計トークンに制限する可能性があります。これは他のワークスペースを潜在的な過剰使用から保護し、組織全体でリソースのより公正な分配を確保します。残りの未使用トークン/分(またはそれ以上、そのワークスペースが制限を使用しない場合)は、他のワークスペースが使用できるようになります。 注:
  • デフォルトワークスペースに制限を設定することはできません。
  • 設定されていない場合、ワークスペース制限は組織の制限と一致します。
  • 組織全体の制限は常に適用され、ワークスペース制限の合計がそれ以上の場合でも適用されます。
  • 入力トークンと出力トークン制限のワークスペースサポートは今後追加される予定です。

レスポンスヘッダー

API レスポンスには、実施されたレート制限、現在の使用状況、および制限がリセットされる時期を示すヘッダーが含まれます。 以下のヘッダーが返されます:
ヘッダー説明
retry-after要求を再試行できるまで待機する秒数。早い再試行は失敗します。
anthropic-ratelimit-requests-limitレート制限期間内に許可される最大要求数。
anthropic-ratelimit-requests-remainingレート制限される前に残っている要求数。
anthropic-ratelimit-requests-reset要求レート制限が完全に補充される時刻(RFC 3339 形式で提供)。
anthropic-ratelimit-tokens-limitレート制限期間内に許可される最大トークン数。
anthropic-ratelimit-tokens-remainingレート制限される前に残っているトークン数(最も近い千の位に丸められます)。
anthropic-ratelimit-tokens-resetトークンレート制限が完全に補充される時刻(RFC 3339 形式で提供)。
anthropic-ratelimit-input-tokens-limitレート制限期間内に許可される最大入力トークン数。
anthropic-ratelimit-input-tokens-remainingレート制限される前に残っている入力トークン数(最も近い千の位に丸められます)。
anthropic-ratelimit-input-tokens-reset入力トークンレート制限が完全に補充される時刻(RFC 3339 形式で提供)。
anthropic-ratelimit-output-tokens-limitレート制限期間内に許可される最大出力トークン数。
anthropic-ratelimit-output-tokens-remainingレート制限される前に残っている出力トークン数(最も近い千の位に丸められます)。
anthropic-ratelimit-output-tokens-reset出力トークンレート制限が完全に補充される時刻(RFC 3339 形式で提供)。
anthropic-priority-input-tokens-limitレート制限期間内に許可される最大Priority Tier入力トークン数。(Priority Tier のみ)
anthropic-priority-input-tokens-remainingレート制限される前に残っているPriority Tier入力トークン数(最も近い千の位に丸められます)。(Priority Tier のみ)
anthropic-priority-input-tokens-resetPriority Tier入力トークンレート制限が完全に補充される時刻(RFC 3339 形式で提供)。(Priority Tier のみ)
anthropic-priority-output-tokens-limitレート制限期間内に許可される最大Priority Tier出力トークン数。(Priority Tier のみ)
anthropic-priority-output-tokens-remainingレート制限される前に残っているPriority Tier出力トークン数(最も近い千の位に丸められます)。(Priority Tier のみ)
anthropic-priority-output-tokens-resetPriority Tier出力トークンレート制限が完全に補充される時刻(RFC 3339 形式で提供)。(Priority Tier のみ)
anthropic-ratelimit-tokens-*ヘッダーは、現在有効な最も制限的な制限の値を表示します。たとえば、ワークスペースの1分あたりのトークン制限を超えた場合、ヘッダーにはワークスペースの1分あたりのトークンレート制限値が含まれます。ワークスペース制限が適用されない場合、ヘッダーは合計トークンの残り(合計は入力トークンと出力トークンの合計)を返します。このアプローチにより、現在のAPI使用に対する最も関連性のある制約を可視化できます。