Ratenlimits
Um Missbrauch zu verhindern und die Kapazität unserer API zu verwalten, haben wir Limits implementiert, wie viel eine Organisation die Claude API nutzen kann.
Wir haben zwei Arten von Limits:
- Ausgabenlimits setzen maximale monatliche Kosten fest, die eine Organisation für die API-Nutzung verursachen kann.
- Ratenlimits setzen die maximale Anzahl von API-Anfragen fest, die eine Organisation über einen definierten Zeitraum stellen kann.
Wir setzen service-konfigurierte Limits auf Organisationsebene durch, aber Sie können auch benutzer-konfigurierbare Limits für die Workspaces Ihrer Organisation festlegen.
Diese Limits gelten sowohl für Standard- als auch Priority Tier-Nutzung. Für weitere Informationen über Priority Tier, das erweiterte Service-Level im Austausch für zugesagte Ausgaben bietet, siehe Service Tiers.
Über unsere Limits
- Limits sind darauf ausgelegt, API-Missbrauch zu verhindern und gleichzeitig die Auswirkungen auf gängige Kundennutzungsmuster zu minimieren.
- Limits werden durch Nutzungsstufen definiert, wobei jede Stufe mit einem anderen Satz von Ausgaben- und Ratenlimits verbunden ist.
- Ihre Organisation wird automatisch Stufen erhöhen, wenn Sie bestimmte Schwellenwerte bei der API-Nutzung erreichen. Limits werden auf Organisationsebene festgelegt. Sie können die Limits Ihrer Organisation auf der Limits-Seite in der Anthropic Console einsehen.
- Sie können Ratenlimits über kürzere Zeitintervalle erreichen. Zum Beispiel kann eine Rate von 60 Anfragen pro Minute (RPM) als 1 Anfrage pro Sekunde durchgesetzt werden. Kurze Anfragestöße mit hohem Volumen können das Ratenlimit überschreiten und zu Ratenlimit-Fehlern führen.
- Die unten aufgeführten Limits sind unsere Standard-Stufen-Limits. Wenn Sie höhere, benutzerdefinierte Limits oder Priority Tier für erweiterte Service-Level suchen, kontaktieren Sie den Vertrieb über die Anthropic Console.
- Wir verwenden den Token-Bucket-Algorithmus für die Ratenbegrenzung. Das bedeutet, dass Ihre Kapazität kontinuierlich bis zu Ihrem maximalen Limit aufgefüllt wird, anstatt in festen Intervallen zurückgesetzt zu werden.
- Alle hier beschriebenen Limits stellen maximal erlaubte Nutzung dar, nicht garantierte Minima. Diese Limits sollen unbeabsichtigte Überausgaben reduzieren und eine faire Verteilung der Ressourcen unter den Benutzern gewährleisten.
Ausgabenlimits
Jede Nutzungsstufe hat ein Limit, wie viel Sie für die API jeden Kalendermonat ausgeben können. Sobald Sie das Ausgabenlimit Ihrer Stufe erreichen, müssen Sie, bis Sie sich für die nächste Stufe qualifizieren, bis zum nächsten Monat warten, um die API wieder nutzen zu können.
Um sich für die nächste Stufe zu qualifizieren, müssen Sie eine Einzahlungsanforderung erfüllen. Um das Risiko einer Überfinanzierung Ihres Kontos zu minimieren, können Sie nicht mehr als Ihr monatliches Ausgabenlimit einzahlen.
Anforderungen zum Stufenaufstieg
Nutzungsstufe | Guthaben-Kauf | Max. Nutzung pro Monat |
---|---|---|
Stufe 1 | $5 | $100 |
Stufe 2 | $40 | $500 |
Stufe 3 | $200 | $1,000 |
Stufe 4 | $400 | $5,000 |
Monatliche Rechnungsstellung | N/A | N/A |
Ratenlimits
Unsere Ratenlimits für die Messages API werden in Anfragen pro Minute (RPM), Eingabe-Token pro Minute (ITPM) und Ausgabe-Token pro Minute (OTPM) für jede Modellklasse gemessen.
Wenn Sie eines der Ratenlimits überschreiten, erhalten Sie einen 429-Fehler, der beschreibt, welches Ratenlimit überschritten wurde, zusammen mit einem retry-after
-Header, der angibt, wie lange Sie warten müssen.
ITPM-Ratenlimits werden zu Beginn jeder Anfrage geschätzt, und die Schätzung wird während der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Eingabe-Token widerzuspiegeln.
Die endgültige Anpassung zählt input_tokens
und cache_creation_input_tokens
zu den ITPM-Ratenlimits.
Für einige Modelle zählen cache_read_input_tokens
auch zu den ITPM-Ratenlimits. Das maximale ITPM für diese Modelle ist in den Ratenlimit-Tabellen unten mit † markiert.
Für alle anderen Modelle zählen cache_read_input_tokens
nicht zu den ITPM-Ratenlimits (obwohl sie trotzdem abgerechnet werden).
OTPM-Ratenlimits werden basierend auf max_tokens
zu Beginn jeder Anfrage geschätzt, und die Schätzung wird am Ende der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Ausgabe-Token widerzuspiegeln.
Wenn Sie OTPM-Limits früher als erwartet erreichen, versuchen Sie, max_tokens
zu reduzieren, um die Größe Ihrer Vervollständigungen besser zu approximieren.
Ratenlimits werden separat für jedes Modell angewendet; daher können Sie verschiedene Modelle bis zu ihren jeweiligen Limits gleichzeitig verwenden. Sie können Ihre aktuellen Ratenlimits und das Verhalten in der Anthropic Console überprüfen.
Für Long-Context-Anfragen (>200K Token) bei Verwendung des context-1m-2025-08-07
Beta-Headers mit Claude Sonnet 4 gelten separate Ratenlimits. Siehe Long-Context-Ratenlimits unten.
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (veraltet) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (veraltet) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (veraltet) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (veraltet) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (veraltet) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (veraltet) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 1,000 | 450,000 | 90,000 |
Claude Sonnet 4 | 1,000 | 450,000 | 90,000 |
Claude Sonnet 3.7 | 1,000 | 40,000 | 16,000 |
Claude Sonnet 3.5 2024-10-22 (veraltet) | 1,000 | 80,000† | 16,000 |
Claude Sonnet 3.5 2024-06-20 (veraltet) | 1,000 | 80,000† | 16,000 |
Claude Haiku 3.5 | 1,000 | 100,000† | 20,000 |
Claude Opus 3 (veraltet) | 1,000 | 40,000† | 8,000 |
Claude Haiku 3 | 1,000 | 100,000† | 20,000 |
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 2,000 | 800,000 | 160,000 |
Claude Sonnet 4 | 2,000 | 800,000 | 160,000 |
Claude Sonnet 3.7 | 2,000 | 80,000 | 32,000 |
Claude Sonnet 3.5 2024-10-22 (veraltet) | 2,000 | 160,000† | 32,000 |
Claude Sonnet 3.5 2024-06-20 (veraltet) | 2,000 | 160,000† | 32,000 |
Claude Haiku 3.5 | 2,000 | 200,000† | 40,000 |
Claude Opus 3 (veraltet) | 2,000 | 80,000† | 16,000 |
Claude Haiku 3 | 2,000 | 200,000† | 40,000 |
Modell | Maximale Anfragen pro Minute (RPM) | Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 4 | 4,000 | 2,000,000 | 400,000 |
Claude Sonnet 3.7 | 4,000 | 200,000 | 80,000 |
Claude Sonnet 3.5 2024-10-22 (veraltet) | 4,000 | 400,000† | 80,000 |
Claude Sonnet 3.5 2024-06-20 (veraltet) | 4,000 | 400,000† | 80,000 |
Claude Haiku 3.5 | 4,000 | 400,000† | 80,000 |
Claude Opus 3 (veraltet) | 4,000 | 400,000† | 80,000 |
Claude Haiku 3 | 4,000 | 400,000† | 80,000 |
Wenn Sie höhere Limits für einen Enterprise-Anwendungsfall suchen, kontaktieren Sie den Vertrieb über die Anthropic Console.
* - Opus 4.x Ratenlimit ist ein Gesamtlimit, das für kombinierten Traffic über sowohl Opus 4.0 als auch Opus 4.1 gilt.
† - Limit zählt cache_read_input_tokens
zur ITPM-Nutzung.
Message Batches API
Die Message Batches API hat ihre eigenen Ratenlimits, die über alle Modelle hinweg geteilt werden. Diese umfassen ein Anfragen-pro-Minute (RPM) Limit für alle API-Endpunkte und ein Limit für die Anzahl der Batch-Anfragen, die gleichzeitig in der Verarbeitungsqueue sein können. Eine “Batch-Anfrage” bezieht sich hier auf einen Teil einer Message Batch. Sie können eine Message Batch erstellen, die Tausende von Batch-Anfragen enthält, von denen jede zu diesem Limit zählt. Eine Batch-Anfrage wird als Teil der Verarbeitungsqueue betrachtet, wenn sie noch nicht erfolgreich vom Modell verarbeitet wurde.
Maximale Anfragen pro Minute (RPM) | Maximale Batch-Anfragen in Verarbeitungsqueue | Maximale Batch-Anfragen pro Batch |
---|---|---|
50 | 100,000 | 100,000 |
Maximale Anfragen pro Minute (RPM) | Maximale Batch-Anfragen in Verarbeitungsqueue | Maximale Batch-Anfragen pro Batch |
---|---|---|
50 | 100,000 | 100,000 |
Maximale Anfragen pro Minute (RPM) | Maximale Batch-Anfragen in Verarbeitungsqueue | Maximale Batch-Anfragen pro Batch |
---|---|---|
1,000 | 200,000 | 100,000 |
Maximale Anfragen pro Minute (RPM) | Maximale Batch-Anfragen in Verarbeitungsqueue | Maximale Batch-Anfragen pro Batch |
---|---|---|
2,000 | 300,000 | 100,000 |
Maximale Anfragen pro Minute (RPM) | Maximale Batch-Anfragen in Verarbeitungsqueue | Maximale Batch-Anfragen pro Batch |
---|---|---|
4,000 | 500,000 | 100,000 |
Wenn Sie höhere Limits für einen Enterprise-Anwendungsfall suchen, kontaktieren Sie den Vertrieb über die Anthropic Console.
Long-Context-Ratenlimits
Bei Verwendung von Claude Sonnet 4 mit dem aktivierten 1M Token Kontextfenster gelten die folgenden dedizierten Ratenlimits für Anfragen, die 200K Token überschreiten.
Das 1M Token Kontextfenster befindet sich derzeit in der Beta für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits. Das 1M Token Kontextfenster ist nur für Claude Sonnet 4 verfügbar.
Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|
1,000,000 | 200,000 |
Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|
1,000,000 | 200,000 |
Für benutzerdefinierte Long-Context-Ratenlimits für Enterprise-Anwendungsfälle kontaktieren Sie den Vertrieb über die Anthropic Console.
Um das Beste aus dem 1M Token Kontextfenster mit Ratenlimits herauszuholen, verwenden Sie Prompt Caching.
Überwachung Ihrer Ratenlimits in der Console
Sie können Ihre Ratenlimit-Nutzung auf der Nutzung-Seite der Anthropic Console überwachen.
Zusätzlich zur Bereitstellung von Token- und Anfrage-Diagrammen bietet die Nutzungsseite zwei separate Ratenlimit-Diagramme. Verwenden Sie diese Diagramme, um zu sehen, welchen Spielraum Sie für Wachstum haben, wann Sie möglicherweise Spitzennutzung erreichen, besser zu verstehen, welche Ratenlimits Sie anfordern sollten, oder wie Sie Ihre Caching-Raten verbessern können. Die Diagramme visualisieren eine Reihe von Metriken für ein gegebenes Ratenlimit (z.B. pro Modell):
- Das Ratenlimit - Eingabe-Token Diagramm umfasst:
- Stündliche maximale nicht-gecachte Eingabe-Token pro Minute
- Ihr aktuelles Eingabe-Token pro Minute Ratenlimit
- Die Cache-Rate für Ihre Eingabe-Token (d.h. der Prozentsatz der Eingabe-Token, die aus dem Cache gelesen werden)
- Das Ratenlimit - Ausgabe-Token Diagramm umfasst:
- Stündliche maximale Ausgabe-Token pro Minute
- Ihr aktuelles Ausgabe-Token pro Minute Ratenlimit
Niedrigere Limits für Workspaces festlegen
Um Workspaces in Ihrer Organisation vor potentieller Übernutzung zu schützen, können Sie benutzerdefinierte Ausgaben- und Ratenlimits pro Workspace festlegen.
Beispiel: Wenn das Limit Ihrer Organisation 40,000 Eingabe-Token pro Minute und 8,000 Ausgabe-Token pro Minute beträgt, könnten Sie einen Workspace auf 30,000 Token insgesamt pro Minute begrenzen. Dies schützt andere Workspaces vor potentieller Übernutzung und gewährleistet eine gerechtere Verteilung der Ressourcen in Ihrer Organisation. Die verbleibenden ungenutzten Token pro Minute (oder mehr, wenn dieser Workspace das Limit nicht nutzt) stehen dann anderen Workspaces zur Verfügung.
Hinweis:
- Sie können keine Limits für den Standard-Workspace festlegen.
- Wenn nicht festgelegt, entsprechen Workspace-Limits dem Limit der Organisation.
- Organisationsweite Limits gelten immer, auch wenn Workspace-Limits zusammen mehr ergeben.
- Unterstützung für Eingabe- und Ausgabe-Token-Limits wird in Zukunft zu Workspaces hinzugefügt.
Response-Header
Die API-Antwort enthält Header, die Ihnen das durchgesetzte Ratenlimit, die aktuelle Nutzung und wann das Limit zurückgesetzt wird, zeigen.
Die folgenden Header werden zurückgegeben:
Header | Beschreibung |
---|---|
retry-after | Die Anzahl der Sekunden, die Sie warten müssen, bis Sie die Anfrage wiederholen können. Frühere Wiederholungen werden fehlschlagen. |
anthropic-ratelimit-requests-limit | Die maximale Anzahl von Anfragen, die innerhalb einer Ratenlimit-Periode erlaubt sind. |
anthropic-ratelimit-requests-remaining | Die Anzahl der verbleibenden Anfragen, bevor eine Ratenbegrenzung eintritt. |
anthropic-ratelimit-requests-reset | Die Zeit, wann das Anfrage-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. |
anthropic-ratelimit-tokens-limit | Die maximale Anzahl von Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. |
anthropic-ratelimit-tokens-remaining | Die Anzahl der verbleibenden Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. |
anthropic-ratelimit-tokens-reset | Die Zeit, wann das Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. |
anthropic-ratelimit-input-tokens-limit | Die maximale Anzahl von Eingabe-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. |
anthropic-ratelimit-input-tokens-remaining | Die Anzahl der verbleibenden Eingabe-Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. |
anthropic-ratelimit-input-tokens-reset | Die Zeit, wann das Eingabe-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. |
anthropic-ratelimit-output-tokens-limit | Die maximale Anzahl von Ausgabe-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. |
anthropic-ratelimit-output-tokens-remaining | Die Anzahl der verbleibenden Ausgabe-Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. |
anthropic-ratelimit-output-tokens-reset | Die Zeit, wann das Ausgabe-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. |
anthropic-priority-input-tokens-limit | Die maximale Anzahl von Priority Tier Eingabe-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. (Nur Priority Tier) |
anthropic-priority-input-tokens-remaining | Die Anzahl der verbleibenden Priority Tier Eingabe-Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. (Nur Priority Tier) |
anthropic-priority-input-tokens-reset | Die Zeit, wann das Priority Tier Eingabe-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. (Nur Priority Tier) |
anthropic-priority-output-tokens-limit | Die maximale Anzahl von Priority Tier Ausgabe-Token, die innerhalb einer Ratenlimit-Periode erlaubt sind. (Nur Priority Tier) |
anthropic-priority-output-tokens-remaining | Die Anzahl der verbleibenden Priority Tier Ausgabe-Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. (Nur Priority Tier) |
anthropic-priority-output-tokens-reset | Die Zeit, wann das Priority Tier Ausgabe-Token-Ratenlimit vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. (Nur Priority Tier) |
Die anthropic-ratelimit-tokens-*
Header zeigen die Werte für das restriktivste Limit an, das derzeit in Kraft ist. Wenn Sie beispielsweise das Workspace-pro-Minute-Token-Limit überschritten haben, enthalten die Header die Workspace-pro-Minute-Token-Ratenlimit-Werte. Wenn Workspace-Limits nicht gelten, geben die Header die verbleibenden Token insgesamt zurück, wobei insgesamt die Summe aus Eingabe- und Ausgabe-Token ist. Dieser Ansatz stellt sicher, dass Sie Einblick in die relevanteste Einschränkung Ihrer aktuellen API-Nutzung haben.