Service-Stufen - Claude Docs

Wir bieten drei Service-Stufen an:

Priority Tier: Ideal für Workflows, die in der Produktion bereitgestellt werden, wo Zeit, Verfügbarkeit und vorhersehbare Preisgestaltung wichtig sind
Standard: Standard-Stufe für Pilotprojekte und alltägliche Anwendungsfälle
Batch: Ideal für asynchrone Workflows, die warten können oder von einer Platzierung außerhalb Ihrer normalen Kapazität profitieren

Standard Tier

Die Standard-Stufe ist die Standard-Service-Stufe für alle API-Anfragen. Anfragen in dieser Stufe werden zusammen mit allen anderen Anfragen priorisiert und unterliegen einer Best-Effort-Verfügbarkeit.

Priority Tier

Anfragen in dieser Stufe werden gegenüber allen anderen Anfragen an Anthropic priorisiert. Diese Priorisierung hilft, “Server überlastet”-Fehler zu minimieren, auch während Spitzenzeiten. Weitere Informationen finden Sie unter Erste Schritte mit Priority Tier

Wie Anfragen Stufen zugewiesen werden

Bei der Verarbeitung einer Anfrage entscheidet Anthropic, eine Anfrage der Priority Tier in den folgenden Szenarien zuzuweisen:

Ihre Organisation hat ausreichende Priority Tier-Kapazität input Token pro Minute
Ihre Organisation hat ausreichende Priority Tier-Kapazität output Token pro Minute

Anthropic zählt die Nutzung gegen Priority Tier-Kapazität wie folgt: Input Token

Cache-Lesevorgänge als 0,1 Token pro Token, der aus dem Cache gelesen wird
Cache-Schreibvorgänge als 1,25 Token pro Token, der in den Cache mit 5 Minuten TTL geschrieben wird
Cache-Schreibvorgänge als 2,00 Token pro Token, der in den Cache mit 1 Stunde TTL geschrieben wird
Für Long-Context (>200k Input-Token) Anfragen sind Input-Token 2 Token pro Token
Alle anderen Input-Token sind 1 Token pro Token

Output Token

Für Long-Context (>200k Input-Token) Anfragen sind Output-Token 1,5 Token pro Token
Alle anderen Output-Token sind 1 Token pro Token

Andernfalls werden Anfragen mit Standard Tier verarbeitet.

Anfragen, die Priority Tier zugewiesen werden, nutzen sowohl die Priority Tier-Kapazität als auch die regulären Ratenlimits. Wenn die Verarbeitung der Anfrage die Ratenlimits überschreiten würde, wird die Anfrage abgelehnt.

Verwendung von Service-Stufen

Sie können steuern, welche Service-Stufen für eine Anfrage verwendet werden können, indem Sie den service_tier-Parameter setzen:

message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Automatically use Priority Tier when available, fallback to standard
)

Der service_tier-Parameter akzeptiert die folgenden Werte:

"auto" (Standard) - Verwendet die Priority Tier-Kapazität, falls verfügbar, andernfalls wird auf Ihre andere Kapazität zurückgegriffen
"standard_only" - Verwenden Sie nur Standard Tier-Kapazität, nützlich, wenn Sie Ihre Priority Tier-Kapazität nicht nutzen möchten

Das Antwortobjekt usage enthält auch die Service-Stufe, die der Anfrage zugewiesen wurde:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Dies ermöglicht es Ihnen, zu bestimmen, welche Service-Stufe der Anfrage zugewiesen wurde. Beim Anfordern von service_tier="auto" mit einem Modell mit Priority Tier-Verpflichtung bieten diese Antwortheader Einblicke:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Sie können das Vorhandensein dieser Header verwenden, um zu erkennen, ob Ihre Anfrage für Priority Tier berechtigt war, auch wenn sie über dem Limit lag.

Erste Schritte mit Priority Tier

Sie möchten möglicherweise Priority Tier-Kapazität in Anspruch nehmen, wenn Sie interessiert sind an:

Höhere Verfügbarkeit: Ziel 99,5% Verfügbarkeit mit priorisierten Rechenressourcen
Kostenkontrolle: Vorhersehbare Ausgaben und Rabatte für längere Verpflichtungen
Flexible Überlauf: Automatisches Fallback auf Standard Tier, wenn Sie Ihre zugesagte Kapazität überschreiten

Die Verpflichtung zu Priority Tier beinhaltet die Entscheidung über:

Eine Anzahl von Input-Token pro Minute
Eine Anzahl von Output-Token pro Minute
Eine Verpflichtungsdauer (1, 3, 6 oder 12 Monate)
Eine spezifische Modellversion

Das Verhältnis von Input- zu Output-Token, die Sie kaufen, ist wichtig. Die Dimensionierung Ihrer Priority Tier-Kapazität, um sie an Ihre tatsächlichen Verkehrsmuster auszurichten, hilft Ihnen, die Auslastung Ihrer gekauften Token zu maximieren.

Unterstützte Modelle

Priority Tier wird unterstützt von:

Claude Opus 4.1
Claude Opus 4
Claude Sonnet 4
Claude Sonnet 3.7
Claude Haiku 3.5

Weitere Details zu unseren Modellen finden Sie auf der Modellübersichtsseite.

Wie Sie auf Priority Tier zugreifen

Um Priority Tier zu verwenden:

Kontaktieren Sie den Vertrieb, um die Bereitstellung abzuschließen
(Optional) Aktualisieren Sie Ihre API-Anfragen, um optional den service_tier-Parameter auf auto zu setzen
Überwachen Sie Ihre Nutzung über Antwortheader und die Claude Console

​Standard Tier

​Priority Tier

​Wie Anfragen Stufen zugewiesen werden

​Verwendung von Service-Stufen

​Erste Schritte mit Priority Tier

​Unterstützte Modelle

​Wie Sie auf Priority Tier zugreifen

Standard Tier

Priority Tier

Wie Anfragen Stufen zugewiesen werden

Verwendung von Service-Stufen

Erste Schritte mit Priority Tier

Unterstützte Modelle

Wie Sie auf Priority Tier zugreifen