Unterstützte Modelle
Erweitertes Denken wird in den folgenden Modellen unterstützt:- Claude Sonnet 4.5 (
claude-sonnet-4-5-20250929) - Claude Sonnet 4 (
claude-sonnet-4-20250514) - Claude Sonnet 3.7 (
claude-3-7-sonnet-20250219) (veraltet) - Claude Haiku 4.5 (
claude-haiku-4-5-20251001) - Claude Opus 4.1 (
claude-opus-4-1-20250805) - Claude Opus 4 (
claude-opus-4-20250514)
Das API-Verhalten unterscheidet sich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, aber die API-Strukturen bleiben genau gleich.Weitere Informationen finden Sie unter Unterschiede beim Denken zwischen Modellversionen.
Wie erweitertes Denken funktioniert
Wenn erweitertes Denken aktiviert ist, erstellt Claudethinking Inhaltsblöcke, in denen es sein internes Denken ausgibt. Claude bezieht Erkenntnisse aus diesem Denken ein, bevor er eine endgültige Antwort formuliert.
Die API-Antwort enthält thinking Inhaltsblöcke, gefolgt von text Inhaltsblöcken.
Hier ist ein Beispiel des Standard-Antwortformats:
Wie man erweitertes Denken verwendet
Hier ist ein Beispiel für die Verwendung von erweitertem Denken in der Messages API:thinking Objekt hinzu, wobei der type Parameter auf enabled und budget_tokens auf ein angegebenes Token-Budget für erweitertes Denken gesetzt wird.
Der budget_tokens Parameter bestimmt die maximale Anzahl von Token, die Claude für seinen internen Denkprozess verwenden darf. Bei Claude 4 Modellen gilt diese Grenze für vollständige Denk-Token und nicht für die zusammengefasste Ausgabe. Größere Budgets können die Antwortqualität verbessern, indem sie gründlichere Analysen für komplexe Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget nutzt, besonders bei Werten über 32k.
budget_tokens muss auf einen Wert kleiner als max_tokens gesetzt werden. Wenn Sie jedoch verschachteltes Denken mit Tools verwenden, können Sie diese Grenze überschreiten, da die Token-Grenze Ihr gesamtes Kontextfenster wird (200k Token).
Zusammengefasstes Denken
Mit aktiviertem erweitertem Denken gibt die Messages API für Claude 4 Modelle eine Zusammenfassung von Claudes vollständigem Denkprozess zurück. Zusammengefasstes Denken bietet die vollständigen Intelligenzvorteile des erweiterten Denkens und verhindert gleichzeitig Missbrauch. Hier sind einige wichtige Überlegungen für zusammengefasstes Denken:- Sie werden für die vollständigen Denk-Token berechnet, die durch die ursprüngliche Anfrage generiert wurden, nicht für die Zusammenfassungs-Token.
- Die abgerechnete Ausgabe-Token-Anzahl wird nicht mit der Anzahl der Token übereinstimmen, die Sie in der Antwort sehen.
- Die ersten Zeilen der Denkausgabe sind ausführlicher und bieten detailliertes Denken, das besonders für Prompt-Engineering-Zwecke hilfreich ist.
- Während Anthropic versucht, die Funktion des erweiterten Denkens zu verbessern, unterliegt das Zusammenfassungsverhalten Änderungen.
- Die Zusammenfassung bewahrt die Schlüsselideen von Claudes Denkprozess mit minimaler zusätzlicher Latenz und ermöglicht eine streambare Benutzererfahrung und einfache Migration von Claude Sonnet 3.7 zu Claude 4 Modellen.
- Die Zusammenfassung wird von einem anderen Modell verarbeitet als dem, das Sie in Ihren Anfragen anvisieren. Das Denkmodell sieht die zusammengefasste Ausgabe nicht.
Claude Sonnet 3.7 gibt weiterhin vollständige Denkausgabe zurück.In seltenen Fällen, in denen Sie Zugriff auf vollständige Denkausgabe für Claude 4 Modelle benötigen, kontaktieren Sie unser Vertriebsteam.
Streaming-Denken
Sie können Antworten mit erweitertem Denken mit Server-Sent Events (SSE) streamen. Wenn Streaming für erweitertes Denken aktiviert ist, erhalten Sie Denkinhalte überthinking_delta Ereignisse.
Weitere Dokumentation zum Streaming über die Messages API finden Sie unter Streaming Messages.
Hier ist, wie Sie mit Streaming und Denken umgehen:
Wenn Sie Streaming mit aktiviertem Denken verwenden, können Sie bemerken, dass Text manchmal in größeren Blöcken ankommt, die mit kleinerer, Token-für-Token-Lieferung abwechseln. Dies ist erwartetes Verhalten, besonders für Denkinhalte.Das Streaming-System muss Inhalte in Batches für optimale Leistung verarbeiten, was zu diesem “klumpigen” Liefermuster führen kann, mit möglichen Verzögerungen zwischen Streaming-Ereignissen. Wir arbeiten kontinuierlich daran, diese Erfahrung zu verbessern, mit zukünftigen Updates, die sich auf ein sanfteres Streaming von Denkinhalten konzentrieren.
Erweitertes Denken mit Tool-Nutzung
Erweitertes Denken kann zusammen mit Tool-Nutzung verwendet werden, was Claude ermöglicht, die Auswahl von Tools und die Verarbeitung von Ergebnissen durchzudenken. Wenn Sie erweitertes Denken mit Tool-Nutzung verwenden, beachten Sie die folgenden Einschränkungen:-
Tool-Auswahl-Einschränkung: Tool-Nutzung mit Denken unterstützt nur
tool_choice: {"type": "auto"}(Standard) odertool_choice: {"type": "none"}. Die Verwendung vontool_choice: {"type": "any"}odertool_choice: {"type": "tool", "name": "..."}führt zu einem Fehler, da diese Optionen die Tool-Nutzung erzwingen, was mit erweitertem Denken nicht kompatibel ist. -
Bewahrung von Denkblöcken: Während der Tool-Nutzung müssen Sie
thinkingBlöcke für die letzte Assistenten-Nachricht an die API zurückgeben. Geben Sie den vollständigen unveränderten Block an die API zurück, um die Kontinuität des Denkens zu bewahren.
Umschalten von Denkmodi in Gesprächen
Sie können das Denken nicht in der Mitte eines Assistenten-Zuges umschalten, einschließlich während Tool-Nutzungs-Schleifen. Der gesamte Assistenten-Zug muss in einem einzigen Denkmodus arbeiten:- Wenn Denken aktiviert ist, muss der endgültige Assistenten-Zug mit einem Denkblock beginnen.
- Wenn Denken deaktiviert ist, darf der endgültige Assistenten-Zug keine Denkblöcke enthalten
Häufige Fehlerszenarien
Sie könnten auf diesen Fehler stoßen:- Sie Denken deaktiviert hatten während einer Tool-Nutzungs-Sequenz
- Sie Denken wieder aktivieren möchten
- Ihre letzte Assistenten-Nachricht Tool-Nutzungs-Blöcke enthält, aber keinen Denkblock
Praktische Anleitung
✗ Ungültig: Denken unmittelbar nach Tool-Nutzung umschaltenDas Umschalten von Denkmodi invalidiert auch Prompt-Caching für Nachrichtenverlauf. Weitere Details finden Sie im Abschnitt Erweitertes Denken mit Prompt-Caching.
Beispiel: Denkblöcke mit Tool-Ergebnissen übergeben
Beispiel: Denkblöcke mit Tool-Ergebnissen übergeben
Hier ist ein praktisches Beispiel, das zeigt, wie man Denkblöcke bei der Bereitstellung von Tool-Ergebnissen bewahrt:Die API-Antwort enthält Denk-, Text- und Tool-Nutzungs-Blöcke:Lassen Sie uns das Gespräch fortsetzen und das Tool verwendenDie API-Antwort enthält jetzt nur Text
Bewahrung von Denkblöcken
Während der Tool-Nutzung müssen Siethinking Blöcke an die API zurückgeben, und Sie müssen den vollständigen unveränderten Block an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Denkflusses des Modells und der Gesprächsintegrität.
Während Sie
thinking Blöcke aus vorherigen assistant Rollen-Zügen weglassen können, empfehlen wir, immer alle Denkblöcke an die API für jedes mehrteilige Gespräch zurückzugeben. Die API wird:- Die bereitgestellten Denkblöcke automatisch filtern
- Die relevanten Denkblöcke verwenden, die notwendig sind, um das Denken des Modells zu bewahren
- Nur die Eingabe-Token für die Blöcke berechnen, die Claude angezeigt werden
Wenn Sie Denkmodi während eines Gesprächs umschalten, denken Sie daran, dass der gesamte Assistenten-Zug (einschließlich Tool-Nutzungs-Schleifen) in einem einzigen Denkmodus arbeiten muss. Weitere Details finden Sie unter Umschalten von Denkmodi in Gesprächen.
- Denk-Kontinuität: Die Denkblöcke erfassen Claudes schrittweises Denken, das zu Tool-Anfragen führte. Wenn Sie Tool-Ergebnisse posten, stellt die Einbeziehung des ursprünglichen Denkens sicher, dass Claude sein Denken von dort fortsetzen kann, wo es aufgehört hat.
- Kontext-Erhaltung: Während Tool-Ergebnisse als Benutzer-Nachrichten in der API-Struktur erscheinen, sind sie Teil eines kontinuierlichen Denkflusses. Die Bewahrung von Denkblöcken erhält diesen konzeptionellen Fluss über mehrere API-Aufrufe hinweg. Weitere Informationen zur Kontext-Verwaltung finden Sie in unserem Leitfaden zu Kontextfenstern.
thinking Blöcke bereitstellen, muss die gesamte Sequenz aufeinanderfolgender thinking Blöcke den Ausgaben entsprechen, die das Modell während der ursprünglichen Anfrage generiert hat; Sie können die Sequenz dieser Blöcke nicht neu anordnen oder ändern.
Verschachteltes Denken
Erweitertes Denken mit Tool-Nutzung in Claude 4 Modellen unterstützt verschachteltes Denken, das Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach dem Empfang von Tool-Ergebnissen anspruchsvolleres Denken zu betreiben. Mit verschachteltem Denken kann Claude:- Über die Ergebnisse eines Tool-Aufrufs nachdenken, bevor es entscheidet, was als nächstes zu tun ist
- Mehrere Tool-Aufrufe mit Denkschritten dazwischen verketten
- Nuanciertere Entscheidungen basierend auf Zwischenergebnissen treffen
interleaved-thinking-2025-05-14 zu Ihrer API-Anfrage hinzu.
Hier sind einige wichtige Überlegungen für verschachteltes Denken:
- Mit verschachteltem Denken kann
budget_tokensdenmax_tokensParameter überschreiten, da es das Gesamtbudget über alle Denkblöcke innerhalb eines Assistenten-Zuges darstellt. - Verschachteltes Denken wird nur für Tools unterstützt, die über die Messages API verwendet werden.
- Verschachteltes Denken wird nur für Claude 4 Modelle mit dem Beta-Header
interleaved-thinking-2025-05-14unterstützt. - Direkte Aufrufe an die Claude API ermöglichen es Ihnen,
interleaved-thinking-2025-05-14in Anfragen an jedes Modell zu übergeben, ohne Auswirkungen. - Auf Plattformen von Drittanbietern (z.B. Amazon Bedrock und Vertex AI), wenn Sie
interleaved-thinking-2025-05-14an ein anderes Modell als Claude Opus 4.1, Opus 4 oder Sonnet 4 übergeben, schlägt Ihre Anfrage fehl.
Tool-Nutzung ohne verschachteltes Denken
Tool-Nutzung ohne verschachteltes Denken
- Claude denkt einmal am Anfang, um die Aufgabe zu verstehen
- Trifft alle Tool-Nutzungs-Entscheidungen im Voraus
- Wenn Tool-Ergebnisse zurückgegeben werden, gibt Claude sofort eine Antwort ohne zusätzliches Denken
Tool-Nutzung mit verschachteltem Denken
Tool-Nutzung mit verschachteltem Denken
- Claude denkt zunächst über die Aufgabe nach
- Nach Erhalt des Rechner-Ergebnisses kann Claude erneut darüber nachdenken, was dieses Ergebnis bedeutet
- Claude entscheidet dann, wie die Datenbank basierend auf dem ersten Ergebnis abgefragt werden soll
- Nach Erhalt des Datenbank-Ergebnisses denkt Claude noch einmal über beide Ergebnisse nach, bevor er eine endgültige Antwort formuliert
- Das Denk-Budget wird über alle Denkblöcke innerhalb des Zuges verteilt
Erweitertes Denken mit Prompt-Caching
Prompt-Caching mit Denken hat mehrere wichtige Überlegungen:Aufgaben mit erweitertem Denken dauern oft länger als 5 Minuten. Erwägen Sie die Verwendung der 1-Stunden-Cache-Dauer, um Cache-Treffer über längere Denksitzungen und mehrstufige Workflows hinweg zu erhalten.
- Denkblöcke aus vorherigen Zügen werden aus dem Kontext entfernt, was Cache-Haltepunkte beeinflussen kann
- Wenn Gespräche mit Tool-Nutzung fortgesetzt werden, werden Denkblöcke zwischengespeichert und zählen als Eingabe-Token, wenn sie aus dem Cache gelesen werden
- Dies schafft einen Kompromiss: Während Denkblöcke visuell keinen Kontextfensterplatz verbrauchen, zählen sie dennoch zu Ihrer Eingabe-Token-Nutzung, wenn sie zwischengespeichert werden
- Wenn Denken deaktiviert wird, schlagen Anfragen fehl, wenn Sie Denkinhalte im aktuellen Tool-Nutzungs-Zug übergeben. In anderen Kontexten wird Denkinhalte, die an die API übergeben werden, einfach ignoriert
- Änderungen an Denkparametern (aktiviert/deaktiviert oder Budget-Zuweisung) invalidieren Nachrichten-Cache-Haltepunkte
- Verschachteltes Denken verstärkt Cache-Invalidierung, da Denkblöcke zwischen mehreren Tool-Aufrufen auftreten können
- System-Prompts und Tools bleiben trotz Änderungen der Denkparameter oder Block-Entfernung zwischengespeichert
Während Denkblöcke für Caching und Kontextberechnungen entfernt werden, müssen sie bei der Fortsetzung von Gesprächen mit Tool-Nutzung bewahrt werden, besonders mit verschachteltem Denken.
Verständnis des Caching-Verhaltens von Denkblöcken
Wenn Sie erweitertes Denken mit Tool-Nutzung verwenden, zeigen Denkblöcke ein spezifisches Caching-Verhalten, das die Token-Zählung beeinflusst: Wie es funktioniert:- Caching tritt nur auf, wenn Sie eine nachfolgende Anfrage stellen, die Tool-Ergebnisse enthält
- Wenn die nachfolgende Anfrage gestellt wird, kann der vorherige Gesprächsverlauf (einschließlich Denkblöcke) zwischengespeichert werden
- Diese zwischengespeicherten Denkblöcke zählen als Eingabe-Token in Ihren Nutzungsmetriken, wenn sie aus dem Cache gelesen werden
- Wenn ein nicht-Tool-Ergebnis-Benutzer-Block enthalten ist, werden alle vorherigen Denkblöcke ignoriert und aus dem Kontext entfernt
- Dieses Caching-Verhalten geschieht automatisch, auch ohne explizite
cache_controlMarkierungen - Dieses Verhalten ist konsistent, ob Sie reguläres Denken oder verschachteltes Denken verwenden
System-Prompt-Caching (bewahrt, wenn Denken sich ändert)
System-Prompt-Caching (bewahrt, wenn Denken sich ändert)
Nachrichten-Caching (invalidiert, wenn Denken sich ändert)
Nachrichten-Caching (invalidiert, wenn Denken sich ändert)
cache_creation_input_tokens=1370 und cache_read_input_tokens=0, was beweist, dass Nachrichten-basiertes Caching invalidiert wird, wenn sich Denkparameter ändern.Max-Token und Kontextfenstergröße mit erweitertem Denken
Bei älteren Claude-Modellen (vor Claude Sonnet 3.7) würde das System automatischmax_tokens anpassen, um in die Kontextgrenze zu passen, wenn die Summe von Prompt-Token und max_tokens das Kontextfenster des Modells überschreitet. Dies bedeutete, dass Sie einen großen max_tokens Wert setzen konnten und das System würde ihn nach Bedarf stille reduzieren.
Bei Claude 3.7 und 4 Modellen wird max_tokens (das Ihr Denk-Budget enthält, wenn Denken aktiviert ist) als strikte Grenze durchgesetzt. Das System gibt jetzt einen Validierungsfehler zurück, wenn Prompt-Token + max_tokens die Kontextfenstergröße überschreitet.
Sie können unseren Leitfaden zu Kontextfenstern für einen gründlicheren Überblick lesen.
Das Kontextfenster mit erweitertem Denken
Bei der Berechnung der Kontextfenster-Nutzung mit aktiviertem Denken gibt es einige Überlegungen:- Denkblöcke aus vorherigen Zügen werden entfernt und nicht zu Ihrem Kontextfenster gezählt
- Aktuelles Denken zählt zu Ihrer
max_tokensGrenze für diesen Zug
Das Kontextfenster mit erweitertem Denken und Tool-Nutzung
Wenn Sie erweitertes Denken mit Tool-Nutzung verwenden, müssen Denkblöcke explizit bewahrt und mit den Tool-Ergebnissen zurückgegeben werden. Die effektive Kontextfenster-Berechnung für erweitertes Denken mit Tool-Nutzung wird zu:Verwaltung von Token mit erweitertem Denken
Angesichts des Kontextfensters undmax_tokens Verhaltens mit erweitertem Denken Claude 3.7 und 4 Modellen müssen Sie möglicherweise:
- Ihre Token-Nutzung aktiver überwachen und verwalten
max_tokensWerte anpassen, wenn sich Ihre Prompt-Länge ändert- Möglicherweise die Token-Zähl-Endpunkte häufiger verwenden
- Beachten, dass vorherige Denkblöcke sich nicht in Ihrem Kontextfenster ansammeln
Denk-Verschlüsselung
Vollständiger Denkinhalt wird verschlüsselt und imsignature Feld zurückgegeben. Dieses Feld wird verwendet, um zu überprüfen, dass Denkblöcke von Claude generiert wurden, wenn sie an die API zurückgegeben werden.
Es ist nur streng notwendig, Denkblöcke zurückzugeben, wenn Sie Tools mit erweitertem Denken verwenden. Ansonsten können Sie Denkblöcke aus vorherigen Zügen weglassen oder die API sie für Sie entfernen lassen, wenn Sie sie zurückgeben.Wenn Sie Denkblöcke zurückgeben, empfehlen wir, alles so zurückzugeben, wie Sie es erhalten haben, um Konsistenz zu gewährleisten und potenzielle Probleme zu vermeiden.
- Wenn Sie Antworten streamen, wird die Signatur über ein
signature_deltainnerhalb einescontent_block_deltaEreignisses kurz vor demcontent_block_stopEreignis hinzugefügt. signatureWerte sind in Claude 4 Modellen erheblich länger als in vorherigen Modellen.- Das
signatureFeld ist ein undurchsichtiges Feld und sollte nicht interpretiert oder analysiert werden - es existiert ausschließlich zu Verifizierungszwecken. signatureWerte sind über Plattformen kompatibel (Claude APIs, Amazon Bedrock und Vertex AI). Werte, die auf einer Plattform generiert werden, sind mit einer anderen kompatibel.
Denk-Redaktion
Gelegentlich wird Claudes internes Denken von unseren Sicherheitssystemen gekennzeichnet. Wenn dies geschieht, verschlüsseln wir einen Teil oder alle desthinking Blocks und geben ihn als redacted_thinking Block an Sie zurück. redacted_thinking Blöcke werden entschlüsselt, wenn sie an die API zurückgegeben werden, was Claude ermöglicht, seine Antwort fortzusetzen, ohne den Kontext zu verlieren.
Beim Erstellen von kundenorientierten Anwendungen, die erweitertes Denken verwenden:
- Seien Sie sich bewusst, dass redacted thinking Blöcke verschlüsselte Inhalte enthalten, die nicht von Menschen lesbar sind
- Erwägen Sie, eine einfache Erklärung wie: “Einige von Claudes internem Denken wurden automatisch aus Sicherheitsgründen verschlüsselt. Dies beeinträchtigt nicht die Qualität der Antworten.” bereitzustellen
- Wenn Sie Denkblöcke Benutzern zeigen, können Sie redacted Blöcke filtern, während Sie normale Denkblöcke bewahren
- Seien Sie transparent, dass die Verwendung von erweiterten Denkfunktionen gelegentlich dazu führen kann, dass einige Überlegungen verschlüsselt werden
- Implementieren Sie angemessene Fehlerbehandlung, um redacted Denken elegant zu verwalten, ohne Ihre Benutzeroberfläche zu unterbrechen
Das Sehen von redacted Denkblöcken in Ihrer Ausgabe ist erwartetes Verhalten. Das Modell kann dieses redacted Denken immer noch verwenden, um seine Antworten zu informieren, während es Sicherheitsvorkehrungen aufrechterhält.Wenn Sie redacted Denken-Verarbeitung in Ihrer Anwendung testen müssen, können Sie diese spezielle Test-Zeichenkette als Ihren Prompt verwenden:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CBthinking und redacted_thinking Blöcke in einem mehrteiligen Gespräch an die API zurückgeben, müssen Sie den vollständigen unveränderten Block für den letzten Assistenten-Zug an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Denkflusses des Modells. Wir empfehlen, immer alle Denkblöcke an die API zurückzugeben. Weitere Details finden Sie im Abschnitt Bewahrung von Denkblöcken oben.
Beispiel: Arbeiten mit redacted Denkblöcken
Beispiel: Arbeiten mit redacted Denkblöcken
Dieses Beispiel zeigt, wie man
redacted_thinking Blöcke verarbeitet, die in Antworten erscheinen können, wenn Claudes internes Denken Inhalte enthält, die von Sicherheitssystemen gekennzeichnet werden:Unterschiede beim Denken zwischen Modellversionen
Die Messages API verarbeitet Denken unterschiedlich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, hauptsächlich in Redaktions- und Zusammenfassungsverhalten. Siehe die Tabelle unten für einen komprimierten Vergleich:| Funktion | Claude Sonnet 3.7 | Claude 4 Modelle |
|---|---|---|
| Denkausgabe | Gibt vollständige Denkausgabe zurück | Gibt zusammengefasstes Denken zurück |
| Verschachteltes Denken | Nicht unterstützt | Unterstützt mit interleaved-thinking-2025-05-14 Beta-Header |
Preisgestaltung
Erweitertes Denken verwendet das Standard-Token-Preisschema:| Modell | Basis-Eingabe-Token | Cache-Schreibvorgänge | Cache-Treffer | Ausgabe-Token |
|---|---|---|---|---|
| Claude Opus 4.1 | $15 / MTok | $18,75 / MTok | $1,50 / MTok | $75 / MTok |
| Claude Opus 4 | $15 / MTok | $18,75 / MTok | $1,50 / MTok | $75 / MTok |
| Claude Sonnet 4.5 | $3 / MTok | $3,75 / MTok | $0,30 / MTok | $15 / MTok |
| Claude Sonnet 4 | $3 / MTok | $3,75 / MTok | $0,30 / MTok | $15 / MTok |
| Claude Sonnet 3.7 | $3 / MTok | $3,75 / MTok | $0,30 / MTok | $15 / MTok |
- Token, die während des Denkens verwendet werden (Ausgabe-Token)
- Denkblöcke aus dem letzten Assistenten-Zug, die in nachfolgenden Anfragen enthalten sind (Eingabe-Token)
- Standard-Text-Ausgabe-Token
Wenn erweitertes Denken aktiviert ist, wird automatisch ein spezialisierter System-Prompt einbezogen, um diese Funktion zu unterstützen.
- Eingabe-Token: Token in Ihrer ursprünglichen Anfrage (schließt Denk-Token aus vorherigen Zügen aus)
- Ausgabe-Token (abgerechnet): Die ursprünglichen Denk-Token, die Claude intern generiert hat
- Ausgabe-Token (sichtbar): Die zusammengefassten Denk-Token, die Sie in der Antwort sehen
- Keine Gebühr: Token, die verwendet werden, um die Zusammenfassung zu generieren
Die abgerechnete Ausgabe-Token-Anzahl wird nicht mit der sichtbaren Token-Anzahl in der Antwort übereinstimmen. Sie werden für den vollständigen Denkprozess abgerechnet, nicht für die Zusammenfassung, die Sie sehen.
Best Practices und Überlegungen für erweitertes Denken
Arbeiten mit Denk-Budgets
- Budget-Optimierung: Das Mindestbudget beträgt 1.024 Token. Wir empfehlen, mit dem Minimum zu beginnen und das Denk-Budget schrittweise zu erhöhen, um den optimalen Bereich für Ihren Anwendungsfall zu finden. Höhere Token-Zählungen ermöglichen umfassenderes Denken, aber mit sinkenden Erträgen je nach Aufgabe. Die Erhöhung des Budgets kann die Antwortqualität verbessern, auf Kosten erhöhter Latenz. Für kritische Aufgaben testen Sie verschiedene Einstellungen, um das optimale Gleichgewicht zu finden. Beachten Sie, dass das Denk-Budget eher ein Ziel als eine strikte Grenze ist – die tatsächliche Token-Nutzung kann je nach Aufgabe variieren.
- Startpunkte: Beginnen Sie mit größeren Denk-Budgets (16k+ Token) für komplexe Aufgaben und passen Sie nach Bedarf an.
- Große Budgets: Für Denk-Budgets über 32k empfehlen wir die Verwendung von Batch-Verarbeitung, um Netzwerkprobleme zu vermeiden. Anfragen, die das Modell dazu bringen, über 32k Token zu denken, verursachen lange laufende Anfragen, die möglicherweise auf System-Timeouts und offene Verbindungsgrenzen stoßen.
- Token-Nutzungs-Tracking: Überwachen Sie die Denk-Token-Nutzung, um Kosten und Leistung zu optimieren.
Leistungsüberlegungen
- Antwortzeiten: Seien Sie auf möglicherweise längere Antwortzeiten vorbereitet, da zusätzliche Verarbeitung für den Denkprozess erforderlich ist. Berücksichtigen Sie, dass die Generierung von Denkblöcken die Gesamtantwortzeit erhöhen kann.
- Streaming-Anforderungen: Streaming ist erforderlich, wenn
max_tokensgrößer als 21.333 ist. Beim Streaming seien Sie bereit, sowohl Denk- als auch Text-Inhaltsblöcke zu verarbeiten, wenn sie ankommen.
Feature-Kompatibilität
- Denken ist nicht kompatibel mit
temperatureodertop_kÄnderungen sowie erzwungener Tool-Nutzung. - Wenn Denken aktiviert ist, können Sie
top_pauf Werte zwischen 1 und 0,95 setzen. - Sie können Antworten nicht vorausfüllen, wenn Denken aktiviert ist.
- Änderungen am Denk-Budget invalidieren zwischengespeicherte Prompt-Präfixe, die Nachrichten enthalten. Zwischengespeicherte System-Prompts und Tool-Definitionen funktionieren jedoch weiterhin, wenn sich Denkparameter ändern.
Nutzungsrichtlinien
- Aufgabenauswahl: Verwenden Sie erweitertes Denken für besonders komplexe Aufgaben, die von schrittweisem Denken profitieren, wie Mathematik, Codierung und Analyse.
- Kontext-Verarbeitung: Sie müssen vorherige Denkblöcke nicht selbst entfernen. Die Claude API ignoriert automatisch Denkblöcke aus vorherigen Zügen und sie werden nicht bei der Berechnung der Kontextnutzung einbezogen.
- Prompt-Engineering: Lesen Sie unsere Tipps zum Prompt-Engineering für erweitertes Denken, wenn Sie Claudes Denkfähigkeiten maximieren möchten.