"computer-use-2025-01-24"(Claude 4 Modelle und Claude Sonnet 3.7 (veraltet))
Übersicht
Computer use ist eine Beta-Funktion, die Claude die Interaktion mit Desktop-Umgebungen ermöglicht. Dieses Tool bietet:- Screenshot-Erfassung: Sehen Sie, was derzeit auf dem Bildschirm angezeigt wird
- Maussteuerung: Klicken, ziehen und bewegen Sie den Cursor
- Tastatureingabe: Geben Sie Text ein und verwenden Sie Tastaturkombinationen
- Desktop-Automatisierung: Interagieren Sie mit jeder Anwendung oder Schnittstelle
Modellkompatibilität
Computer use ist für die folgenden Claude-Modelle verfügbar:| Modell | Tool-Version | Beta-Flag |
|---|---|---|
| Claude 4 Modelle | computer_20250124 | computer-use-2025-01-24 |
| Claude Sonnet 3.7 (veraltet) | computer_20250124 | computer-use-2025-01-24 |
Sicherheitsaspekte
- Verwenden Sie eine dedizierte virtuelle Maschine oder einen Container mit minimalen Berechtigungen, um direkte Systemangriffe oder Unfälle zu verhindern.
- Vermeiden Sie es, dem Modell Zugriff auf sensible Daten wie Anmeldeinformationen zu geben, um Informationsdiebstahl zu verhindern.
- Begrenzen Sie den Internetzugriff auf eine Whitelist von Domains, um die Exposition gegenüber bösartigen Inhalten zu reduzieren.
- Bitten Sie einen Menschen, Entscheidungen zu bestätigen, die zu bedeutsamen realen Konsequenzen führen könnten, sowie alle Aufgaben, die ausdrückliche Zustimmung erfordern, wie das Akzeptieren von Cookies, das Ausführen von Finanztransaktionen oder das Zustimmen zu Servicebedingungen.
Computer-Use-Referenzimplementierung
Schnellstart
So beginnen Sie mit Computer use:Wie Computer use funktioniert
1. Stellen Sie Claude das Computer-Use-Tool und einen Benutzer-Prompt zur Verfügung
- Fügen Sie das Computer-Use-Tool (und optional andere Tools) zu Ihrer API-Anfrage hinzu.
- Fügen Sie einen Benutzer-Prompt ein, der Desktop-Interaktion erfordert, z. B. „Speichern Sie ein Bild einer Katze auf meinem Desktop.”
2. Claude entscheidet sich, das Computer-Use-Tool zu verwenden
- Claude bewertet, ob das Computer-Use-Tool bei der Abfrage des Benutzers helfen kann.
- Falls ja, erstellt Claude eine ordnungsgemäß formatierte Tool-Use-Anfrage.
- Die API-Antwort hat einen
stop_reasonvontool_use, was Claudes Absicht signalisiert.
3. Extrahieren Sie die Tool-Eingabe, evaluieren Sie das Tool auf einem Computer und geben Sie die Ergebnisse zurück
- Extrahieren Sie auf Ihrer Seite den Tool-Namen und die Eingabe aus Claudes Anfrage.
- Verwenden Sie das Tool auf einem Container oder einer virtuellen Maschine.
- Setzen Sie das Gespräch mit einer neuen
user-Nachricht fort, die einentool_result-Inhaltsblock enthält.
4. Claude setzt die Verwendung von Computer-Use-Tools fort, bis die Aufgabe abgeschlossen ist
- Claude analysiert die Tool-Ergebnisse, um zu bestimmen, ob weitere Tool-Verwendung erforderlich ist oder die Aufgabe abgeschlossen ist.
- Wenn Claude entscheidet, dass es ein anderes Tool benötigt, antwortet es mit einem weiteren
tool_usestop_reasonund Sie sollten zu Schritt 3 zurückkehren. - Andernfalls erstellt es eine Textantwort für den Benutzer.
Die Computerumgebung
Computer use erfordert eine sandboxed Computerumgebung, in der Claude sicher mit Anwendungen und dem Web interagieren kann. Diese Umgebung umfasst:- Virtueller Display: Ein virtueller X11-Display-Server (mit Xvfb), der die Desktop-Schnittstelle rendert, die Claude durch Screenshots sehen wird und mit Maus-/Tastaturaktionen steuern wird.
- Desktop-Umgebung: Eine leichte Benutzeroberfläche mit Window Manager (Mutter) und Panel (Tint2), die auf Linux läuft und eine konsistente grafische Schnittstelle bietet, mit der Claude interagieren kann.
- Anwendungen: Vorinstallierte Linux-Anwendungen wie Firefox, LibreOffice, Text-Editoren und Dateimanager, die Claude zur Erfüllung von Aufgaben verwenden kann.
- Tool-Implementierungen: Integrationscode, der Claudes abstrakte Tool-Anfragen (wie „Maus bewegen” oder „Screenshot machen”) in tatsächliche Operationen in der virtuellen Umgebung übersetzt.
- Agent-Schleife: Ein Programm, das die Kommunikation zwischen Claude und der Umgebung handhabt, Claudes Aktionen an die Umgebung sendet und die Ergebnisse (Screenshots, Befehlsausgaben) an Claude zurückgibt.
- Empfängt Ihre Anwendung Claudes Tool-Use-Anfragen
- Übersetzt sie in Aktionen in Ihrer Computerumgebung
- Erfasst die Ergebnisse (Screenshots, Befehlsausgaben usw.)
- Gibt diese Ergebnisse an Claude zurück
Wie man Computer use implementiert
Beginnen Sie mit unserer Referenzimplementierung
Wir haben eine Referenzimplementierung erstellt, die alles enthält, was Sie benötigen, um schnell mit Computer use zu beginnen:- Eine containerisierte Umgebung, die für Computer use mit Claude geeignet ist
- Implementierungen der Computer-Use-Tools
- Eine Agent-Schleife, die mit der Claude API interagiert und die Computer-Use-Tools ausführt
- Eine Web-Schnittstelle zur Interaktion mit dem Container, der Agent-Schleife und den Tools.
Verstehen Sie die Multi-Agent-Schleife
Der Kern von Computer use ist die „Agent-Schleife” - ein Zyklus, in dem Claude Tool-Aktionen anfordert, Ihre Anwendung diese ausführt und die Ergebnisse an Claude zurückgibt. Hier ist ein vereinfachtes Beispiel:Claude 4 Modelle
Claude 4 Modelle
computer_20250124 verwenden, beziehen Sie dieses Beta-Flag ein:Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124 verwenden, beziehen Sie dieses Beta-Flag ein:Optimieren Sie die Modellleistung mit Prompting
Hier sind einige Tipps, wie Sie die beste Qualität der Ausgaben erhalten:- Geben Sie einfache, gut definierte Aufgaben an und geben Sie explizite Anweisungen für jeden Schritt.
- Claude nimmt manchmal die Ergebnisse seiner Aktionen an, ohne sie explizit zu überprüfen. Um dies zu verhindern, können Sie Claude mit
Nach jedem Schritt einen Screenshot machen und sorgfältig bewerten, ob Sie das richtige Ergebnis erreicht haben. Zeigen Sie Ihr Denken explizit: „Ich habe Schritt X bewertet..." Wenn nicht korrekt, versuchen Sie es erneut. Nur wenn Sie bestätigt haben, dass ein Schritt korrekt ausgeführt wurde, sollten Sie zum nächsten übergehen.auffordern. - Einige UI-Elemente (wie Dropdown-Menüs und Scrollbalken) könnten für Claude schwierig zu manipulieren sein, indem Mausbewegungen verwendet werden. Wenn Sie dies erleben, versuchen Sie, das Modell aufzufordern, Tastaturkombinationen zu verwenden.
- Für wiederholbare Aufgaben oder UI-Interaktionen beziehen Sie Beispiel-Screenshots und Tool-Aufrufe erfolgreicher Ergebnisse in Ihren Prompt ein.
- Wenn Sie das Modell anmelden müssen, geben Sie ihm den Benutzernamen und das Passwort in Ihrem Prompt in XML-Tags wie
<robot_credentials>an. Die Verwendung von Computer use in Anwendungen, die eine Anmeldung erfordern, erhöht das Risiko schlechter Ergebnisse aufgrund von Prompt-Injection. Bitte überprüfen Sie unseren Leitfaden zur Minderung von Prompt-Injektionen, bevor Sie dem Modell Anmeldeinformationen geben.
System-Prompts
Wenn eines der von Anthropic definierten Tools über die Claude API angefordert wird, wird ein Computer-Use-spezifischer System-Prompt generiert. Er ähnelt dem Tool-Use-System-Prompt, beginnt aber mit:Sie haben Zugriff auf eine Reihe von Funktionen, die Sie verwenden können, um die Frage des Benutzers zu beantworten. Dies umfasst Zugriff auf eine sandboxed Computerumgebung. Sie haben derzeit nicht die Möglichkeit, Dateien zu inspizieren oder auf externe Ressourcen zuzugreifen, außer durch Aufrufen der folgenden Funktionen.Wie bei regulärer Tool-Verwendung wird das vom Benutzer bereitgestellte
system_prompt-Feld weiterhin respektiert und bei der Konstruktion des kombinierten System-Prompts verwendet.
Verfügbare Aktionen
Das Computer-Use-Tool unterstützt diese Aktionen: Grundlegende Aktionen (alle Versionen)- screenshot - Erfassen Sie die aktuelle Anzeige
- left_click - Klicken Sie auf Koordinaten
[x, y] - type - Geben Sie eine Textzeichenkette ein
- key - Drücken Sie eine Taste oder Tastenkombination (z. B. „ctrl+s”)
- mouse_move - Bewegen Sie den Cursor zu Koordinaten
computer_20250124)
Verfügbar in Claude 4 Modellen und Claude Sonnet 3.7:
- scroll - Scrollen Sie in jede Richtung mit Mengensteuerung
- left_click_drag - Klicken und ziehen Sie zwischen Koordinaten
- right_click, middle_click - Zusätzliche Maustasten
- double_click, triple_click - Mehrfachklicks
- left_mouse_down, left_mouse_up - Feinkörnige Klicksteuerung
- hold_key - Halten Sie eine Taste, während Sie andere Aktionen ausführen
- wait - Machen Sie eine Pause zwischen Aktionen
Beispielaktionen
Beispielaktionen
Tool-Parameter
| Parameter | Erforderlich | Beschreibung |
|---|---|---|
type | Ja | Tool-Version (computer_20250124 oder computer_20241022) |
name | Ja | Muss „computer” sein |
display_width_px | Ja | Display-Breite in Pixeln |
display_height_px | Ja | Display-Höhe in Pixeln |
display_number | Nein | Display-Nummer für X11-Umgebungen |
Aktivieren Sie die Thinking-Fähigkeit in Claude 4 Modellen und Claude Sonnet 3.7
Claude Sonnet 3.7 führte eine neue „Thinking”-Fähigkeit ein, die es Ihnen ermöglicht, den Reasoning-Prozess des Modells zu sehen, während es komplexe Aufgaben durcharbeitet. Diese Funktion hilft Ihnen zu verstehen, wie Claude ein Problem angeht, und kann besonders wertvoll zum Debuggen oder für Bildungszwecke sein. Um Thinking zu aktivieren, fügen Sie einenthinking-Parameter zu Ihrer API-Anfrage hinzu:
budget_tokens-Parameter gibt an, wie viele Token Claude zum Denken verwenden kann. Dies wird von Ihrem Gesamtbudget max_tokens abgezogen.
Wenn Thinking aktiviert ist, gibt Claude seinen Reasoning-Prozess als Teil der Antwort zurück, was Ihnen helfen kann:
- Den Entscheidungsprozess des Modells zu verstehen
- Potenzielle Probleme oder Missverständnisse zu identifizieren
- Vom Ansatz von Claude zum Problemlösen zu lernen
- Mehr Sichtbarkeit in komplexe mehrstufige Operationen zu erhalten
Erweitern Sie Computer use mit anderen Tools
Das Computer-Use-Tool kann mit anderen Tools kombiniert werden, um leistungsfähigere Automatisierungs-Workflows zu erstellen. Dies ist besonders nützlich, wenn Sie:- Systembefehle ausführen müssen (Bash-Tool)
- Konfigurationsdateien oder Skripte bearbeiten müssen (Text-Editor-Tool)
- Mit benutzerdefinierten APIs oder Diensten integrieren müssen (benutzerdefinierte Tools)
Erstellen Sie eine benutzerdefinierte Computer-Use-Umgebung
Die Referenzimplementierung soll Ihnen helfen, schnell mit Computer use zu beginnen. Sie enthält alle Komponenten, die erforderlich sind, damit Claude einen Computer verwendet. Sie können jedoch Ihre eigene Umgebung für Computer use erstellen, um Ihre Anforderungen zu erfüllen. Sie benötigen:- Eine virtualisierte oder containerisierte Umgebung, die für Computer use mit Claude geeignet ist
- Eine Implementierung von mindestens einem der von Anthropic definierten Computer-Use-Tools
- Eine Agent-Schleife, die mit der Claude API interagiert und die
tool_use-Ergebnisse mit Ihren Tool-Implementierungen ausführt - Eine API oder Benutzeroberfläche, die Benutzereingaben ermöglicht, um die Agent-Schleife zu starten
Implementieren Sie das Computer-Use-Tool
Das Computer-Use-Tool wird als schemalooses Tool implementiert. Wenn Sie dieses Tool verwenden, müssen Sie kein Eingabeschema wie bei anderen Tools bereitstellen; das Schema ist in das Modell integriert und kann nicht geändert werden.Richten Sie Ihre Computerumgebung ein
Implementieren Sie Action-Handler
Verarbeiten Sie Claudes Tool-Aufrufe
Implementieren Sie die Agent-Schleife
Behandeln Sie Fehler
Bei der Implementierung des Computer-Use-Tools können verschiedene Fehler auftreten. So behandeln Sie diese:Screenshot-Erfassungsfehler
Screenshot-Erfassungsfehler
Ungültige Koordinaten
Ungültige Koordinaten
Action-Ausführungsfehler
Action-Ausführungsfehler
Befolgen Sie Best Practices für die Implementierung
Verwenden Sie eine angemessene Display-Auflösung
Verwenden Sie eine angemessene Display-Auflösung
- Für allgemeine Desktop-Aufgaben: 1024x768 oder 1280x720
- Für Webanwendungen: 1280x800 oder 1366x768
- Vermeiden Sie Auflösungen über 1920x1080, um Leistungsprobleme zu verhindern
Implementieren Sie ordnungsgemäße Screenshot-Behandlung
Implementieren Sie ordnungsgemäße Screenshot-Behandlung
- Codieren Sie Screenshots als Base64 PNG oder JPEG
- Erwägen Sie, große Screenshots zu komprimieren, um die Leistung zu verbessern
- Beziehen Sie relevante Metadaten wie Zeitstempel oder Display-Status ein
Fügen Sie Action-Verzögerungen hinzu
Fügen Sie Action-Verzögerungen hinzu
Validieren Sie Aktionen vor der Ausführung
Validieren Sie Aktionen vor der Ausführung
Protokollieren Sie Aktionen zum Debuggen
Protokollieren Sie Aktionen zum Debuggen
Verstehen Sie die Einschränkungen von Computer use
Die Computer-Use-Funktionalität befindet sich in der Beta-Phase. Während Claudes Fähigkeiten hochmodern sind, sollten Entwickler sich seiner Einschränkungen bewusst sein:- Latenz: Die aktuelle Computer-Use-Latenz für Mensch-KI-Interaktionen kann im Vergleich zu regulären von Menschen geleiteten Computeraktionen zu langsam sein. Wir empfehlen, sich auf Anwendungsfälle zu konzentrieren, bei denen Geschwindigkeit nicht kritisch ist (z. B. Hintergrund-Informationsbeschaffung, automatisierte Softwaretests) in vertrauenswürdigen Umgebungen.
- Genauigkeit und Zuverlässigkeit der Computervision: Claude kann Fehler machen oder halluzinieren, wenn er spezifische Koordinaten ausgibt, während er Aktionen generiert. Claude Sonnet 3.7 führt die Thinking-Fähigkeit ein, die Ihnen helfen kann, den Reasoning-Prozess des Modells zu verstehen und potenzielle Probleme zu identifizieren.
- Genauigkeit und Zuverlässigkeit der Tool-Auswahl: Claude kann Fehler machen oder halluzinieren, wenn er Tools auswählt, während er Aktionen generiert, oder unerwartete Aktionen durchführt, um Probleme zu lösen. Darüber hinaus kann die Zuverlässigkeit niedriger sein, wenn Sie mit Nischen-Anwendungen oder mehreren Anwendungen gleichzeitig interagieren. Wir empfehlen, dass Benutzer das Modell sorgfältig auffordern, wenn sie komplexe Aufgaben anfordern.
- Scroll-Zuverlässigkeit: Claude Sonnet 3.7 führte dedizierte Scroll-Aktionen mit Richtungssteuerung ein, die die Zuverlässigkeit verbessern. Das Modell kann jetzt explizit in jede Richtung (oben/unten/links/rechts) um einen angegebenen Betrag scrollen.
- Tabellenkalkulationsinteraktion: Mausklicks für die Tabellenkalkulationsinteraktion haben sich in Claude Sonnet 3.7 mit der Hinzufügung präziserer Maussteuerungsaktionen wie
left_mouse_down,left_mouse_upund neuer Modifier-Key-Unterstützung verbessert. Die Zellauswahl kann zuverlässiger sein, indem Sie diese feinkörnigen Steuerelemente verwenden und Modifier-Tasten mit Klicks kombinieren. - Kontoerstellung und Inhaltsgenerierung auf sozialen und Kommunikationsplattformen: Während Claude Websites besucht, begrenzen wir seine Fähigkeit, Konten zu erstellen oder Inhalte zu generieren und zu teilen oder sich anderweitig als Mensch auszugeben, auf sozialen Medien-Websites und Plattformen. Wir können diese Fähigkeit in Zukunft aktualisieren.
- Anfälligkeiten: Anfälligkeiten wie Jailbreaking oder Prompt-Injection können über Frontier-KI-Systeme bestehen bleiben, einschließlich der Beta-Computer-Use-API. In einigen Fällen folgt Claude Befehlen, die in Inhalten gefunden werden, manchmal sogar im Konflikt mit den Anweisungen des Benutzers. Zum Beispiel können Claude-Anweisungen auf Webseiten oder in Bildern Anweisungen überschreiben oder Claude dazu veranlassen, Fehler zu machen. Wir empfehlen: a. Begrenzen Sie Computer use auf vertrauenswürdige Umgebungen wie virtuelle Maschinen oder Container mit minimalen Berechtigungen b. Vermeiden Sie es, Computer use Zugriff auf sensible Konten oder Daten ohne strenge Überwachung zu geben c. Informieren Sie Endbenutzer über relevante Risiken und erhalten Sie ihre Zustimmung, bevor Sie Computer-Use-Funktionen in Ihren Anwendungen aktivieren oder Berechtigungen anfordern
- Unangemessene oder illegale Aktionen: Gemäß Anthropics Nutzungsbedingungen dürfen Sie Computer use nicht verwenden, um Gesetze zu verletzen oder gegen unsere Acceptable Use Policy zu verstoßen.
Preisgestaltung
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:| Model | Input tokens per tool definition |
|---|---|
| Claude 4.x models | 735 tokens |
| Claude Sonnet 3.7 (deprecated) | 735 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude