"computer-use-2025-01-24"(modelli Claude 4 e Claude Sonnet 3.7 (deprecato))
Panoramica
L’utilizzo del computer è una funzione beta che consente a Claude di interagire con ambienti desktop. Questo strumento fornisce:- Acquisizione di screenshot: Vedi cosa è attualmente visualizzato sullo schermo
- Controllo del mouse: Fai clic, trascina e sposta il cursore
- Input da tastiera: Digita testo e utilizza scorciatoie da tastiera
- Automazione del desktop: Interagisci con qualsiasi applicazione o interfaccia
Compatibilità del modello
L’utilizzo del computer è disponibile per i seguenti modelli Claude:| Modello | Versione dello strumento | Flag Beta |
|---|---|---|
| Modelli Claude 4 | computer_20250124 | computer-use-2025-01-24 |
| Claude Sonnet 3.7 (deprecato) | computer_20250124 | computer-use-2025-01-24 |
Considerazioni sulla sicurezza
- Utilizza una macchina virtuale dedicata o un contenitore con privilegi minimi per prevenire attacchi diretti al sistema o incidenti.
- Evita di dare al modello accesso a dati sensibili, come informazioni di accesso all’account, per prevenire il furto di informazioni.
- Limita l’accesso a Internet a un elenco consentito di domini per ridurre l’esposizione a contenuti dannosi.
- Chiedi a un essere umano di confermare le decisioni che potrebbero avere conseguenze significative nel mondo reale, nonché qualsiasi attività che richieda consenso affermativo, come accettare i cookie, eseguire transazioni finanziarie o accettare i termini di servizio.
Implementazione di riferimento per l'utilizzo del computer
Avvio rapido
Ecco come iniziare con l’utilizzo del computer:Come funziona l’utilizzo del computer
1. Fornisci a Claude lo strumento di utilizzo del computer e un prompt dell'utente
- Aggiungi lo strumento di utilizzo del computer (e facoltativamente altri strumenti) alla tua richiesta API.
- Includi un prompt dell’utente che richiede l’interazione con il desktop, ad es. “Salva un’immagine di un gatto sul mio desktop.”
2. Claude decide di utilizzare lo strumento di utilizzo del computer
- Claude valuta se lo strumento di utilizzo del computer può aiutare con la query dell’utente.
- Se sì, Claude costruisce una richiesta di utilizzo dello strumento correttamente formattata.
- La risposta API ha un
stop_reasonditool_use, segnalando l’intenzione di Claude.
3. Estrai l'input dello strumento, valuta lo strumento su un computer e restituisci i risultati
- Da parte tua, estrai il nome dello strumento e l’input dalla richiesta di Claude.
- Utilizza lo strumento su un contenitore o una macchina virtuale.
- Continua la conversazione con un nuovo messaggio
usercontenente un blocco di contenutotool_result.
4. Claude continua a chiamare gli strumenti di utilizzo del computer fino al completamento dell'attività
- Claude analizza i risultati dello strumento per determinare se è necessario un ulteriore utilizzo dello strumento o se l’attività è stata completata.
- Se Claude decide che ha bisogno di un altro strumento, risponde con un altro
stop_reasonditool_usee dovresti tornare al passaggio 3. - Altrimenti, crea una risposta di testo per l’utente.
L’ambiente informatico
L’utilizzo del computer richiede un ambiente informatico sandbox in cui Claude può interagire in sicurezza con applicazioni e il web. Questo ambiente include:- Display virtuale: Un server di display X11 virtuale (utilizzando Xvfb) che renderizza l’interfaccia desktop che Claude vedrà attraverso gli screenshot e controllerà con le azioni del mouse/tastiera.
- Ambiente desktop: Un’interfaccia utente leggera con gestore di finestre (Mutter) e pannello (Tint2) in esecuzione su Linux, che fornisce un’interfaccia grafica coerente con cui Claude può interagire.
- Applicazioni: Applicazioni Linux preinstallate come Firefox, LibreOffice, editor di testo e gestori di file che Claude può utilizzare per completare le attività.
- Implementazioni di strumenti: Codice di integrazione che traduce le richieste di strumenti astratti di Claude (come “sposta il mouse” o “acquisisci uno screenshot”) in operazioni effettive nell’ambiente virtuale.
- Ciclo di agenti: Un programma che gestisce la comunicazione tra Claude e l’ambiente, inviando le azioni di Claude all’ambiente e restituendo i risultati (screenshot, output dei comandi) a Claude.
- Riceve le richieste di utilizzo dello strumento di Claude
- Le traduce in azioni nel tuo ambiente informatico
- Acquisisce i risultati (screenshot, output dei comandi, ecc.)
- Restituisce questi risultati a Claude
Come implementare l’utilizzo del computer
Inizia con la nostra implementazione di riferimento
Abbiamo costruito un’implementazione di riferimento che include tutto ciò di cui hai bisogno per iniziare rapidamente con l’utilizzo del computer:- Un ambiente containerizzato adatto all’utilizzo del computer con Claude
- Implementazioni dei strumenti di utilizzo del computer
- Un ciclo di agenti che interagisce con l’API Claude ed esegue gli strumenti di utilizzo del computer
- Un’interfaccia web per interagire con il contenitore, il ciclo di agenti e gli strumenti.
Comprendere il ciclo multi-agente
Il nucleo dell’utilizzo del computer è il “ciclo di agenti” - un ciclo in cui Claude richiede azioni dello strumento, la tua applicazione le esegue e restituisce i risultati a Claude. Ecco un esempio semplificato:Modelli Claude 4
Modelli Claude 4
computer_20250124, includi questo flag beta:Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124, includi questo flag beta:Ottimizza le prestazioni del modello con i prompt
Ecco alcuni suggerimenti su come ottenere i migliori risultati di qualità:- Specifica attività semplici e ben definite e fornisci istruzioni esplicite per ogni passaggio.
- Claude a volte assume i risultati delle sue azioni senza controllare esplicitamente i loro risultati. Per prevenire questo, puoi invitare Claude con
Dopo ogni passaggio, acquisisci uno screenshot e valuta attentamente se hai raggiunto il risultato corretto. Mostra esplicitamente il tuo ragionamento: "Ho valutato il passaggio X..." Se non è corretto, riprova. Solo quando hai confermato che un passaggio è stato eseguito correttamente dovresti passare al successivo. - Alcuni elementi dell’interfaccia utente (come menu a discesa e barre di scorrimento) potrebbero essere difficili da manipolare per Claude utilizzando i movimenti del mouse. Se riscontri questo problema, prova a invitare il modello a utilizzare scorciatoie da tastiera.
- Per attività ripetibili o interazioni dell’interfaccia utente, includi screenshot di esempio e chiamate di strumenti di risultati riusciti nel tuo prompt.
- Se hai bisogno che il modello acceda, forniscigli il nome utente e la password nel tuo prompt all’interno di tag xml come
<robot_credentials>. L’utilizzo dell’utilizzo del computer all’interno di applicazioni che richiedono l’accesso aumenta il rischio di cattivi risultati a causa dell’iniezione di prompt. Consulta la nostra guida sulla mitigazione delle iniezioni di prompt prima di fornire al modello le credenziali di accesso.
Prompt di sistema
Quando uno degli strumenti definiti da Anthropic viene richiesto tramite l’API Claude, viene generato un prompt di sistema specifico per l’utilizzo del computer. È simile al prompt di sistema di utilizzo dello strumento ma inizia con:Hai accesso a un set di funzioni che puoi utilizzare per rispondere alla domanda dell’utente. Questo include l’accesso a un ambiente informatico sandbox. Attualmente non hai la capacità di ispezionare file o interagire con risorse esterne, se non invocando le funzioni sottostanti.Come con l’utilizzo regolare dello strumento, il campo
system_prompt fornito dall’utente è ancora rispettato e utilizzato nella costruzione del prompt di sistema combinato.
Azioni disponibili
Lo strumento di utilizzo del computer supporta queste azioni: Azioni di base (tutte le versioni)- screenshot - Acquisisci il display corrente
- left_click - Fai clic alle coordinate
[x, y] - type - Digita una stringa di testo
- key - Premi un tasto o una combinazione di tasti (ad es. “ctrl+s”)
- mouse_move - Sposta il cursore alle coordinate
computer_20250124)
Disponibili nei modelli Claude 4 e Claude Sonnet 3.7:
- scroll - Scorri in qualsiasi direzione con controllo della quantità
- left_click_drag - Fai clic e trascina tra le coordinate
- right_click, middle_click - Pulsanti del mouse aggiuntivi
- double_click, triple_click - Clic multipli
- left_mouse_down, left_mouse_up - Controllo granulare del clic
- hold_key - Tieni premuto un tasto mentre esegui altre azioni
- wait - Pausa tra le azioni
Azioni di esempio
Azioni di esempio
Parametri dello strumento
| Parametro | Obbligatorio | Descrizione |
|---|---|---|
type | Sì | Versione dello strumento (computer_20250124 o computer_20241022) |
name | Sì | Deve essere “computer” |
display_width_px | Sì | Larghezza del display in pixel |
display_height_px | Sì | Altezza del display in pixel |
display_number | No | Numero di display per ambienti X11 |
Abilita la capacità di pensiero nei modelli Claude 4 e Claude Sonnet 3.7
Claude Sonnet 3.7 ha introdotto una nuova capacità di “pensiero” che ti consente di vedere il processo di ragionamento del modello mentre lavora su attività complesse. Questa funzione ti aiuta a comprendere come Claude sta affrontando un problema e può essere particolarmente preziosa per il debug o scopi educativi. Per abilitare il pensiero, aggiungi un parametrothinking alla tua richiesta API:
budget_tokens specifica quanti token Claude può utilizzare per il pensiero. Questo viene sottratto dal tuo budget complessivo di max_tokens.
Quando il pensiero è abilitato, Claude restituirà il suo processo di ragionamento come parte della risposta, che può aiutarti a:
- Comprendere il processo decisionale del modello
- Identificare potenziali problemi o malintesi
- Imparare dall’approccio di Claude alla risoluzione dei problemi
- Ottenere maggiore visibilità nelle operazioni multi-step complesse
Aumentare l’utilizzo del computer con altri strumenti
Lo strumento di utilizzo del computer può essere combinato con altri strumenti per creare flussi di lavoro di automazione più potenti. Questo è particolarmente utile quando hai bisogno di:- Eseguire comandi di sistema (strumento bash)
- Modificare file di configurazione o script (strumento editor di testo)
- Integrarsi con API personalizzate o servizi (strumenti personalizzati)
Costruisci un ambiente di utilizzo del computer personalizzato
L’implementazione di riferimento è destinata ad aiutarti a iniziare con l’utilizzo del computer. Include tutti i componenti necessari per far utilizzare a Claude un computer. Tuttavia, puoi costruire il tuo ambiente per l’utilizzo del computer per adattarsi alle tue esigenze. Avrai bisogno di:- Un ambiente virtualizzato o containerizzato adatto all’utilizzo del computer con Claude
- Un’implementazione di almeno uno degli strumenti di utilizzo del computer definiti da Anthropic
- Un ciclo di agenti che interagisce con l’API Claude ed esegue i risultati di
tool_useutilizzando le tue implementazioni di strumenti - Un’API o un’interfaccia utente che consenta l’input dell’utente per avviare il ciclo di agenti
Implementa lo strumento di utilizzo del computer
Lo strumento di utilizzo del computer è implementato come uno strumento senza schema. Quando utilizzi questo strumento, non hai bisogno di fornire uno schema di input come con altri strumenti; lo schema è integrato nel modello di Claude e non può essere modificato.Configura il tuo ambiente informatico
Implementa gestori di azioni
Elabora le chiamate di strumenti di Claude
Implementa il ciclo di agenti
Gestisci gli errori
Quando implementi lo strumento di utilizzo del computer, possono verificarsi vari errori. Ecco come gestirli:Errore di acquisizione dello screenshot
Errore di acquisizione dello screenshot
Coordinate non valide
Coordinate non valide
Errore di esecuzione dell'azione
Errore di esecuzione dell'azione
Segui le migliori pratiche di implementazione
Utilizza la risoluzione del display appropriata
Utilizza la risoluzione del display appropriata
- Per attività desktop generali: 1024x768 o 1280x720
- Per applicazioni web: 1280x800 o 1366x768
- Evita risoluzioni superiori a 1920x1080 per prevenire problemi di prestazioni
Implementa la gestione corretta dello screenshot
Implementa la gestione corretta dello screenshot
- Codifica gli screenshot come PNG o JPEG in base64
- Considera la compressione di screenshot di grandi dimensioni per migliorare le prestazioni
- Includi metadati rilevanti come timestamp o stato del display
Aggiungi ritardi di azione
Aggiungi ritardi di azione
Convalida le azioni prima dell'esecuzione
Convalida le azioni prima dell'esecuzione
Registra le azioni per il debug
Registra le azioni per il debug
Comprendi i limiti dell’utilizzo del computer
La funzionalità di utilizzo del computer è in beta. Sebbene le capacità di Claude siano all’avanguardia, gli sviluppatori dovrebbero essere consapevoli dei suoi limiti:- Latenza: la latenza attuale di utilizzo del computer per le interazioni uomo-IA potrebbe essere troppo lenta rispetto alle azioni del computer dirette regolari. Consigliamo di concentrarsi su casi d’uso in cui la velocità non è critica (ad es. raccolta di informazioni di background, test automatizzato del software) in ambienti affidabili.
- Accuratezza e affidabilità della visione artificiale: Claude potrebbe fare errori o allucinare quando genera coordinate specifiche durante la generazione di azioni. Claude Sonnet 3.7 introduce la capacità di pensiero che può aiutarti a comprendere il ragionamento del modello e identificare potenziali problemi.
- Accuratezza e affidabilità della selezione dello strumento: Claude potrebbe fare errori o allucinare quando seleziona gli strumenti durante la generazione di azioni o intraprendere azioni inaspettate per risolvere i problemi. Inoltre, l’affidabilità potrebbe essere inferiore quando si interagisce con applicazioni di nicchia o più applicazioni contemporaneamente. Consigliamo agli utenti di invitare il modello con attenzione quando si richiedono attività complesse.
- Affidabilità dello scorrimento: Claude Sonnet 3.7 ha introdotto azioni di scorrimento dedicate con controllo della direzione che migliora l’affidabilità. Il modello può ora scorrere esplicitamente in qualsiasi direzione (su/giù/sinistra/destra) di una quantità specificata.
- Interazione con fogli di calcolo: I clic del mouse per l’interazione con fogli di calcolo sono stati migliorati in Claude Sonnet 3.7 con l’aggiunta di azioni di controllo del mouse più precise come
left_mouse_down,left_mouse_upe nuovo supporto dei tasti modificatori. La selezione delle celle può essere più affidabile utilizzando questi controlli granulari e combinando i tasti modificatori con i clic. - Creazione di account e generazione di contenuti su piattaforme di social media e comunicazioni: Sebbene Claude visiterà i siti web, stiamo limitando la sua capacità di creare account o generare e condividere contenuti o altrimenti impegnarsi nell’imitazione umana su siti web e piattaforme di social media. Potremmo aggiornare questa capacità in futuro.
- Vulnerabilità: Vulnerabilità come il jailbreaking o l’iniezione di prompt possono persistere nei sistemi di IA di frontiera, inclusa l’API beta di utilizzo del computer. In alcune circostanze, Claude seguirà i comandi trovati nel contenuto, a volte anche in conflitto con le istruzioni dell’utente. Ad esempio, le istruzioni Claude su pagine web o contenute in immagini possono ignorare le istruzioni o causare errori di Claude. Consigliamo: a. Limitare l’utilizzo del computer ad ambienti affidabili come macchine virtuali o contenitori con privilegi minimi b. Evitare di dare accesso all’utilizzo del computer a account sensibili o dati senza una supervisione rigorosa c. Informare gli utenti finali dei rischi rilevanti e ottenere il loro consenso prima di abilitare o richiedere autorizzazioni necessarie per le funzioni di utilizzo del computer nelle tue applicazioni
- Azioni inappropriate o illegali: Secondo i termini di servizio di Anthropic, non devi utilizzare l’utilizzo del computer per violare alcuna legge o la nostra Politica di utilizzo accettabile.
Prezzi
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:| Model | Input tokens per tool definition |
|---|---|
| Claude 4.x models | 735 tokens |
| Claude Sonnet 3.7 (deprecated) | 735 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude