使用評估工具
Anthropic Console 提供了一個評估工具,讓您可以在各種情境下測試您的提示。
存取評估功能
要開始使用評估工具:
- 開啟 Anthropic Console 並導航到提示編輯器。
- 撰寫完提示後,在螢幕頂部尋找「Evaluate」標籤。
確保您的提示包含至少 1-2 個使用雙大括號語法的動態變數:{{variable}}。這是建立評估測試集的必要條件。
生成提示
Console 提供了由 Claude Opus 4.1 驅動的內建提示生成器:
點擊「Generate Prompt」
點擊「Generate Prompt」輔助工具將開啟一個模態視窗,讓您輸入任務資訊。
描述您的任務
描述您想要的任務(例如,「分類入站客戶支援請求」),可以提供詳細或簡略的描述。您提供的背景資訊越多,Claude 就越能針對您的特定需求量身定制生成的提示。
生成您的提示
點擊底部的橙色「Generate Prompt」按鈕,Claude 將為您生成高品質的提示。然後您可以使用 Console 中的評估螢幕進一步改善這些提示。
此功能讓您更容易建立具有適當變數語法的提示以進行評估。
建立測試案例
當您存取評估螢幕時,您有幾個選項來建立測試案例:
- 點擊左下角的「+ Add Row」按鈕手動新增案例。
- 使用「Generate Test Case」功能讓 Claude 自動為您生成測試案例。
- 從 CSV 檔案匯入測試案例。
要使用「Generate Test Case」功能:
點擊「Generate Test Case」
Claude 將為您生成測試案例,每次點擊按鈕時一次生成一行。
編輯生成邏輯(可選)
您也可以透過點擊「Generate Test Case」按鈕右側的箭頭下拉選單,然後點擊彈出的變數視窗頂部的「Show generation logic」來編輯測試案例生成邏輯。您可能需要點擊此視窗右上角的「Generate」來填入初始生成邏輯。
編輯此項目可讓您自訂並微調 Claude 生成的測試案例,以達到更高的精確度和特異性。
以下是包含多個測試案例的已填入評估螢幕範例:
如果您更新了原始提示文字,您可以針對新提示重新執行整個評估套件,以查看變更如何影響所有測試案例的效能。
有效評估的技巧
使用 Console 中的「Generate a prompt」輔助工具快速建立具有適當變數語法的提示以進行評估。
理解和比較結果
評估工具提供了幾個功能來幫助您改善提示:
- 並排比較:比較兩個或多個提示的輸出,快速查看您的變更所產生的影響。
- 品質評分:使用 5 分制對回應品質進行評分,以追蹤每個提示的回應品質改善情況。
- 提示版本控制:建立提示的新版本並重新執行測試套件,以快速迭代和改善結果。
透過檢視各測試案例的結果並比較不同的提示版本,您可以發現模式並更有效率地對提示進行明智的調整。
立即開始評估您的提示,使用 Claude 建立更強健的 AI 應用程式!