概述

Claude 展示了強大的多語言能力,特別是在跨語言的零樣本任務中表現出色。該模型在廣泛使用的語言和低資源語言中都保持一致的相對性能,使其成為多語言應用的可靠選擇。 請注意,Claude 能夠使用許多超出下面基準測試的語言。我們鼓勵您使用與您特定用例相關的任何語言進行測試。

性能數據

以下是 Claude 4、Claude 3.7 Sonnet 和 Claude 3.5 模型在不同語言中的零樣本思維鏈評估分數,顯示為相對於英文性能 (100%) 的百分比:
語言Claude Opus 41Claude Sonnet 41Claude Sonnet 3.7 (已棄用)1Claude Haiku 3.5
英文 (基準,固定為 100%)100%100%100%100%
西班牙文98.0%97.5%97.6%94.6%
葡萄牙文 (巴西)97.3%97.2%97.3%94.6%
義大利文97.5%97.3%97.2%95.0%
法文97.7%97.1%96.9%95.3%
印尼文97.2%96.2%96.3%91.2%
德文97.1%94.7%96.2%92.5%
阿拉伯文96.9%96.1%95.4%84.7%
中文 (簡體)96.7%95.9%95.3%90.9%
韓文96.4%95.9%95.2%89.1%
日文96.2%95.6%95.0%90.8%
印地文96.7%95.8%94.2%80.1%
孟加拉文95.2%94.4%92.4%72.9%
史瓦希里文89.5%87.1%89.2%64.7%
約魯巴文78.9%76.4%76.7%46.1%
1 使用延伸思考
這些指標基於 MMLU (大規模多任務語言理解) 英文測試集,由專業人工翻譯人員翻譯成 14 種其他語言,如 OpenAI 的 simple-evals 儲存庫 所記錄。使用人工翻譯人員進行此評估可確保高品質的翻譯,這對於數位資源較少的語言尤其重要。

最佳實踐

使用多語言內容時:
  1. 提供清晰的語言背景:雖然 Claude 可以自動偵測目標語言,但明確說明所需的輸入/輸出語言會提高可靠性。為了增強流暢性,您可以提示 Claude 使用「如同母語使用者般的習慣用語」。
  2. 使用原生文字:以原生文字而非音譯方式提交文本以獲得最佳結果
  3. 考慮文化背景:有效的溝通通常需要超越純粹翻譯的文化和地區意識
我們也建議遵循我們的一般提示工程指南以更好地改進 Claude 的性能。

語言支援考量

  • Claude 可以處理使用標準 Unicode 字元的大多數世界語言的輸入並生成輸出
  • 性能因語言而異,在廣泛使用的語言中具有特別強大的能力
  • 即使在數位資源較少的語言中,Claude 也能保持有意義的能力