評価ツールの使用

評価機能へのアクセス

評価ツールを開始するには：

Claude Consoleを開き、プロンプトエディターに移動します。
プロンプトを作成した後、画面上部の「Evaluate」タブを探します。

プロンプトに二重波括弧構文を使用した少なくとも1〜2個の動的変数が含まれていることを確認してください：{{variable}}。これは評価テストセットを作成するために必要です。

プロンプトの生成

Consoleには、Claude Opus 4.1を搭載した内蔵のプロンプトジェネレーターがあります：

「Generate Prompt」をクリック

「Generate Prompt」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。

タスクを説明

希望するタスク（例：「受信カスタマーサポートリクエストのトリアージ」）を、詳細の多少に関わらず説明してください。より多くのコンテキストを含めるほど、Claudeはあなたの特定のニーズに合わせて生成されたプロンプトをより適切に調整できます。

プロンプトを生成

下部のオレンジ色の「Generate Prompt」ボタンをクリックすると、Claudeが高品質なプロンプトを生成します。その後、Consoleの評価画面を使用してそれらのプロンプトをさらに改善できます。

この機能により、評価に適した変数構文を持つプロンプトの作成が容易になります。

テストケースの作成

評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります：

左下の「+ Add Row」ボタンをクリックして、手動でケースを追加します。
「Generate Test Case」機能を使用して、Claudeに自動的にテストケースを生成させます。
CSVファイルからテストケースをインポートします。

「Generate Test Case」機能を使用するには：

「Generate Test Case」をクリック

Claudeがテストケースを生成します。ボタンをクリックするたびに一行ずつ生成されます。

生成ロジックを編集（オプション）

「Generate Test Case」ボタンの右側にある矢印ドロップダウンをクリックし、ポップアップするVariablesウィンドウの上部にある「Show generation logic」をクリックすることで、テストケース生成ロジックを編集することもできます。初期生成ロジックを表示するために、このウィンドウの右上にある「Generate」をクリックする必要がある場合があります。これを編集することで、Claudeが生成するテストケースをより高い精度と特異性でカスタマイズし、微調整することができます。

以下は、複数のテストケースが入力された評価画面の例です：

元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行し、変更がすべてのテストケースでのパフォーマンスにどのように影響するかを確認できます。

効果的な評価のためのヒント

評価のためのプロンプト構造

評価ツールを最大限に活用するには、明確な入力と出力形式でプロンプトを構造化してください。例えば：

このタスクでは、色と音という2つの要素を組み込んだかわいい一文の物語を生成します。
物語に含める色は：
<color>
{{COLOR}}
</color>
物語に含める音は：
<sound>
{{SOUND}}
</sound>
物語を生成する手順は以下の通りです：
1. 提供された色と一般的に関連付けられるオブジェクト、動物、またはシーンを考えてください。例えば、色が「青」の場合、空、海、または青い鳥を思い浮かべるかもしれません。
2. あなたが特定した色付きのオブジェクト/動物/シーンと提供された音を含む簡単なアクション、イベント、またはシーンを想像してください。例えば、色が「青」で音が「口笛」の場合、青い鳥が曲を口笛で吹いているのを想像するかもしれません。
3. あなたが想像したアクション、イベント、またはシーンを単一の簡潔な文で説明してください。その文をかわいく、印象的で想像力豊かにすることに焦点を当ててください。例：「陽気な青い鳥が紺碧の空を舞い上がりながら、楽しいメロディーを口笛で吹いていました。」
物語は一文のみに留めてください。与えられた色と音を自然に組み込みながら、その文をできるだけ魅力的で魅力的にすることを目指してください。
完成した一文の物語を<story>タグ内に書いてください。

この構造により、入力（{{COLOR}}と{{SOUND}}）を変更し、出力を一貫して評価することが容易になります。

Consoleの「Generate a prompt」ヘルパーツールを使用して、評価に適した変数構文を持つプロンプトを素早く作成してください。

結果の理解と比較

評価ツールは、プロンプトを改良するのに役立つ複数の機能を提供します：

並列比較：2つ以上のプロンプトの出力を比較して、変更の影響を素早く確認できます。
品質評価：5段階スケールで応答品質を評価し、プロンプトごとの応答品質の改善を追跡します。
プロンプトバージョニング：プロンプトの新しいバージョンを作成し、テストスイートを再実行して素早く反復し、結果を改善します。

テストケース全体で結果を確認し、異なるプロンプトバージョンを比較することで、パターンを発見し、より効率的にプロンプトに情報に基づいた調整を行うことができます。今日からプロンプトの評価を開始して、Claudeでより堅牢なAIアプリケーションを構築しましょう！

はじめの一歩

モデルと料金

機能

ツール

エージェントスキル

Agent SDK

API内のMCP

Claude on 3rd-party platforms

プロンプトエンジニアリング

テストと評価

ガードレールを強化

評価ツールの使用

評価機能へのアクセス

プロンプトの生成

テストケースの作成

効果的な評価のためのヒント

結果の理解と比較

はじめの一歩

モデルと料金

機能

ツール

エージェントスキル

Agent SDK

API内のMCP

Claude on 3rd-party platforms

プロンプトエンジニアリング

テストと評価

ガードレールを強化

​評価機能へのアクセス

​プロンプトの生成

​テストケースの作成

​効果的な評価のためのヒント

​結果の理解と比較

評価機能へのアクセス

プロンプトの生成

テストケースの作成

効果的な評価のためのヒント

結果の理解と比較