평가 기능 접근하기

평가 도구를 시작하려면:
  1. Claude Console을 열고 프롬프트 편집기로 이동합니다.
  2. 프롬프트를 작성한 후, 화면 상단의 ‘평가’ 탭을 찾습니다.
평가 기능 접근하기
프롬프트에 이중 중괄호 구문을 사용하는 최소 1-2개의 동적 변수가 포함되어 있는지 확인하세요: {{variable}}. 이는 평가 테스트 세트를 생성하는 데 필요합니다.

프롬프트 생성하기

Console은 Claude Opus 4.1로 구동되는 내장 프롬프트 생성기를 제공합니다:
1

'프롬프트 생성' 클릭

‘프롬프트 생성’ 도우미 도구를 클릭하면 작업 정보를 입력할 수 있는 모달이 열립니다.
2

작업 설명하기

원하는 작업(예: “인바운드 고객 지원 요청 분류”)을 원하는 만큼 자세히 또는 간단히 설명하세요. 더 많은 컨텍스트를 포함할수록 Claude가 특정 요구사항에 맞게 생성된 프롬프트를 더 잘 맞춤화할 수 있습니다.
3

프롬프트 생성하기

하단의 주황색 ‘프롬프트 생성’ 버튼을 클릭하면 Claude가 고품질 프롬프트를 생성해 줍니다. 그런 다음 Console의 평가 화면을 사용하여 해당 프롬프트를 더욱 개선할 수 있습니다.
이 기능을 사용하면 평가에 적합한 변수 구문으로 프롬프트를 더 쉽게 만들 수 있습니다. 프롬프트 생성기

테스트 케이스 생성하기

평가 화면에 접근하면 테스트 케이스를 생성하는 여러 옵션이 있습니다:
  1. 왼쪽 하단의 ’+ 행 추가’ 버튼을 클릭하여 수동으로 케이스를 추가합니다.
  2. ‘테스트 케이스 생성’ 기능을 사용하여 Claude가 자동으로 테스트 케이스를 생성하도록 합니다.
  3. CSV 파일에서 테스트 케이스를 가져옵니다.
‘테스트 케이스 생성’ 기능을 사용하려면:
1

'테스트 케이스 생성' 클릭

Claude가 버튼을 클릭할 때마다 한 번에 한 행씩 테스트 케이스를 생성해 줍니다.
2

생성 로직 편집 (선택사항)

‘테스트 케이스 생성’ 버튼 오른쪽의 화살표 드롭다운을 클릭한 다음, 팝업되는 변수 창 상단의 ‘생성 로직 표시’를 클릭하여 테스트 케이스 생성 로직을 편집할 수도 있습니다. 초기 생성 로직을 채우려면 이 창의 오른쪽 상단에서 ‘생성’을 클릭해야 할 수도 있습니다.이를 편집하면 Claude가 생성하는 테스트 케이스를 더 정밀하고 구체적으로 사용자 정의하고 미세 조정할 수 있습니다.
다음은 여러 테스트 케이스가 채워진 평가 화면의 예시입니다: 채워진 평가 화면
원본 프롬프트 텍스트를 업데이트하면 새 프롬프트에 대해 전체 평가 스위트를 다시 실행하여 모든 테스트 케이스에서 변경사항이 성능에 미치는 영향을 확인할 수 있습니다.

효과적인 평가를 위한 팁

평가 도구를 최대한 활용하려면 명확한 입력 및 출력 형식으로 프롬프트를 구성하세요. 예를 들어:
이 작업에서는 색상과 소리라는 두 요소를 포함하는 귀여운 한 문장 이야기를 생성합니다.
이야기에 포함할 색상은:
<color>
{{COLOR}}
</color>
이야기에 포함할 소리는:
<sound>
{{SOUND}}
</sound>
이야기를 생성하는 단계는 다음과 같습니다:
1. 제공된 색상과 일반적으로 연관되는 물체, 동물 또는 장면을 생각해보세요. 예를 들어, 색상이 "파란색"이라면 하늘, 바다 또는 파랑새를 생각할 수 있습니다.
2. 식별한 색상의 물체/동물/장면과 제공된 소리를 포함하는 간단한 행동, 사건 또는 장면을 상상해보세요. 예를 들어, 색상이 "파란색"이고 소리가 "휘파람"이라면 파랑새가 곡조를 휘파람 부는 것을 상상할 수 있습니다.
3. 상상한 행동, 사건 또는 장면을 하나의 간결한 문장으로 설명하세요. 문장을 귀엽고 감동적이며 상상력이 풍부하게 만드는 데 집중하세요. 예를 들어: "쾌활한 파랑새가 푸른 하늘을 날아오르며 즐거운 멜로디를 휘파람 불었습니다."
이야기를 한 문장으로만 유지하세요. 주어진 색상과 소리를 자연스럽게 포함하면서 그 문장을 가능한 한 매력적이고 흥미롭게 만드는 것을 목표로 하세요.
완성된 한 문장 이야기를 <story> 태그 안에 작성하세요.

이 구조를 사용하면 입력({{COLOR}} 및 {{SOUND}})을 쉽게 변경하고 출력을 일관되게 평가할 수 있습니다.
Console의 ‘프롬프트 생성’ 도우미 도구를 사용하여 평가에 적합한 변수 구문으로 프롬프트를 빠르게 생성하세요.

결과 이해하고 비교하기

평가 도구는 프롬프트를 개선하는 데 도움이 되는 여러 기능을 제공합니다:
  1. 나란히 비교: 두 개 이상의 프롬프트 출력을 비교하여 변경사항의 영향을 빠르게 확인합니다.
  2. 품질 등급 매기기: 5점 척도로 응답 품질을 등급 매겨 프롬프트별 응답 품질 개선을 추적합니다.
  3. 프롬프트 버전 관리: 프롬프트의 새 버전을 만들고 테스트 스위트를 다시 실행하여 빠르게 반복하고 결과를 개선합니다.
테스트 케이스 전반의 결과를 검토하고 다양한 프롬프트 버전을 비교함으로써 패턴을 발견하고 더 효율적으로 프롬프트를 정보에 기반한 조정을 할 수 있습니다. Claude와 함께 더 견고한 AI 애플리케이션을 구축하기 위해 오늘부터 프롬프트 평가를 시작하세요!