성공 기준 정의하기

성공적인 LLM 기반 애플리케이션을 구축하는 것은 성공 기준을 명확하게 정의하는 것부터 시작합니다. 애플리케이션이 출시하기에 충분히 좋은지 어떻게 알 수 있을까요? 명확한 성공 기준을 갖추면 프롬프트 엔지니어링 및 최적화 노력이 특정하고 측정 가능한 목표를 달성하는 데 집중되도록 보장합니다.

강력한 기준 구축하기

좋은 성공 기준은 다음과 같습니다:

구체적: 달성하고자 하는 바를 명확하게 정의합니다. “좋은 성능” 대신 “정확한 감정 분류”와 같이 구체적으로 명시하세요.
측정 가능: 정량적 지표나 잘 정의된 정성적 척도를 사용하세요. 숫자는 명확성과 확장성을 제공하지만, 정성적 측정도 정량적 측정과 함께 일관되게 적용된다면 가치가 있을 수 있습니다.
- 윤리와 안전과 같은 “모호한” 주제도 정량화할 수 있습니다:
  안전 기준
  나쁨 안전한 출력
  좋음 10,000번의 시도 중 0.1% 미만이 우리의 콘텐츠 필터에 의해 유해성으로 플래그 지정됨.
지표 및 측정 방법 예시
정량적 지표:
- 작업별 지표: F1 점수, BLEU 점수, 혼란도(perplexity)
- 일반적 지표: 정확도, 정밀도, 재현율
- 운영 지표: 응답 시간(ms), 가동 시간(%)
정량적 방법:
- A/B 테스팅: 기준 모델이나 이전 버전과 성능 비교.
- 사용자 피드백: 작업 완료율과 같은 암묵적 측정.
- 엣지 케이스 분석: 오류 없이 처리된 엣지 케이스의 비율.
정성적 척도:
- 리커트 척도: “일관성을 1(무의미)에서 5(완벽하게 논리적)까지 평가”
- 전문가 평가 기준: 언어학자가 정의된 기준에 따라 번역 품질 평가
달성 가능: 업계 벤치마크, 이전 실험, AI 연구 또는 전문가 지식을 기반으로 목표를 설정하세요. 성공 지표는 현재 최첨단 모델 기능으로 달성 불가능할 정도로 비현실적이어서는 안 됩니다.
관련성: 기준을 애플리케이션의 목적과 사용자 요구에 맞추세요. 강력한 인용 정확도는 의료 앱에서는 중요할 수 있지만 캐주얼 챗봇에서는 덜 중요할 수 있습니다.

	안전 기준
나쁨	안전한 출력
좋음	10,000번의 시도 중 0.1% 미만이 우리의 콘텐츠 필터에 의해 유해성으로 플래그 지정됨.

감정 분석을 위한 작업 충실도 기준 예시

	기준
나쁨	모델이 감정을 잘 분류해야 함
좋음	우리의 감정 분석 모델은 10,000개의 다양한 트위터 게시물로 구성된 별도 테스트 세트*(관련성)에서 최소 0.85의 F1 점수(측정 가능, 구체적)를 달성해야 하며, 이는 현재 기준선보다 5% 향상된 수치임(달성 가능).

*별도 테스트 세트에 대한 자세한 내용은 다음 섹션에서

고려해야 할 일반적인 성공 기준

다음은 사용 사례에 중요할 수 있는 기준들입니다. 이 목록은 모든 것을 포함하지는 않습니다.

작업 충실도

모델이 작업을 얼마나 잘 수행해야 하나요? 또한 희귀하거나 까다로운 입력에 대해 모델이 얼마나 잘 수행해야 하는지와 같은 엣지 케이스 처리도 고려해야 할 수 있습니다.

일관성

유사한 유형의 입력에 대해 모델의 응답이 얼마나 유사해야 하나요? 사용자가 같은 질문을 두 번 물었을 때, 의미적으로 유사한 답변을 받는 것이 얼마나 중요한가요?

관련성 및 일관성

모델이 사용자의 질문이나 지시를 얼마나 직접적으로 다루나요? 정보가 논리적이고 따라하기 쉬운 방식으로 제시되는 것이 얼마나 중요한가요?

어조 및 스타일

모델의 출력 스타일이 기대치와 얼마나 잘 일치하나요? 대상 청중에게 언어가 얼마나 적절한가요?

개인정보 보호

모델이 개인 또는 민감한 정보를 처리하는 방식에 대한 성공적인 지표는 무엇인가요? 특정 세부 정보를 사용하거나 공유하지 않도록 지시를 따를 수 있나요?

컨텍스트 활용

모델이 제공된 컨텍스트를 얼마나 효과적으로 사용하나요? 이전 대화 내용에서 제공된 정보를 얼마나 잘 참조하고 활용하나요?

지연 시간

모델의 허용 가능한 응답 시간은 얼마인가요? 이는 애플리케이션의 실시간 요구 사항과 사용자 기대에 따라 달라집니다.

가격

모델 운영을 위한 예산은 얼마인가요? API 호출당 비용, 모델 크기, 사용 빈도와 같은 요소를 고려하세요.

대부분의 사용 사례는 여러 성공 기준에 따른 다차원적 평가가 필요합니다.

감정 분석을 위한 다차원 기준 예시

	기준
나쁨	모델이 감정을 잘 분류해야 함
좋음	10,000개의 다양한 트위터 게시물로 구성된 별도 테스트 세트에서 우리의 감정 분석 모델은 다음을 달성해야 함: - 최소 0.85의 F1 점수 - 99.5%의 출력이 유해하지 않음 - 오류의 90%는 심각한 오류가 아닌 불편함을 초래할 수 있음* - 95%의 응답 시간이 200ms 미만

*실제로는 “불편함”과 “심각한”이 무엇을 의미하는지도 정의할 것입니다.

다음 단계

기준 브레인스토밍

claude.ai에서 Claude와 함께 사용 사례에 대한 성공 기준을 브레인스토밍하세요.

팁: Claude에게 가이드로 이 페이지를 채팅에 넣어보세요!

평가 설계하기

Claude의 성능을 기준에 맞게 측정하기 위한 강력한 테스트 세트를 구축하는 방법을 알아보세요.

첫 번째 단계

모델 및 가격

기능

도구

에이전트 스킬

Agent SDK

API의 MCP

Claude 타사 플랫폼

프롬프트 엔지니어링

테스트 및 평가

보안 강화

성공 기준 정의하기

강력한 기준 구축하기

고려해야 할 일반적인 성공 기준

다음 단계

기준 브레인스토밍

평가 설계하기

첫 번째 단계

모델 및 가격

기능

도구

에이전트 스킬

Agent SDK

API의 MCP

Claude 타사 플랫폼

프롬프트 엔지니어링

테스트 및 평가

보안 강화

​강력한 기준 구축하기

​고려해야 할 일반적인 성공 기준

​다음 단계

기준 브레인스토밍

평가 설계하기

강력한 기준 구축하기

고려해야 할 일반적인 성공 기준

다음 단계