32 lines (20 loc) · 2.23 KB

AI 성능 평가 메트릭스 개요

AI 응용 프로그램의 성능을 평가할 때 적절한 메트릭스를 사용하여 시스템이 얼마나 잘 작동하는지 정확하게 측정하는 것이 중요하다. 이러한 메트릭스는 비교, 최적화 및 의사 결정의 기준을 제공한다.

메트릭스 역할:

구성 요소 선택: 메트릭스는 LLM, 검색기, 에이전트 등 AI 시스템의 다양한 구성 요소를 평가, 자신의 데이터와 비교해서 선택을 할 수 있게 한다.
오류 진단 및 디버깅: 오류나 성능 저하의 원인이 되는 부분을 식별하는 데 도움을 준다. 디버깅과 개선을 쉽게 만든다.
지속적인 모니터링: AI 시스템은 시간이 지나면서 진화하기 때문에, 데이터 변동, 모델 저하, 변화하는 사용자 요구 사항 등과 같은 문제를 발견할 수 있게 도움을 준다.

메트릭스 유형

메트릭스는 크게 두 가지 그룹으로 나눌 수 있다

LLM 기반 메트릭스: LLM을 여러 번 호출하여 점수를 산출하는 방식으로, 인간의 평가와 더 유사한 방식으로 성능을 측정한다.
비 LLM 기반 메트릭스: 전통적인 방법(예: 문자열 유사도, BLEU 점수 등)을 활용하는 메트릭스.

평가 유형

단일 턴 메트릭스: 사용자가 AI와 상호작용한 한 차례를 기준으로 성능을 평가하는 지표이다.
멀티 턴 메트릭스: 여러 차례의 상호작용을 기준으로 성능을 평가하는 지표이다.

메트릭스 설계 원칙

효과적인 메트릭스 설계를 위해 다음과 같은 원칙을 따라야 한다:

단일 측면 집중: 하나의 지표는 하나의 특정 측면에만 집중해야 한다.
직관적이고 해석 가능한: 지표는 이해하기 쉽고 해석할 수 있어야 한다.
효과적인 프롬프트 흐름: LLM을 사용할 때 인간 평가와 밀접하게 연관된 프롬프트 흐름을 사용해야 한다.
강건성: LLM 기반 지표는 원하는 결과를 반영하는 충분한 샘플을 제공해야 한다.
일관된 점수 범위: 지표 점수 값은 특정 범위 내에 정규화되거나 일정 범위(예: 0~1) 내에 있어야 한다.