Agent Evaluation: 에이전트형 워크플로우를 평가하기 위한 지표 (2부)

https://www.getmaxim.ai/blog/ai-agent-evaluation-metrics

이것은 Agent Evaluations 시리즈의 2부입니다. 시리즈의 1부와 3부도 참고하세요.

AI 에이전트가 산업 전반에서 점점 더 주목받으며, 고객 지원부터 예약 자동화와 같은 작업에 혁신을 가져오고 있습니다. 이러한 에이전트의 실제 성능을 평가하려면 정적인 벤치마크를 넘어서는 접근이 필요합니다. 에이전트 평가를 통해 의사결정 과정, 적응력, 목표 지향적 행동을 동적 환경에서 평가할 수 있습니다. 이는 단일 턴 응답에서 다중 턴 평가로의 전환을 요구하며, 효과성을 이해하기 위해서는 다양한 지표가 필요합니다 ¹.

Figure 1: 에이전트 평가의 구성 요소

왜 기존의 지표만으로는 충분하지 않은가

현대의 AI 에이전트는 계획, 도구 사용, 반성, 적응이 필요한 복잡하고 다단계의 작업을 처리합니다. 이러한 복잡성을 포착할 수 있는 지표가 필요합니다.

예를 들어, 레스토랑 예약 에이전트를 생각해보면, 예약 성공률이 95%라고 해도, 이 지표는 문제가 발생했을 때 에이전트가 어떻게 대처하는지 보여주지 않습니다. 요청한 시간대가 불가능할 때, 신뢰할 수 있는 에이전트는 단순히 실패를 보고하는 대신, 인근 시간대를 탐색하는 등 대안을 제시해야 합니다. 이처럼 기존의 성공률 지표는 에이전트가 실제 환경의 복잡성을 얼마나 잘 헤쳐나가는지 감추게 됩니다. 따라서 에이전트 평가 지표는 더 동적이어야 하며, 복잡한 환경의 도전 과제를 포착해야 합니다.

에이전트를 더 잘 이해하기 위해 고려해야 할 시스템별 지표를 살펴보겠습니다.

에이전트 평가를 위한 지표

시스템 효율성 지표

Figure 2: 시스템 효율성 지표

첫 번째 지표는 AI 에이전트가 효율적으로 작동하는지 이해하는 데 도움이 됩니다. 이 지표는 토큰 및 도구 사용 측면에서 자원 활용도를 평가합니다.

총 완료 시간은 프로세스의 각 부분이 얼마나 걸리는지 더 잘 이해하는 데 도움이 됩니다. 에이전트가 작업에 3분을 소요했다면, 그 중 2분을 반복 루프에 빠져 있었는지, 아니면 꾸준히 진행했는지 알아야 합니다.

모든 API 호출과 토큰 처리는 에이전트 환경에서 빠르게 누적되어 효율성과 비용에 영향을 미칩니다. 효과적인 에이전트는 비용을 최소화하면서 가치를 극대화합니다. 따라서 작업 토큰 사용량, 도구 호출 횟수와 같은 지표는 작업 효율성을 추적하는 데 도움이 됩니다. 이를 통해 에이전트가 비용 최적화 방식으로 작업을 해결하는지 빠르게 파악할 수 있습니다. 또한 이러한 지표는 문제점을 신속하게 찾아내고 개선하는 데 도움이 됩니다.

에이전트 품질 지표

이 지표는 에이전트가 작업을 얼마나 효과적으로 해결하는지, 사용한 방법, 발생한 실패를 평가합니다. 크게 전체 에이전트 평가와 구성 요소 평가로 나눌 수 있습니다.

세션 수준 평가

Figure 3: 세션 수준 평가

작업 성공: 이 지표 ¹²는 에이전트가 세션 결과를 바탕으로 사용자의 목표를 성공적으로 달성했는지 판단합니다. 여러 단계에 걸쳐 적응을 거친 후에도 에이전트가 의도한 목표를 성공적으로 달성했는지 측정할 수 있습니다.

단계 완료: 이 지표는 사용자가 작업을 해결하기 위해 미리 정의한 접근 방식이 있을 때, 에이전트가 목표에 도달하기 위해 예상된 단계를 벗어나지 않고 수행했는지 평가합니다. 모든 예상 단계가 올바르게 실행되었는지 평가할 수 있습니다.

에이전트 경로(trajectory): 목표에 도달하는 경로는 여러 가지가 있을 수 있습니다. 이 지표는 에이전트가 사용자 쿼리를 해결하기 위해 합리적이고 효과적인 경로를 따랐는지 평가합니다. 다음과 같은 점을 살펴볼 수 있습니다:

현명한 선택: 에이전트가 작업에 적합한 도구를 선택했는가?
적응력: 예기치 않은 상황에 대처할 수 있는가? GPS가 잘못된 길을 택했을 때 경로를 재계산하는 것처럼.

이 지표는 연구 논문에서 영감을 받아, 에이전트가 따르는 계획을 평가하는 또 다른 방법으로 볼 수 있습니다.

자기 인식 실패율: 이 지표 ³는 에이전트가 작업을 해결할 수 없는 한계를 인식하는 실패를 측정합니다. 예를 들어 “<xyz> 이유로 이 작업을 할 수 없습니다” 또는 “요청 제한 오류에 도달했습니다”와 같은 메시지로 확인할 수 있습니다. 이러한 실패는 에이전트의 역량 부족이나 동일한 단계에서 반복적으로 실패하는 경우에 발생할 수 있습니다.

위의 에이전트별 지표 외에도, 기존의 단일 턴 지표를 확장하여 LLM을 심판으로 활용해 에이전트 출력의 편향 또는 유해성을 측정할 수 있습니다.

노드 수준 평가

Figure 4: 노드 수준 평가

이제 에이전트 평가의 세부적인 부분을 살펴보겠습니다. 이 지표는 에이전트의 계획, 도구 사용, 단계별 성능을 더 깊이 평가하는 데 도움이 됩니다:

도구 사용 지표: 에이전트에게 도구 사용은 성능 향상에 필수적입니다. 하지만 에이전트가 올바른 도구를 호출하고, 도구 호출에 적절한 입력 파라미터를 전달했는지 평가하는 것이 중요합니다. 다음과 같은 지표가 중요합니다:

도구 선택: 에이전트가 해당 단계에서 작업을 해결하기 위해 올바른 도구를 호출했는지, 도구 호출에 필요한 입력 파라미터를 제대로 전달했는지 확인해야 합니다. 이 지표는 도구 호출 실패가 에이전트의 문제인지 확인하는 데 도움이 됩니다.
도구 호출 오류율: 향후 에이전트의 단계가 영향을 받지 않도록, 에이전트가 호출한 도구가 출력을 반환하는지 확인할 수 있습니다. 이 평가는 도구 호출 파이프라인의 일부 단계가 문제인지 파악하는 데 도움이 됩니다.
도구 호출 정확도: 마지막으로, 도구 호출의 품질을 검증해야 하며, 에이전트의 도구 호출 결과를 기대하는 출력과 비교하여 정확도를 평가할 수 있습니다.

계획 평가: 어떤 단계를 밟을지 계획하는 것은 어렵고 실패로 이어질 수 있습니다 ¹. 따라서 에이전트의 계획 실패를 평가하는 것이 중요합니다. 주요 질문은 계획이 주어진 제약 조건에서 작업을 해결하는 데 도움이 되는지, 반성 오류로 인해 계획이 실패하는지, 계획에서 도구 실패가 발생할 수 있는지입니다. 연구 논문⁴에서 강조한 것처럼 LLM 모델을 활용해 계획을 검증할 수 있습니다.

단계 유용성: 이 지표는 기여한 단계의 수를 평가합니다. 이 지표를 통해 해당 단계가 전체 목표에 도움이 되었는지, 방해가 되었는지, 아니면 무의미했는지 판단할 수 있습니다. 작업을 진전시켰는지, 진행을 방해하는 장애물을 만들었는지, 혹은 아무런 영향을 주지 않았는지 평가합니다.

실제 에이전트 사례

위에서 논의한 내용을 더 잘 이해하기 위해, 실제 에이전트 평가 사례를 살펴보겠습니다:

여행 에이전트

다음과 같은 시나리오를 가정해봅니다: “런던에서 샌프란시스코까지 3월 중 가장 저렴한 날짜로 CEO의 왕복 항공권을 예약하세요”

턴	사용자	응답
1	런던에서 샌프란시스코까지 3월 중 가장 저렴한 날짜로 CEO의 왕복 항공권을 찾아 예약해 주세요.	런던과 샌프란시스코 공항 정보를 확인했습니다. 다음 사항을 확인해 주세요. - 출발 도시: 런던 - 도착 도시: 샌프란시스코 - 왕복 - 3월 중 가장 저렴한 날짜 - 승객 유형: CEO (성인 1명) - 좌석 등급: 이코노미(기본값) 항공편 검색을 진행할까요?
2	네, 확인된 정보로 항공편 검색을 진행해 주세요.	2025년 3월 런던(LON)과 샌프란시스코(SFO) 간 가장 저렴한 왕복 항공편 옵션을 검색했습니다. 몇 가지 옵션을 검토해 주세요. 항공편을 선택해 주시면, 예약 전 확인을 위해 상세 정보를 제공하겠습니다.
3	3월 중 선택한 날짜의 가장 저렴한 항공편 상세 정보를 알려주세요.	3월 런던(LON)에서 샌프란시스코(SFO)까지 가장 저렴한 왕복 항공편의 상세 정보를 확인했습니다. 상세 정보를 꼼꼼히 검토하시고, 예약을 진행하거나 추가 조정이 필요하시면 알려주세요.
4	네, 3월 중 가장 저렴한 왕복 항공편 예약을 진행해 주세요.	가장 저렴한 왕복 항공권 예약을 진행하려면 CEO의 승객 정보를 제공해 주셔야 합니다: 1. 승객의 전체 이름 2. 예약 확인 이메일 주소 3. 연락처 전화번호 예약을 완료하려면 위 정보를 제공해 주세요.
5	예약에 필요한 승객 정보는 다음과 같습니다: 1. 전체 이름: John Doe 2. 이메일 주소: email protected] 3. 연락처 전화번호: +44 1234 567890 예약을 최종 진행해 주세요.	3월 런던에서 샌프란시스코까지 John Doe의 왕복 항공권이 성공적으로 예약되었습니다. 확인 이메일이 [email protected]로 발송되었습니다. 추가 도움이 필요하거나 요청 사항이 있으면 언제든 말씀해 주세요. 즐거운 여행 되세요.

위 사례에서 볼 수 있듯, Maxim AI의 시뮬레이션 에이전트를 활용해 고객을 위한 여행 에이전트에게 항공권 예약을 요청할 수 있습니다. 이 에이전트를 평가하기 위해 지금까지 논의한 몇 가지 지표를 적용해보겠습니다:

Figure 5: 여행 에이전트의 경로 평가 결과

이 지표는 에이전트가 항공권 예약이라는 목표에 도달하기 위해 올바른 단계를 밟았는지 확인하는 데 도움이 됩니다.

Figure 6: 여행 에이전트의 단계 완료 평가 결과

이 지표는 에이전트가 사용자가 정의한 예상 단계를 따라 항공권 예약을 진행했는지 확인하는 데 도움이 됩니다.

Figure 7: 여행 에이전트의 작업 성공 평가 결과

이 지표는 에이전트가 모든 사용자 요구 사항을 충족하여 작업을 성공적으로 완료했는지 확인하는 데 도움이 됩니다.

고객 서비스 에이전트

다음과 같은 시나리오를 가정해봅니다: “이메일 아이디가 [email protected]인 사람의 현재 주소를 출력한 뒤, 데이터베이스에서 주소를 ‘BHIVE, Indiranagar’로 변경하세요”

턴	사용자	응답
1	이메일 아이디가 [email protected]인 사람의 현재 주소를 알려주세요	이메일 아이디가 [email protected]인 사람의 현재 주소는: 7375 Grayhawk Avenue, Waipawa, New Zealand, 5782입니다.
2	이메일 아이디가 [email protected]인 사람의 주소를 데이터베이스에서 ‘BHIVE, Indiranagar’로 변경해 주세요	이메일 아이디가 [email protected]인 사람의 주소가 데이터베이스에서 “BHIVE, Indiranagar”로 성공적으로 변경되었습니다.

Figure 8: 고객 서비스 에이전트의 경로 평가 결과Figure 9: 고객 서비스 에이전트의 단계 완료 및 작업 성공 평가 결과

성공적인 고객 서비스 에이전트 역시 위의 지표를 Maxim을 통해 참고하여 에이전트를 총체적으로 평가하고 최적의 방식으로 작동하는지 확인할 수 있습니다.

결론

에이전트 평가 방식은 AI 평가를 정적인 벤치마크에서 동적이고 다중 턴 상호작용으로 전환하여, 의사결정과 작업 완료를 더 정확하게 측정할 수 있게 합니다. 시스템별 지표와 에이전트 성능 평가 지표를 결합함으로써, 효율성, 정확성, 목표 달성도를 구조적으로 평가할 수 있는 프레임워크를 제공하여 더 신뢰할 수 있는 AI 에이전트 개발로 이어집니다.

강력하고 신뢰할 수 있는 에이전트 개발을 위해 사전 출시 및 출시 후 단계를 모두 아우르는 구조화된 AI 평가 프로세스 구축 방법은 시리즈의 3부에서 확인할 수 있습니다. 에이전트 시스템과 품질 평가의 중요성은 1부에서 확인하세요.

https://huyenchip.com/2025/01/07/agents.html - 에이전트는 환경을 인지하고 도구를 활용해 자율적으로 작업을 수행하는 AI 시스템입니다. 계획 수립, 도구 선택, 반성 및 오류 수정 과정이 에이전트의 성능을 좌우합니다. 적절한 도구와 체계적인 계획, 지속적인 평가가 신뢰할 수 있는 에이전트 구축의 핵심입니다. ↩ ↩² ↩³
https://arxiv.org/pdf/2308.03688 - AGENTBENCH는 대형 언어 모델(LLM)이 에이전트로서 다양한 상호작용 환경에서 얼마나 잘 작동하는지 평가하기 위해 설계된 다차원 벤치마크입니다. 코드, 게임, 웹 등 8가지 실제 환경을 포함하며, LLM의 추론, 의사결정, 지시 따르기 능력을 평가합니다. ↩
https://arxiv.org/abs/2407.13032 - Agent-E는 Emergence AI에서 개발한 최신 웹 자동화 에이전트로, 계층적 아키텍처, 유연한 DOM 디스틸링 및 디노이즈, 상태 변화 관찰 등 여러 혁신적인 설계 원칙을 도입했습니다. WebVoyager 벤치마크에서 기존 텍스트 및 멀티모달 웹 에이전트 대비 10~30% 높은 성공률을 기록했습니다. ↩
https://arxiv.org/abs/2206.10498 - PlanBench는 대형 언어 모델(LLM)의 계획 수립 및 변화에 대한 추론 능력을 평가하기 위한 확장 가능한 벤치마크입니다. PlanBench는 자동화된 계획 커뮤니티에서 사용하는 다양한 도메인을 기반으로, LLM의 진정한 계획 능력을 체계적으로 평가할 수 있도록 설계되었습니다. ↩