[AI][Benchmark] AgentBench: 8가지 다차원적 평가

여러분은 강력한 LLM을 미세조정했습니다. MMLU 점수도 높고, 대화 능력도 뛰어납니다. 하지만 이 모델에게 실제 에이전트로서의 임무, 예를 들어 서버를 관리하거나 항공편을 예약하라고 시켰을 때, 갑자기 무한 루프에 빠지거나 엉뚱한 행동을 반복합니다. 왜일까요? 기존 벤치마크는 에이전트에게 정말 중요한 능력, 즉 복잡한 환경 속에서 행동하고, 추론하며, 목표를 달성하는 능력을 측정하지 않기 때문입니다. AgentBench는 바로 이 문제를 해결하기 위해 탄생했습니다.

AgentBench란 무엇인가?: LLM 에이전트를 위한 종합 테스트베드

AgentBench는 단순히 정답률 점수를 매기는 것을 넘어, LLM이 실제와 유사하게 구성된 복잡한 환경 속에서 얼마나 효과적으로 자율적인 에이전트로서 기능하는지를 평가하기 위해 설계되었습니다. 이는 모델의 성능을 확인하는 차원을 넘어, 여러분이 개발 중인 AI 에이전트의 신뢰성과 실용성을 보장하는 데 직결되는 중요한 과정입니다.

AgentBench의 8가지 다차원적 평가 환경

AgentBench는 LLM의 에이전트 역량을 다각도로 측정하기 위해, 실제 세계의 시나리오를 기반으로 한 8개의 고유한 환경을 제공합니다. 이 환경들은 크게 세 가지 유형으로 분류되어 모델의 다양한 능력을 종합적으로 테스트합니다.

Code-grounded Environments (코드 기반 환경)
- Operating System (OS): bash 명령어를 사용하여 파일 시스템 문제를 해결하는 능력을 평가합니다. 예를 들어, '/etc 디렉터리 내의 비어 있지 않은 디렉터리 총 개수 찾기'와 같은 과업을 해결합니다.
- Data-Base (DB): SQL 쿼리를 작성하여 데이터베이스에서 정보를 조회하는 과업을 수행합니다. 예를 들어, 'Olympic Medals 테이블에서 미국이 획득한 총 메달 수'를 SQL 쿼리로 조회합니다.
- Knowledge Graph (KG): 제공된 쿼리 도구를 사용하여 복잡한 지식 그래프에서 정보를 탐색하고 추론합니다. 예를 들어, '허리케인 마리와 유사하며 북미 동부에 영향을 미친 열대성 저기압 찾기'와 같은 복잡한 질의를 수행합니다.
Game-grounded Environments (게임 기반 환경)
- Digital Card Game (DCG): 'Aquawar'라는 카드 게임에서 전략을 수립하고 상대방과 대결하여 승리하는 능력을 평가합니다.
- Lateral Thinking Puzzles (LTP): "네", "아니오", "관련 없음"으로만 답할 수 있는 질문을 통해 숨겨진 진실을 추리하는 측면 사고 퍼즐 해결 능력을 테스트합니다.
- House Holding (HH): 가상의 집안 환경(ALFWorld)에서 "식탁 위에 팬을 놓아라"와 같은 구체적인 목표를 달성하는 과정을 평가합니다.
Web-grounded Environments (웹 기반 환경)
- Web Shopping (WS): 시뮬레이션된 온라인 쇼핑 웹사이트에서 특정 조건에 맞는 상품을 검색하고 구매하는 과정을 수행합니다.
- Web Browsing (WB): 일반적인 웹 환경(Mind2Web)에서 클릭, 타이핑, 선택 등의 행동을 통해 주어진 과업을 완료하는 능력을 측정합니다.

AgentBench의 기술 아키텍처

AgentBench는 왜 신뢰할 수 있는 벤치마크일까요? 그 비밀은 기술 아키텍처에 있습니다. AgentBench는 안정적이고 확장 가능한 평가를 위해 서버-클라이언트(Server-Client, S/C) 아키텍처를 채택했습니다. 이는 테스트 대상인 에이전트(LLM)와 평가 환경을 기술적으로 분리하는 매우 중요한 설계입니다.

이 구조 덕분에 HTTP API를 제공하는 어떤 LLM이든 표준화된 환경에서 공정하게 테스트할 수 있습니다. 특히 OS나 DB처럼 복잡한 환경은 Docker 이미지로 캡슐화되어 완벽히 격리된 테스트를 보장합니다. 이러한 설계는 평가 환경 간의 충돌을 막고 언제 어디서든 동일한 조건으로 테스트를 재현할 수 있게 하여, 벤치마크 결과의 신뢰도와 재현성을 높이는 핵심 요소입니다.

AgentBench의 구성 환경을 이해했으니, 다음으로 이러한 환경 내에서 구체적으로 어떤 원리와 기준으로 LLM의 성능을 측정하는지 분석해 보겠습니다.

AgentBench의 평가 원리 및 핵심 지표 분석

AgentBench는 LLM이 단순히 정답을 맞히는지를 넘어, 목표를 달성하기까지의 상호작용 과정 전체를 평가합니다. 평가는 여러 차례의 상호작용(multi-round interaction)으로 진행되며, 에이전트(LLM)가 환경으로부터 관찰(observation) 결과를 피드백으로 받아 다음 행동(action)을 결정하는 모델을 기반으로 합니다.

이것이 바로 부분 관찰 마르코프 결정 과정(POMDP, Partially Observable Markov Decision Process)이 AI 에이전트 평가에 적합한 이유입니다. 실제 에이전트는 웹사이트를 탐색하거나 파일 시스템에 접근할 때 세상의 모든 상태를 한 번에 볼 수 없습니다. 단지 명령어 실행 결과나 로딩된 웹페이지처럼 부분적인 '관찰'만을 얻을 뿐입니다. 에이전트는 이 제한된 정보를 바탕으로 다음 행동을 결정해야 하며, POMDP는 바로 이 과정을 모델링합니다.

핵심 평가 전략: 연쇄 사고 (Chain-of-Thought)

AgentBench는 LLM의 추론 능력을 평가하기 위한 핵심 전략으로 '연쇄 사고(Chain-of-Thought, CoT)'를 채택합니다. 이는 LLM이 복잡한 문제를 해결하기 위해 스스로 중간 단계를 설정하고 논리적으로 추론해 나가는 과정을 모방하는 방식입니다.

AgentBench는 이 CoT를 통해 LLM이 단순히 정답을 찍는 것이 아니라, 문제 해결을 위한 계획을 수립하고 실행하는 에이전트로서의 핵심적인 사고 능력을 갖추었는지 측정합니다.

환경별 주요 평가 지표 (Metrics)

AgentBench는 8개 환경의 고유한 특성에 맞춰 다양한 성공 지표를 사용합니다. 각 환경에서 '성공'이 무엇을 의미하는지를 명확히 정의함으로써, 모델의 성능을 보다 정밀하게 측정합니다.

평가 환경 (Environment)	주요 지표 (Metric)	설명
Operating System (OS)	Success Rate (SR)	주어진 OS 관련 과업의 성공 여부
Data-Base (DB)	Success Rate (SR)	주어진 데이터베이스 관련 과업의 성공 여부
Knowledge Graph (KG)	F1 Score	지식 그래프 질의에 대한 답변의 정확도 및 재현율
Digital Card Game (DCG)	Win Rate / Reward	게임에서의 승률 또는 보상
Lateral Thinking Puzzle (LTP)	Game Progress	퍼즐 해결 진행도
House Holding (HH)	Success Rate (SR)	가상 집안일 과업의 성공 여부
Web Shopping (WS)	Reward	온라인 쇼핑 과업 수행에 따른 보상
Web Browsing (WB)	Step SR	각 단계별 행동의 성공률

AgentBench vs. API-Bank: 무엇을, 어떻게 평가하는가?

여러분은 도구를 사용하는 에이전트를 만들고 있습니다. 성능을 테스트하기 위해 AgentBench를 써야 할까요, 아니면 API-Bank를 써야 할까요? 두 벤치마크는 이름이 비슷해 보이지만 근본적으로 다른 질문에 답하며, 잘못된 도구를 선택하면 개발 방향을 완전히 잘못 이끌 수 있습니다.

👉 참고: API-Bank: LLM의 AI 에이전트 적합성을 판별해보자

API-Bank의 초점: 도구 조작(Tool Manipulation) 능력

API-Bank는 '툴 증강(Tool-Augmented) LLM', 즉 외부 도구를 사용하는 LLM을 평가하기 위해 특별히 설계된 벤치마크입니다. 평가의 핵심은 LLM이 주어진 API 명세서를 얼마나 잘 이해하고, API를 호출하기 위한 계획(Planning), 검색(Retrieving), 호출(Calling)의 3단계를 얼마나 '기술적으로 정확하게' 수행하는지에 맞춰져 있습니다.

비유하자면, API-Bank는 요리사가 칼을 올바르게 사용하는지(기술적 스킬)를 테스트하는 것과 같습니다. 'LLM이 주어진 API를 정확하게 다룰 수 있는가?'라는 질문에 답하는 데 특화되어 있습니다.

AgentBench의 초점: 총체적인 에이전트 행동(Agentic Behavior)

반면, AgentBench는 LLM을 하나의 '자율적 에이전트'로 간주하고, 주어진 복잡한 환경 내에서 상호작용하며 최종 목표를 성공적으로 달성하는 총체적인 능력을 평가합니다. 즉, 요리사가 바쁜 주방 안에서 완벽한 식사 한 끼를 만들어낼 수 있는지(총체적 역량)를 테스트하는 것과 같습니다.

AgentBench의 관점에서 도구 사용(예: OS 환경에서의 bash 명령어)은 목표 달성을 위한 여러 '수단' 중 하나일 뿐, 그 자체가 최종 평가 목표는 아닙니다. 'LLM이 주어진 환경에서 스스로 목표를 달성할 수 있는가?'라는 더 큰 질문을 던집니다.

한눈에 보는 비교 분석

두 벤치마크의 핵심적인 차이점을 아래 표를 통해 명확하게 비교할 수 있습니다.

구분	AgentBench	API-Bank
주요 목표	LLM의 자율적 에이전트로서의 종합적인 문제 해결 능력 평가	LLM의 외부 API/도구 사용 능력(계획, 검색, 호출)의 정확성 평가
평가 범위	8개의 실제와 유사한 상호작용 환경(OS, 웹, 게임 등)에서의 과업 수행	API 호출의 정확성 및 응답 생성 품질
핵심 질문	"이 LLM은 주어진 환경에서 스스로 목표를 달성할 수 있는가?"	"이 LLM은 주어진 API 명세를 보고 정확하게 함수를 호출할 수 있는가?"
평가 예시	OS 환경에서 '비어 있지 않은 디렉터리 개수 찾기' 과업 수행	'BookHotel' API를 정확한 파라미터로 호출하기

두 벤치마크의 차이점을 명확히 했으므로, 다음으로는 AgentBench를 통해 실제로 어떤 인사이트를 얻을 수 있었는지 구체적인 평가 결과를 분석해 보겠습니다.

AgentBench를 통해 대규모 LLM을 평가한 결과는 AI 에이전트 개발자들이 주목해야 할 몇 가지 중요한 경향과 문제점을 드러냈습니다. 이러한 발견은 단순히 모델의 순위를 매기는 것을 넘어, AI 에이전트의 성능을 개선하기 위한 실질적인 가이드라인을 제공합니다.

상용 LLM과 오픈소스 LLM의 압도적인 성능 격차 gpt-4와 같은 최상위 상용 API 기반 모델과 대부분의 오픈소스 모델(OSS LLM) 사이에는 매우 큰 성능 격차가 존재합니다. AgentBench 전체 환경에서 상용 모델의 평균 점수는 2.32였던 반면, 오픈소스 모델의 평균 점수는 0.51에 불과했습니다. 이는 에이전트 개발 시 강력한 기반 모델을 선택하는 것이 얼마나 중요한지를 명확히 보여줍니다.
주요 실패 원인 분석: 반복 행동의 함정 과업 실패의 가장 흔한 원인은 '작업 시간 초과(Task Limit Exceeded)'로 나타났습니다. 연구진의 분석에 따르면, 시간 초과로 실패한 경로의 90% 이상에서 심각한 반복 행동이 관찰되었습니다(마지막 10턴 중 2개 응답의 Rouge-L 점수가 0.8 이상). 이는 현재 LLM 에이전트가 장기적인 계획을 세우고, 과거의 실수를 기억하며, 새로운 전략을 구사하는 능력에 근본적인 한계가 있음을 보여줍니다.
코드 훈련의 양면성 LLM을 대규모 코드로 훈련시키는 것은 '양날의 검'이 될 수 있습니다. 코드 훈련은 OS 조작처럼 절차적이고 논리적인 작업의 구조적 사고력을 향상시켜 성능에 도움이 됩니다. 하지만, 카드 게임처럼 창의적인 전략이 필요한 추상적인 작업에서는 모델이 경직된 단계별 논리에 지나치게 의존하게 만들어 오히려 성능을 저해할 수 있습니다. 예를 들어, CodeLlama는 Web Shopping 환경에서는 뛰어났지만 Digital Card Game에서는 상대적으로 저조한 성과를 보였습니다.
고품질 데이터의 중요성 gpt-4가 생성한 데이터와 같이 품질이 높은 데이터로 정렬 학습(Alignment training)을 수행하는 것이 LLM 에이전트의 전반적인 성능 향상에 긍정적인 영향을 미치는 것으로 나타났습니다. 이는 에이전트의 행동을 원하는 방향으로 유도하는 데 고품질 데이터 기반의 미세조정이 중요함을 시사합니다.

저작자표시 비영리 변경금지 (새창열림)

'개발 > LLM' 카테고리의 다른 글

[AI][Agent] DeepSeek R-1은 Agent-R1을 위해 무엇을 남겼나? (0)	2025.11.24
[AI][Agent] DSPy로 구현하는 자동 최적화 AI 파이프라인 (0)	2025.11.22
[AI][Benchmark] API-Bank: LLM의 AI 에이전트 적합성을 판별해보자 (1)	2025.11.15
[AI][Agent] LLM의 AI 에이전트 평가 핵심 항목 분석 (1)	2025.11.14
[AI][백서] 구글이 정의하는 미래, AI 에이전트 아키텍처: 'Introduction to Agents' (0)	2025.11.13