[AI][Benchmark] API-Bank: LLM의 AI 에이전트 적합성을 판별해보자

AI 에이전트가 인간의 일자리를 대체할 것이라는 초기 열풍이 현실의 벽에 부딪히고 있습니다. AI 에이전트 기술은 단순 챗봇을 넘어 외부 API와 연동해 복잡한 작업을 자동화하는 단계로 진화했지만, 섣부른 도입은 값비싼 대가로 돌아올 수 있습니다. 이는 단순한 가정이 아닌, 실제 비즈니스 현장에서 증명된 사실입니다.

대표적인 사례로, 스웨덴 핀테크 기업 Klarna는 비용 절감을 위해 700명의 고객 서비스 직원을 AI 에이전트로 대체했지만, 급격히 저하된 고객 경험으로 인해 결국 다시 인간 상담사를 고용하는 대가를 치러야 했습니다. 이 사례는 성능이 검증되지 않은 에이전트 도입이 어떻게 비즈니스 실패로 직결되는지를 명확히 보여줍니다. 성공적인 AI 에이전트는 단순히 똑똑하게 대답하는 것을 넘어, 외부 도구(API)를 정확하고 효율적으로 사용하여 실질적인 문제를 해결해야 합니다.

이전 글에서 AI 에이전트에 LLM을 사용하기 위해 어떤 항목을 확인해보았습니다.

👉 참고: LLM의 AI 에이전트 평가 핵심 항목 분석

특히 AI 에이전트의 핵심 능력인 외부 도구 사용 능력을 정밀하게 평가하는 것이 무엇보다 중요합니다. 여기서 API-Bank 벤치마크는 LLM(대규모 언어 모델)이 진정한 AI 에이전트로서 기능할 수 있는지를 판별하는 핵심 평가 도구로 부상하고 있습니다. 이 글에서는 API-Bank의 구조와 특징을 심층 분석하고, 다른 벤치마크와의 비교를 통해 개발자가 AI 에이전트의 성능을 어떻게 진단하고 개선할 수 있는지 구체적인 가이드를 제시하겠습니다.

[API-Bank 논문]

API-Bank: 기존 LLM 벤치마크의 한계를 넘어서다

AI 에이전트의 성공은 유창한 대화 능력에 달려있지 않습니다. 진정한 가치는 외부 도구를 얼마나 정확하고 효율적으로 사용하여 복잡한 과업을 완수하는지에 있습니다. 따라서 AI 에이전트를 평가할 때는 이러한 '실행 능력'을 정밀하게 측정하는 것이 핵심입니다.

LLM 에이전트는 일반적으로 다음과 같은 핵심 구성 요소로 이루어집니다.

계획(Planning): 복잡한 사용자 요청을 해결하기 위해 여러 개의 하위 작업으로 나누고 순서를 정하는 능력.
메모리(Memory): 이전의 상호작용 기록과 맥락을 기억하여 일관성 있는 대응을 하는 능력.
도구 사용(Tool Use): 외부 API나 함수를 호출하여 최신 정보를 가져오거나 특정 작업을 수행하는 능력.

이러한 요소들을 평가하기 위해 Wandb Evaluations Whitepaper에서는 다음과 같은 종합적인 항목들을 고려할 것을 제안합니다.

정확성(Accuracy): 에이전트가 주어진 작업을 얼마나 정확하게 완수하는가.
비용(Cost): 작업을 수행하는 데 드는 API 호출 비용이나 컴퓨팅 자원은 얼마나 효율적인가. 특히 에이전트 환경에서 비용은 단일 호출이 아닌, API 호출의 '연쇄 작용'으로 누적됩니다. 계획 단계의 작은 실수 하나가 불필요하고 값비싼 여러 API 호출로 이어질 수 있습니다.
지연 시간(Latency): 사용자가 요청한 후 응답을 받기까지 얼마나 걸리는가.
안전성(Safety): 유해하거나 민감한 정보를 생성하지 않고, 보안상 안전하게 작동하는가.
사용자 경험(User Experience): 사용자가 에이전트와의 상호작용에서 만족감을 느끼는가.

지금까지 LLM의 성능은 MMLU와 같은 전통적인 벤치마크로 측정되어 왔습니다. 하지만 이러한 벤치마크는 주로 모델의 지식과 추론 능력을 평가하며, 최근에는 상위 모델들의 점수가 모두 최고점에 가까워지는 '점수 포화(Score Saturation)' 현상이 발생하고 있습니다. 이로 인해 모델 간의 실질적인 역량 차이를 구분하기 어려워졌습니다. AI 에이전트의 본질은 '도구 사용' 능력에 있으며, API-Bank 벤치마크는 바로 이 지점을 파고들어 LLM이 외부 API를 얼마나 잘 계획하고, 찾고, 호출하는지를 직접 측정합니다.

더 나아가 API-Bank와 같은 새로운 벤치마크의 등장은 AI 평가의 고질적인 문제에 대한 해답을 제시합니다. 많은 벤치마크는 '데이터 오염(Data Contamination)', 즉 벤치마크 데이터가 모델의 훈련 데이터에 유출되는 문제에 취약합니다. 하지만 API-Bank의 계층적 평가 구조는 단순 정답 맞히기를 넘어 모델의 문제 해결 '과정'을 평가하므로 데이터 오염에 더 강건하며, 점수 포화 문제에 대한 효과적인 대안이 됩니다.

API-Bank 벤치마크 심층 분석: 3단계로 알아보는 에이전트 능력

API-Bank 벤치마크는 단순히 '성공' 또는 '실패'로 결과를 나누는 단편적인 평가를 넘어섭니다. 이 벤치마크는 AI 에이전트의 도구 사용 능력을 세 가지 계층적 단계로 나누어 체계적으로 진단할 수 있도록 설계되었습니다. 이를 통해 개발자는 에이전트가 어떤 단계에서 어려움을 겪는지 명확히 파악하고 개선 방향을 설정할 수 있습니다.

Level 1: Call (호출 능력)

Level 1은 AI 에이전트의 가장 기본적인 능력을 평가합니다. 사용자 요청을 해결하는 데 필요한 API 명세가 명확하게 주어졌을 때, LLM이 해당 API를 정확한 파라미터와 함께 호출할 수 있는지를 테스트합니다. 이는 에이전트의 지시 이행 능력을 측정하는 단계로, 이 단계를 통과하지 못하면 더 복잡한 작업을 수행하는 것은 사실상 불가능합니다.

Level 2: Retrieval + Call (검색 및 호출 능력)

Level 2는 한 단계 더 나아가, 여러 API 후보군 중에서 현재 작업에 가장 적합한 API를 스스로 '검색(Retrieval)'하여 호출하는 능력을 평가합니다. 실제 애플리케이션에서는 수많은 API가 존재하므로, 사용자의 모호한 요청 속에서 올바른 도구를 선택하는 것이 중요합니다. 이 단계는 에이전트의 문맥 이해 및 도구 선택 능력을 검증하며, 보다 실용적인 에이전트의 자질을 측정합니다.

Level 3: Plan + Retrieval + Call (계획, 검색 및 호출 능력)

가장 높은 단계인 Level 3은 복잡한 사용자 요청을 해결하기 위해 여러 API를 순서에 맞게 '계획(Plan)'하고, 각 단계에 맞는 API를 검색하여 순차적으로 호출하는 능력을 종합적으로 평가합니다. 예를 들어 "내일 출장 갈 도시의 날씨를 확인하고, 가장 저렴한 호텔을 예약한 뒤, 결과를 이메일로 보내줘"와 같은 복합적인 요청을 처리하는 능력을 측정합니다. 이는 에이전트의 복합적인 문제 해결 및 추론 능력을 보여주는 최종 단계입니다.

API-Bank의 3단계 진단 방식은 마치 코드를 디버깅하는 과정과 유사합니다. Level 1 실패는 '구문 오류(Syntax Error)' 와 같습니다. 함수 자체를 제대로 호출하지 못하는 것입니다. Level 2 실패는 '스코프 오류(Scope Error)' 에 비유할 수 있습니다. 라이브러리 안에서 올바른 함수를 찾아내지 못하는 상황입니다. 마지막으로 Level 3 실패는 '논리 오류(Logic Error)' 입니다. 여러 함수를 올바르게 조합하여 복잡한 문제를 해결하는 로직을 구성하지 못하는 것입니다. 이처럼 API-Bank는 실패 지점을 명확히 진단하고 개선 방향을 설정하는 데 실질적인 도움을 줍니다.

주요 에이전트 벤치마크 비교: API-Bank의 차별점은?

AI 에이전트 기술이 발전하면서 다양한 벤치마크가 등장하고 있습니다. 각각의 벤치마크는 고유한 평가 초점과 장단점을 가지고 있으며, 이를 이해하는 것은 개발 목표에 맞는 평가 전략을 수립하는 데 중요합니다. 여기서는 주요 에이전트 벤치마크들을 비교하여 API-Bank의 독자적인 가치를 부각시키겠습니다.

벤치마크	주요 평가 항목	API-Bank와의 차별점
API-Bank	계획(Plan), 검색(Retrieval), 호출(Call) 능력을 3단계로 세분화하여 평가	에이전트의 핵심인 '도구 사용' 능력을 계층적으로 진단하고 실패 지점을 명확히 분석하는 데 특화되어 있습니다.
Agent Leaderboard v2	금융, 헬스케어 등 5개 산업에 걸쳐 5-8개의 상호 연결된 목표를 포함하는 복잡한 다중 턴 대화 및 의사결정 능력	특정 산업 도메인에서의 실용적인 성능과 복잡한 대화 흐름 관리에 중점을 둡니다.
TaskBench	'Tool Graph' 개념을 활용하여 도구 간 의존성을 모델링하고, 태스크 분해, 도구 선택, 파라미터 예측 능력을 세분화하여 평가	도구 간의 의존성을 그래프로 모델링하여 복잡한 작업 자동화 과정을 정밀하게 평가하는 데 강점이 있습니다.
SWE-bench	실제 GitHub 이슈를 기반으로 유닛 테스트를 통과하는 코드 패치(code patch)를 생성하는 소프트웨어 엔지니어링 문제 해결 능력	범용적인 API 호출이 아닌, 코드 수정 및 소프트웨어 개발이라는 특정 도메인에 국한됩니다.

이 비교를 통해 개발자는 자신의 프로젝트 목표에 따라 가장 적합한 벤치마크를 선택할 수 있습니다. 예를 들어, 에이전트의 핵심적인 API 호출 로직과 계획 수립 능력을 근본적으로 검증하고 싶다면 API-Bank가 가장 적합합니다. 반면, 특정 산업(예: 금융)용 챗봇을 개발하고 있다면 실제 시나리오 기반의 Agent Leaderboard v2가 더 유용할 수 있습니다. 복잡한 도구 의존성을 가진 자동화 워크플로우를 구축한다면 TaskBench가 깊이 있는 분석을 제공할 것입니다.

결론적으로, 다른 벤치마크들이 특정 도메인이나 복잡한 시나리오에서의 '종합 성능'을 측정하는 데 집중하는 반면, API-Bank는 에이전트 능력의 가장 근간이 되는 '도구 사용' 메커니즘을 명확한 계층 구조로 분해하여 평가한다는 점에서 독보적인 장점을 가집니다.

API-Bank 점수 읽기: 단순한 Function Calling을 넘어 진정한 '에이전트'로

API-Bank의 평가 점수는 단순히 모델의 순위를 매기기 위한 숫자가 아닙니다. 이 점수는 AI 에이전트의 아키텍처 설계, 모델 선택, 그리고 향후 개선 방향에 대한 구체적인 통찰력을 제공하는 중요한 지표입니다.

API-Bank Level 3에서 높은 점수를 받은 LLM은 복잡한 다단계 추론과 계획 수립 능력이 뛰어나다는 것을 의미합니다. 이는 단순 'Function Calling' 기능만 갖춘 모델과의 근본적인 차이점을 보여줍니다. Function Calling이 본질적으로 상태를 기억하지 않는 '무상태(stateless) 요청-응답 메커니즘'이라면, Level 3을 통과한 모델은 '상태 관리(state management), 계획 수립, 자율성'을 바탕으로 스스로 목표를 설정하고, 하위 작업을 계획하며, 자율적으로 도구를 사용하는 진정한 'LLM 에이전트'로 볼 수 있습니다.

API-Bank의 평가 결과는 비즈니스 관점에서도 중요한 시사점을 가집니다. Wandb Evaluations Whitepaper에서 강조하는 핵심 평가 항목들과 다음과 같이 연결됩니다.

정확성 및 사용자 경험: API-Bank의 까다로운 테스트, 특히 Level 3을 통과한 모델은 사용자의 복잡한 요구사항을 더 정확하게 파악하고 해결할 가능성이 높습니다. 이는 곧바로 긍정적인 사용자 경험으로 이어지며, Klarna의 사례와 같은 실패를 방지하는 데 기여합니다.
비용 효율성: 정확한 계획(Plan)과 검색(Retrieval) 능력은 불필요한 API 호출이나 잘못된 시도를 줄여줍니다. 한 번의 잘못된 계획은 여러 번의 불필요한 API 호출로 이어져 비용을 기하급수적으로 증가시킬 수 있습니다. 따라서 API-Bank 점수가 높은 모델은 전체 시스템의 비용 효율성을 높이는 데 결정적인 역할을 합니다.

물론 API-Bank가 모든 것을 평가하지는 않습니다. 따라서 API-Bank를 에이전트의 '논리적 실행 능력'을 검증하는 핵심 벤치마크로 사용하되, 실제 운영 환경에서 중요한 지연 시간(Latency)이나 안전성(Safety) 같은 비기능적 요구사항은 별도의 테스트 프레임워크를 통해 반드시 검증해야 합니다. 결론적으로, API-Bank는 포괄적인 에이전트 평가 스위트(suite)의 핵심 구성 요소로서, 모델의 근본적인 에이전트 능력을 진단하고 신뢰할 수 있는 시스템을 구축하기 위한 첫 단추 역할을 합니다.

성공적인 AI 에이전트 개발은 막연한 기대나 최신 모델에 대한 맹신이 아닌, 체계적인 벤치마크를 통한 철저한 검증에서 시작됩니다. 특히 API-Bank 벤치마크는 LLM이 단순한 언어 모델을 넘어 자율적인 문제 해결사로 기능할 수 있는지를 판별하는 핵심적인 잣대를 제공합니다.

이 글을 읽는 AI 에이전트 개발자들에게 실질적인 벤치마크 활용 전략을 다음과 같이 제안합니다.

0단계 (성공 기준 정의): 본격적인 평가에 앞서, 에이전트의 성공 기준과 핵심 실패 시나리오를 명확히 정의해야 합니다. Wandb Evaluations Whitepaper에서 강조하듯, 평가의 첫걸음은 무엇을 측정할지 정의하는 것입니다.
1단계 (모델 선정 및 기본 능력 검증): 개발 초기 단계에서는 API-Bank를 사용하여 여러 LLM 후보군의 기본적인 도구 사용 및 계획 수립 능력을 평가하십시오. 이를 통해 프로젝트의 기반이 될 가장 잠재력 있는 모델을 객관적인 데이터에 근거하여 선정할 수 있습니다.
2단계 (실용성 및 도메인 특화 검증): 프로토타입이 구체화되면 Agent Leaderboard v2와 같은 도메인 특화 벤치마크를 활용하여 실제 비즈니스 시나리오에서의 성능을 검증하십시오. 이를 통해 에이전트가 특정 산업 환경의 복잡한 다중 턴 대화와 예외 상황을 얼마나 잘 처리하는지 확인할 수 있습니다.
3단계 (지속적인 신뢰도 관리): 최종적으로는 상용 벤치마크에만 의존하지 말고, 실제 사용자 데이터와 엣지 케이스를 기반으로 자체적인 평가 데이터셋을 구축해야 합니다. 이를 통해 에이전트의 안정성과 신뢰도를 지속적으로 모니터링하고 개선해 나가야 합니다.

저작자표시 비영리 변경금지 (새창열림)

'개발 > LLM' 카테고리의 다른 글

[AI][Agent] DSPy로 구현하는 자동 최적화 AI 파이프라인 (0)	2025.11.22
[AI][Benchmark] AgentBench: 8가지 다차원적 평가 (3)	2025.11.21
[AI][Agent] LLM의 AI 에이전트 평가 핵심 항목 분석 (1)	2025.11.14
[AI][백서] 구글이 정의하는 미래, AI 에이전트 아키텍처: 'Introduction to Agents' (0)	2025.11.13
[논문 리뷰] Context Engineering 2.0: The Context of Context Engineering (0)	2025.11.12