본문 바로가기
개발/LLM

[AI][Agent] DeepSeek R-1은 Agent-R1을 위해 무엇을 남겼나?

by ▶ Carpe diem ◀ 2025. 11. 24.

DeepSeek R-1의 순수 강화학습 기반 추론 능력의 성과와 한계를 분석합니다. R-1의 GRPO 알고리즘이 단일 턴 추론의 정점을 달성했지만, 왜 다중 턴 LLM 에이전트 시스템을 완성할 수 없었는지 알아보고, 그 한계가 어떻게 Agent-R1의 기술적 혁신으로 이어졌는지 확인해 보세요.

 

 

론 모델을 넘어, 자율 에이전트의 시대로

AI 기술의 패러다임이 대규모 언어 모델(LLM)의 단순한 정보 생성을 넘어, 복잡한 문제를 스스로 계획하고 해결하는 '추론(reasoning)' 모델로 빠르게 진화하고 있습니다. 이러한 변화의 중심에는 전례 없는 방식으로 추론 능력을 획득한 모델, DeepSeek R-1이 있습니다. 이 모델은 지도 학습 데이터에 의존하지 않고, 순수 강화학습(RL)만으로 복잡한 수학 및 코딩 문제에서 인간 전문가 수준의 성과를 달성하며 AI 커뮤니티에 큰 충격을 주었습니다.

DeepSeek R-1 이미지

 

하지만 이 글은 DeepSeek R-1의 성공을 조명하는 데 그치지 않고, 더 근본적인 질문을 던지고자 합니다. "왜 이토록 뛰어난 추론 모델인 DeepSeek R-1만으로는 완전한 AI 에이전트를 만들 수 없는가?" 이 질문에 답하기 위해, 우리는 DeepSeek R-1의 기술적 성과와 그 이면에 숨겨진 한계를 심층적으로 분석할 것입니다. 이를 통해 자율적으로 환경과 상호작용하며 목표를 달성해야 하는 차세대 에이전트 시스템, 즉 Agent-R1과 같은 프레임워크가 해결해야 할 과제가 무엇인지 명확히 짚어볼 것입니다.

 

 

 

DeepSeek R-1의 탄생: 순수 강화학습으로 추론 능력을 깨우다

전통적인 AI 모델 개발 파이프라인은 대규모 지도 학습(Supervised Fine-Tuning, SFT) 데이터에 크게 의존해왔습니다. 그러나 양질의 SFT 데이터를 구축하는 데는 막대한 비용과 시간이 소요되며, 데이터가 모델의 잠재력을 제한하는 족쇄가 되기도 합니다. DeepSeek AI 연구팀은 이러한 한계를 극복하고 모델의 내재된 능력을 최대한 끌어내기 위해, SFT 단계를 완전히 배제하고 순수 강화학습(RL)을 직접 적용하는 과감한 전략을 선택했습니다.

 

이러한 시도의 결과물이 바로 DeepSeek-R1-Zero 모델입니다. 이 모델은 기반 모델인 DeepSeek-V3-Base에 어떠한 SFT 과정도 거치지 않고, 오직 강화학습만을 적용하여 훈련되었습니다. 이때 사용된 핵심 알고리즘은 GRPO(Group Relative Policy Optimization)입니다. GRPO는 기존 PPO 알고리즘을 단순화한 형태로, 생성된 여러 결과물 그룹의 점수를 상대적으로 비교하여 정책을 최적화합니다. GRPO의 핵심적인 단순화는 별도의 비평가 모델(critic model)을 사용하지 않는다는 점이며, 이는 훈련 중 상당한 계산 오버헤드를 줄여줍니다.

 

이 접근법은 LLM의 심층 추론 능력이 방대한 지도 학습 데이터 없이도 순수 강화학습을 통해 유도될 수 있음을 세계 최초로 입증한 기념비적인 성과입니다. 보상을 통해 올바른 방향을 '인센티브'로 제공하자, 모델은 스스로 문제 해결 방법을 터득하기 시작했습니다. 

 

 

 

 

'생각'하는 모델의 등장: R-1의 핵심 동작 원리

기존 LLM이 학습된 데이터의 패턴을 인식하여 그럴듯한 답변을 생성하는 데 그쳤다면, DeepSeek-R1-Zero는 문제 해결을 위해 스스로 사고 과정을 탐색하고 검증하는, 마치 '생각'하는 듯한 모습을 보여주었습니다. 이는 단순한 성능 향상을 넘어, AI가 문제에 접근하는 방식 자체의 질적 도약을 의미합니다. R1-Zero 모델에서 자발적으로 나타난 핵심적인 추론 행동은 다음과 같습니다.

  • 긴 사고의 연쇄 (Long Chain-of-Thought): 모델은 복잡한 수학이나 코딩 문제를 해결하기 위해 때로는 수천 토큰을 훌쩍 넘는 긴 사고의 연쇄(CoT)를 생성했습니다. 이는 문제를 작은 단계로 나누어 체계적으로 접근하고, 각 단계의 논리를 전개하며 최종 답을 도출하는 인간의 문제 해결 방식과 유사합니다. RL 훈련이 진행될수록 CoT의 길이는 점차 증가하며, 이는 더 깊은 사고에 대한 보상이 모델의 행동을 강화했음을 시사합니다.
  • 자체 검증 및 성찰 (Self-Verification & Reflection): R1-Zero는 추론 과정에서 스스로 논리적 오류나 계산 실수를 발견하고 이를 수정하는 놀라운 능력을 보였습니다. 연구진들이 "아하 모멘트(aha moment)"라고 명명한 이 현상은 모델이 자신의 추론 과정을 재평가하고 더 나은 해결책을 모색하는 성찰적 사고의 발현입니다. DeepSeek-R1 백서에 실제 생성 예시로 언급된 다음 문장은 이러한 순간을 명확히 보여줍니다.

이러한 능력들은 정답 여부를 명확하게 검증할 수 있는 수학이나 코딩과 같은 단일 턴(single-turn) 환경에서 극대화되었습니다. 모델은 정해진 문제에 대해 한 번의 긴 답변을 생성하고, 그 결과에 대한 보상을 통해 학습을 진행했습니다. 하지만 이처럼 강력한 추론 능력에도 불구하고, R1-Zero는 실용적인 상용 모델이 되기에는 명백한 한계를 가지고 있었습니다.

 

 

 

 

실용성을 향한 진화: R1-Zero에서 최종 R1 모델로

AI 모델의 원시적인 성능과 실제 사용자가 느끼는 안정성 및 가독성 사이의 균형을 맞추는 것은 상용화를 위한 필수 과제입니다. DeepSeek-R1-Zero는 순수 RL 최적화 과정에서 강력한 추론 능력을 얻었지만, 그 대가로 실용성을 일부 희생해야 했습니다.

가장 두드러진 한계점은 가독성 저하다중 언어 혼합(language mixing) 문제였습니다. 모델이 생성하는 긴 CoT는 논리적으로는 타당했지만, 사람이 이해하기 어려운 혼란스러운 형식으로 작성되거나 영어와 중국어가 뒤섞여 나타나는 경우가 잦았습니다. 이는 모델이 보상을 극대화하는 과정에서 인간의 가독성이나 언어적 일관성보다는 오직 '정답'에 도달하는 데만 집중했기 때문에 발생한 자연스러운 부작용이었습니다.

이 문제를 해결하기 위해 최종 DeepSeek-R1 모델은 두 단계의 SFT와 두 단계의 RL을 결합한 정교한 다단계 훈련 파이프라인(multi-stage training pipeline)을 도입했습니다.

  1. 초기 SFT: 먼저, 수천 개의 고품질 CoT 예시로 구성된 소량의 '콜드 스타트(cold-start)' 데이터로 기반 모델을 미세 조정하여 초기 추론의 방향성을 제시했습니다.
  2. 1차 RL: 이후 R1-Zero와 유사한 강화학습 단계를 거쳐 심층 추론 능력을 탐색하고 발전시켰습니다.
  3. 2차 SFT: 1차 RL 단계에서 생성된 고품질 결과물을 선별하여 새로운 SFT 데이터셋을 구축하고, 이를 기반 모델에 다시 학습시켜 추론 패턴을 정제했습니다.
  4. 최종 RL: 마지막으로, 인간의 선호도에 맞춰 정제된 추론을 생성하도록 다시 한번 RL을 진행하여 성능과 실용성을 모두 확보했습니다.

두 모델의 특징은 아래 표와 같이 명확하게 비교할 수 있습니다.

구분 DeepSeek-R1-Zero DeepSeek-R1 (최종)
훈련 방식 순수 강화학습 (SFT 없음) 하이브리드 (SFT + 다단계 RL)
핵심 성과 RL 기반 심층 추론 능력 입증 높은 추론 성능 + 높은 가독성 및 안정성
주요 특징 "아하 모멘트", 긴 CoT, 자가 검증 인간의 선호도에 맞춰진 정제된 추론
한계 실용성/가독성 부족 (연구용 모델) 단일 턴 추론에 최적화

 

결론적으로, 최종 R1 모델은 단일 턴 정적 추론의 정점을 보여주었습니다. 하지만 R-1의 성공은 역설적으로 그 한계를 명확히 드러냈습니다. R-1의 한계는 단순한 실패가 아니라, 동적인 세상과 상호작용하는 진정한 '에이전트'를 만들기 위해 무엇이 필요한지를 정의하는 중요한 발견이었습니다. 즉, R-1의 한계가 바로 차세대 에이전트 시스템이 풀어야 할 문제 명세서(problem specification)가 된 것입니다.

 

 

 

 

왜 R-1만으로는 Agent 시스템을 완성할 수 없는가?

이 섹션은 이 글의 가장 핵심적인 질문에 답하는 부분입니다. 우리는 지금까지 DeepSeek R-1이 어떻게 단일 턴 추론에서 놀라운 성과를 거두었는지 살펴보았습니다. 이제 논의를 한 단계 확장하여, R-1의 아키텍처가 왜 완전한 에이전트 시스템이 될 수 없는지, 그 근본적인 이유를 세 가지 핵심 과제를 통해 분석해 보겠습니다.

 

단일 턴 추론 vs. 다중 턴 에이전시

R-1과 같은 추론 모델이 최적화된 환경과 AI 에이전트가 마주하는 환경은 근본적으로 다릅니다. R-1이 해결하는 수학 문제나 코딩 과제는 '단일 턴(single-turn)' 환경입니다. 즉, 주어진 문제에 대해 한 번의 긴 답변을 생성하면 상호작용이 종료됩니다.

반면, AI 에이전트는 사용자의 컴퓨터를 제어하거나 웹사이트에서 정보를 수집하는 등 '다중 턴(multi-turn)' 환경에서 작동합니다. 에이전트는 행동을 취하고(action), 환경으로부터 피드백(observation)을 받으며, 이 과정을 여러 번 반복하여 최종 목표를 달성합니다. AGENTRL 논문에서 정의하듯, 이러한 상호작용 환경은 상태 전환(state transition)이 존재하는 마르코프 결정 과정(Markov Decision Process, MDP)(에이전트가 특정 상태(state)에서 행동(action)을 취하면, 환경이 보상(reward)과 함께 다음 상태로 전환하는 상호작용 과정을 수학적으로 모델링한 것)으로 공식화됩니다. 에이전트의 현재 행동이 다음 상태에 영향을 미치고, 이 연속적인 상호작용의 결과로 최종 보상이 결정되는 것입니다. R-1의 훈련 방식은 이러한 다중 턴 상호작용을 고려하여 설계되지 않았습니다.

 

 

Agent RL의 세 가지 핵심 과제

다중 턴, 다중 작업 환경에서 에이전트를 훈련시키는 'Agent RL'은 R-1이 겪었던 단일 턴 RL과는 차원이 다른 세 가지 기술적 과제에 직면합니다. AGENTRL 논문은 이를 다음과 같이 명확히 정의합니다.

  1. 탐색 문제 (The Exploration Problem) 다중 턴 환경은 에이전트가 취할 수 있는 행동의 조합이 기하급수적으로 늘어나면서 거대한 상태 공간(state space)을 형성합니다. 훈련이 진행되어 정책(policy)이 특정 보상 경로에 수렴할수록, 모델은 스스로 탐색의 다양성을 줄여 지역 최적해(local optima)에 갇히는 경향이 있습니다. 이를 해결하기 위해 AGENTRL에서는 '교차-정책 샘플링(cross-policy sampling)' 전략이 제안되었습니다. 이는 현재 최적화된 최신 정책뿐만 아니라, 의도적으로 업데이트를 지연시킨 과거 버전의 '오래된(stale)' 정책을 함께 사용하여 행동을 샘플링하는 기법입니다. 이를 통해 모델이 이미 아는 길만 고집하지 않고 더 넓은 상태 공간을 탐색하도록 강제하여, 더 나은 해결책을 발견할 가능성을 열어줍니다.
  2. 안정성 문제 (The Stability Problem) 범용 에이전트는 웹 브라우징, 데이터베이스 쿼리, 파일 시스템 제어 등 서로 다른 성격의 여러 이질적인 작업을 동시에 학습해야 합니다. 하지만 각 작업은 보상(reward)의 규모와 특성이 매우 다를 수 있습니다. 예를 들어, 파일 생성 작업은 성공 시 1의 보상을 받는 반면, 복잡한 데이터 분석 쿼리는 0에서 100 사이의 미묘한 점수를 받을 수 있습니다. 이러한 상황에서 정책 경사(policy gradient)는 보상 규모가 큰 작업에 의해 지배되어, 다른 작업들의 성능이 오히려 저하되는 '작업 간섭(task interference)' 문제가 발생합니다. 이를 완화하기 위해 각 작업의 보상 신호(advantage)를 정규화하여 모든 작업이 학습 과정에 균형 있게 기여하도록 만드는 '작업 어드밴티지 정규화(task advantage normalization)' 기법이 필수적입니다.
  3. 인프라 문제 (The Infrastructure Problem) 에이전트의 다중 턴 상호작용은 그 길이가 매우 가변적이고, 환경과의 통신(예: 웹페이지 로딩, 코드 실행)에 상당한 시간이 소요됩니다. 기존의 동기식(synchronous) 훈련 파이프라인은 배치 내 모든 작업의 생성이 끝날 때까지 기다려야 합니다. 이 때문에 짧은 작업을 끝낸 GPU는 가장 긴 작업이 완료될 때까지 유휴 상태에 빠지는 "GPU 유휴 버블(GPU idle bubbles)"이 발생하여 심각한 비효율을 초래합니다. 수천 개의 병렬 환경을 효율적으로 관리하고 GPU 유휴 시간을 최소화하기 위해서는, 데이터 생성이 완료되는 즉시 훈련기가 해당 데이터를 가져와 학습을 시작할 수 있는 비동기식(asynchronous) 파이프라인이 반드시 필요합니다.

이러한 세 가지 핵심 과제는 R-1의 아키텍처로는 해결할 수 없는, 에이전트 시스템 고유의 문제입니다. 결국 R-1의 성공은 단일 턴 추론의 시대를 열었지만, 동시에 다중 턴 동적 에이전시라는 새로운 시대의 서막을 알리는 이정표가 되었습니다.

 

 

 


 

지금까지의 분석을 종합하면, DeepSeek R-1은 순수 강화학습을 통해 LLM의 숨겨진 심층 추론 능력을 성공적으로 이끌어낸 기념비적인 모델임이 분명합니다. 스스로 논리적 오류를 수정하는 '아하 모멘트'와 긴 사고의 연쇄는 AI가 단순한 패턴 생성을 넘어 진정한 '사고'의 영역으로 나아갈 수 있음을 증명했습니다. 하지만 그 본질은 정답이 명확하고 상호작용이 없는 단일 턴 정적 추론에 최적화되어 있다는 한계 또한 명확합니다.

 

반면, 우리가 궁극적으로 지향하는 진정한 AI 에이전트는 예측 불가능한 다중 턴 동적 환경 속에서 작동해야 합니다. 이를 위해서는 R-1이 마주하지 않았던 새로운 차원의 문제, 즉 광활한 상태 공간을 효율적으로 탐색하는 탐색 문제, 이질적인 여러 작업을 안정적으로 학습하는 안정성 문제, 그리고 가변적인 상호작용 시간을 효율적으로 처리하는 인프라 문제를 반드시 해결해야 합니다. 이것이 바로 R-1의 성공이 남긴 유산이자, Agent-R1과 같은 차세대 프레임워크가 풀어야 할 숙제입니다.

 

 

DeepSeek R-1이 추론의 문을 활짝 열었다면, Agent-R1은 그 문을 지나 자율 에이전트 시대로 나아가는 첫걸음을 내딛고 있습니다. 다음 블로그 글에서는 이러한 세 가지 핵심 과제를 해결하기 위해 특별히 설계된 Agent-R1(AGENTRL 프레임워크)의 구체적인 아키텍처와 핵심 알고리즘을 심층적으로 분석하며, 자율 에이전트의 미래를 한 걸음 더 깊이 들여다보겠습니다.