[논문 리뷰] Context Engineering 2.0: The Context of Context Engineering

대형 언어 모델(LLM)과 지능형 에이전트 기술이 산업 전반을 재편하는 오늘날, 우리는 인공지능(AI) 시스템의 성능을 한 단계 끌어올릴 새로운 열쇠를 마주하고 있습니다. 그 열쇠는 바로 ‘컨텍스트 엔지니어링(Context Engineering)’입니다. 단순히 프롬프트를 정교하게 다듬는 것을 넘어, AI가 인간의 의도와 상황을 깊이 있게 이해하고 상호작용하는 방식을 근본적으로 설계하는 이 분야의 전략적 중요성은 날로 커지고 있습니다.

이 분야의 기초 연구를 수행한 연구자들이 말했듯, "A person is the sum of their contexts."

A person is the sum of their contexts. 이미지

고전 철학에 대한 이 현대적 해석은 왜 컨텍스트를 이해하고 설계하는 것이 더 이상 일부 기술 전문가의 문제가 아니라, 인간과 AI 협업의 미래를 정의하는 핵심 과제인지를 완벽하게 보여줍니다. 사실 컨텍스트 엔지니어링은 LLM 시대에 갑자기 등장한 개념이 아닙니다. 이는 "어떻게 하면 기계가 인간의 의도와 상황을 더 잘 이해하게 만들 수 있을까?"라는, 인간-컴퓨터 상호작용(HCI) 분야의 20년 이상 된 근본적인 질문에 대한 현대적 해답입니다. 본질적으로 컨텍스트 엔지니어링은 인간의 고차원적이고 불분명한(high-entropy) 신호를 기계가 이해할 수 있는 명확한(low-entropy) 표현으로 변환하는 '엔트로피 감소' 과정으로 정의할 수 있습니다. 이 과정의 효율성과 정교함이 AI 시스템의 지능과 유용성을 결정짓는 핵심 변수가 되었습니다.

컨텍스트 엔지니어링의 진화: 1.0에서 2.0으로

컨텍스트 엔지니어링은 기술의 발전, 특히 기계 지능 수준의 도약에 따라 뚜렷한 단계를 거치며 진화해 왔습니다. 각 시대는 인간과 기계가 소통하는 방식을 근본적으로 재정의했으며, 컨텍스트를 처리하는 주체와 방식에 있어 혁신적인 패러다임 전환을 가져왔습니다.

컨텍스트 엔지니어링 1.0: 기계에 인간을 맞추던 시대 (1990년대-2020년)

이 시대는 유비쿼터스 컴퓨팅(Ubiquitous Computing)과 초기 인간-컴퓨터 상호작용(HCI) 연구가 활발했던 시기입니다. 당시의 기계는 자연어의 의미를 이해하거나 모호한 상황을 추론할 능력이 없었습니다. 따라서 인간이 기계가 이해할 수 있는 형태로 컨텍스트를 직접 가공하고 구조화된(low-entropy) 데이터를 입력해야 했습니다. 그래픽 사용자 인터페이스(GUI)의 메뉴 선택, 센서를 통한 위치나 시간 정보 수집 등이 대표적인 예입니다.

이론적 기반은 Anind K. Dey와 같은 연구자들이 제시한 초기 컨텍스트 정의에서 찾을 수 있습니다. 그는 컨텍스트를 "사용자와 애플리케이션 간의 상호작용과 관련된 모든 정보"로 폭넓게 정의하며, 시스템이 상황을 '인식'하여 적응하는 '상황 인식 컴퓨팅(Context-Aware Computing)'의 기틀을 마련했습니다. 하지만 이 시대의 핵심은 여전히 인간이 '의도 번역가'가 되어 기계의 한계에 맞춰 소통하는 것이었습니다.

컨텍스트 엔지니어링 2.0: 기계가 인간을 이해하기 시작한 시대 (2020년-현재)

2020년 GPT-3의 등장은 컨텍스트 엔지니어링의 분기점이 되었습니다. LLM으로 대표되는 '에이전트 중심 지능' 시대가 열리면서, 기계는 처음으로 자연어와 같은 비정형적이고 모호한(high-entropy) 데이터를 직접 이해하고 처리할 능력을 갖추게 되었습니다. 이제 인간은 복잡한 의도를 대화 형식으로 전달할 수 있게 되었고, 기계는 문맥의 빈틈을 추론하고 암시된 의도를 파악하기 시작했습니다.

이러한 변화는 인간과 기계의 관계를 근본적으로 바꾸었습니다. 기계가 단순히 상황을 수동적으로 감지하는 '상황 인식(context-aware)' 수준을 넘어, 사용자의 목표 달성을 위해 능동적으로 협력하는 '상황 협력(context-cooperative)' 단계로 진입한 것입니다. 그 차이는 실로 엄청납니다. 1.0 시대의 '상황 인식' 시스템은 당신이 사무실에 있다는 것을 감지하고 휴대폰을 무음으로 바꿀 수 있습니다. 반면, 2.0 시대의 '상황 협력' 시스템은 당신이 연구 논문을 작성 중이라는 사실을 이해하고, 이전에 작성한 단락들을 분석하여 다음 섹션에 어울리는 내용을 제안할 수 있습니다. 즉, 단순히 환경을 감지하는 것을 넘어 당신의 작업 흐름에 통합되는 것입니다. 이제 컨텍스트 엔지니어링의 초점은 인간이 얼마나 정보를 잘 구조화하는지에서, 기계가 얼마나 풍부한 컨텍스트를 효과적으로 이해하고 활용하도록 설계하는지로 이동했습니다.

비교 항목	컨텍스트 엔지니어링 1.0	컨텍스트 엔지니어링 2.0
시대 구분	1990년대 – 2020년	2020년 – 현재
기술 배경	유비쿼터스 컴퓨팅, 상황 인식 시스템, HCI	대형 언어 모델, 에이전트, 프롬프트 엔지니어링
대표 시스템	Context Toolkit, Cooltown, ContextPhone	ChatGPT, LangChain, AutoGPT, Letta
주요 컨텍스트 양식	위치, 신원, 활동, 시간, 환경, 기기 상태	토큰 시퀀스, 검색된 문서, 도구 API, 사용자 이력
핵심 메커니즘	센서 퓨전, 규칙 기반 트리거	프롬프팅, RAG, CoT, 메모리 에이전트

인간 주도의 번역(1.0)에서 기계 주도의 해석(2.0)으로의 진화는 우연이 아니었습니다. 이는 일련의 핵심 아키텍처 패턴에 의해 가능해졌습니다. 다음 장에서는 모든 AI 에이전트 설계자가 반드시 숙달해야 할 이 근본적인 설계 원칙들을 해부해 보겠습니다.

AI 에이전트를 위한 컨텍스트 엔지니어링 핵심 설계 원칙

효과적인 AI 에이전트를 구축하기 위해서는 단순히 강력한 모델을 사용하는 것을 넘어, 컨텍스트를 체계적으로 다루는 설계 원칙이 필수적입니다. AI의 '상황 인식 능력'을 극대화하는 이 원칙들은 크게 수집(Collection), 관리(Management), 활용(Usage)의 세 가지 차원으로 나눌 수 있으며, 이들은 서로 유기적으로 작용합니다.

무엇을, 어떻게 수집하고 저장할 것인가? (Context Collection & Storage)

과거에는 데스크톱 PC와 같은 단일 기기에서 키보드, 마우스, GPS 등 제한된 센서를 통해 컨텍스트를 수집했습니다. 하지만 오늘날 AI 에이전트는 스마트폰, 웨어러블 기기, IoT 센서 등 분산된 여러 소스로부터 텍스트, 이미지, 음성, 생체 신호 등 다중 모드(multimodal) 데이터를 지속적으로 수집합니다.

특히 여러 세션에 걸쳐 진행되는 장기 실행 작업(long-horizon task)에서는 LLM의 제한된 컨텍스트 창(context window)이 큰 한계로 작용합니다. 이를 극복하기 위해 작업의 상태와 중간 결과를 로컬 데이터베이스나 클라우드 같은 외부 메모리에 주기적으로 저장하는 전략이 중요합니다. 이를 통해 에이전트는 작업이 중단되더라도 이전 컨텍스트를 복원하여 연속성을 유지할 수 있습니다.

수집된 정보를 어떻게 가공하고 구조화할 것인가? (Context Management)

방대한 양의 원시 데이터를 그대로 사용하는 것은 비효율적입니다. 효과적인 컨텍스트 관리는 수집된 정보를 의미 있는 구조로 가공하여 AI가 더 쉽게 이해하고 활용할 수 있도록 만드는 과정입니다.

계층적 메모리 아키텍처: 운영체제(OS)가 빠른 RAM(단기 기억)과 용량이 큰 디스크(장기 기억)를 함께 사용하듯, AI 에이전트도 메모리를 계층적으로 설계할 수 있습니다. 최근 대화나 작업 상태는 신속한 접근이 가능한 단기 메모리에, 중요한 지식이나 요약된 정보는 장기 메모리에 저장하여 효율성과 확장성을 모두 확보합니다.
컨텍스트 격리(Subagent): 복잡한 작업에서는 여러 정보가 뒤섞여 컨텍스트 오염이 발생할 수 있습니다. Anthropic의 Claude Code 사례처럼, 특정 하위 작업을 전담하는 서브에이전트(Subagent)에게 격리된 컨텍스트와 최소한의 권한을 부여하는 것이 효과적입니다. 각 서브에이전트는 자신의 임무에 필요한 정보만 접근하므로 전체 시스템의 안정성과 예측 가능성이 높아집니다. 이 원칙은 동적으로도 적용될 수 있습니다. 예를 들어, LeadResearcher 에이전트는 복잡한 과제를 평가한 후, 여러 측면을 조사하기 위해 다수의 서브에이전트를 병렬로 생성하고 그 결과를 종합할 수 있습니다. 이는 컨텍스트가 정적으로 격리되는 것을 넘어 동적으로 관리되는 피드백 루프를 생성하여, 추론 과정의 교차 오염 없이 시스템이 더 높은 품질의 답변에 도달하도록 돕습니다.
컨텍스트 추상화(Self-baking): 에이전트가 스스로 원시 데이터를 요약하거나 구조화된 형태로 변환하여 지식을 축적하는 과정을 '셀프 베이킹(Self-baking)'이라고 합니다. 이는 단순한 정보 저장을 넘어 학습과 성장을 가능하게 하는 핵심 메커니즘입니다. 대표적인 설계 패턴은 다음과 같습니다.
- (A) 자연어 요약: 원시 컨텍스트(예: 긴 대화 기록)를 자연어 요약문으로 압축하여 저장합니다.
- (B) 직접 구조화 저장: 정보를 단기/장기 메모리 같은 구조화된 형식으로 직접 저장합니다.
- (C) 벡터화: 원시 컨텍스트를 의미적 유사도 검색이 용이한 벡터 임베딩으로 변환합니다.
- (D) 고정 스키마 추출: 원시 컨텍스트에서 이름, 장소, 관계 등 주요 사실을 사전 정의된 스키마(예: 지식 그래프)에 맞춰 추출하고 구조화합니다.

적절한 정보를 어떻게 선택하고 공유할 것인가? (Context Usage)

컨텍스트를 효과적으로 활용하는 것은 AI의 추론 품질과 직결됩니다. 여기에는 '무엇을 기억할 것인가'와 '어떻게 협력할 것인가'라는 두 가지 핵심 과제가 있습니다.

컨텍스트 선택: LLM의 컨텍스트 창은 제한되어 있으므로, 어떤 정보를 넣을지 결정하는 것은 매우 중요합니다. 이를 "주의집중 이전의 주의집중(attention before attention)"이라고도 부릅니다. 이는 마치 연구 조수가 교수에게 특정 질문에 대한 답을 찾기 위해 대학 도서관 전체를 건네는 것과, 고도로 관련된 논문 10편을 선별하여 전달하는 것의 차이와 같습니다. 모델 내부의 어텐션 메커니즘이 교수의 집중력이라면, 그 집중의 질은 초기에 지능적으로 필터링된 컨텍스트, 즉 시스템이 수행하는 '주의집중 이전의 주의집중'에 전적으로 달려 있습니다. 시스템은 의미적 관련성, 논리적 의존성(이전 단계의 결과), 최신성 등 여러 기준을 종합하여 현재 작업에 가장 중요한 컨텍스트를 필터링하고 선택해야 합니다.
컨텍스트 공유: 여러 에이전트가 협업하는 시스템에서는 원활한 정보 교환이 필수적입니다. 컨텍스트 공유에는 주로 세 가지 패턴이 사용됩니다.

Common pattenrs of cross-agent context sharing image

(A) 프롬프트에 이전 컨텍스트 포함: 한 에이전트의 출력(생각 과정, 결과)을 다음 에이전트의 프롬프트에 직접 포함시키는 가장 간단한 방식입니다.
(B) 구조화된 메시지 교환: 사전에 정의된 스키마(예: JSON)에 따라 작업 유형, 입력, 출력 등을 명시한 메시지를 교환하여 정보의 일관성과 명확성을 보장합니다.
(C) 공유 메모리를 통한 간접 통신: 모든 에이전트가 접근할 수 있는 중앙 메모리 공간(블랙보드, 그래프 등)에 정보를 기록하고 읽어와 비동기적으로 협업하는 방식입니다.

이러한 설계 원칙들이 실제 AI 제품과 서비스에서 어떻게 구현되는지 다음 장의 구체적인 사례를 통해 살펴보겠습니다.

실제 적용 사례로 보는 컨텍스트 엔지니어링

앞서 논의한 이론적 원칙들이 실제 AI 시스템에서 어떻게 생명력을 얻는지 구체적인 사례를 통해 분석해 보겠습니다. 이 사례들은 컨텍스트 엔지니어링이 어떻게 AI의 성능과 사용자 경험을 혁신하는지 명확히 보여줍니다.

Google Gemini CLI: 파일 시스템을 활용한 계층적 컨텍스트 관리

Google의 Gemini CLI는 개발자에게 익숙한 파일 시스템을 활용하여 계층적 메모리 아키텍처와 컨텍스트 격리 원칙을 훌륭하게 적용한 사례입니다. 사용자는 프로젝트 루트나 하위 디렉터리에 GEMINI.md 파일을 생성하여 프로젝트의 배경, AI의 역할, 사용 도구 등을 정의할 수 있습니다. CLI는 명령어 실행 시 현재 디렉터리부터 상위 디렉터리까지 GEMINI.md 파일을 연쇄적으로 읽어 컨텍스트를 상속받습니다. 동시에 하위 디렉터리의 설정이 상위 설정을 덮어쓸 수 있어, 각기 다른 작업 공간에 맞는 컨텍스트 격리가 가능합니다. 이는 파일 시스템이라는 친숙한 구조를 활용해 컨텍스트의 수집, 저장, 관리를 효과적으로 구현한 사례입니다.

Tongyi DeepResearch: 장기 탐색을 위한 컨텍스트 압축 및 요약

Tongyi DeepResearch와 같은 연구 에이전트는 복잡한 질문에 답하기 위해 수백 단계에 걸친 탐색을 수행해야 합니다. 이 과정에서 생성되는 방대한 정보를 단순히 이어 붙이면 컨텍스트 창의 한계를 금방 초과하게 됩니다. 이 문제를 해결하기 위해 Tongyi DeepResearch는 우리가 '셀프 베이킹'이라고 불렀던 강력한 형태의 컨텍스트 추상화 원칙을 적극적으로 활용합니다. 에이전트는 탐색 과정에서 누적된 정보를 주기적으로 별도의 요약 모델에 전달하여 핵심 내용만 담은 '컨텍스트 스냅샷'을 생성합니다. 이후의 추론은 전체 원시 기록이 아닌 이 압축된 스냅샷을 기반으로 진행됩니다. 이 방식은 제한된 컨텍스트 창의 한계를 극복하고 장기적인 추론의 일관성을 유지하는 효과적인 전략을 보여줍니다.

뇌-컴퓨터 인터페이스(BCI): 컨텍스트 수집의 새로운 지평

뇌-컴퓨터 인터페이스(BCI)는 컨텍스트 수집의 미래를 엿볼 수 있는 혁신적인 사례입니다. 기존 방식이 사용자의 언어 입력이나 외부 행동 관찰에 의존했다면, BCI는 뇌파(EEG)와 같은 신경 신호를 직접 측정하여 컨텍스트를 수집합니다. 이를 통해 사용자의 주의 수준, 감정 상태, 인지 부하와 같은 내적 상태를 AI가 직접 파악할 수 있게 됩니다. 아직 초기 단계의 기술이지만, BCI는 컨텍스트 수집의 범위를 외부 환경에서 인간의 내면으로 확장하며, AI가 사용자를 훨씬 더 깊이 이해하고 진정으로 개인화된 상호작용을 제공할 새로운 가능성을 열어주고 있습니다.

이 글을 통해 컨텍스트 엔지니어링이 LLM 시대의 최신 유행어가 아닌, 인간과 기계 사이의 인지적 격차를 줄이기 위한 20년 이상의 역사를 지닌 깊이 있는 분야임을 확인했습니다. 그 본질은 불분명한 인간의 의도를 기계가 이해할 수 있도록 변환하는 '엔트로피 감소' 과정에 있습니다. 기술이 발전함에 따라, 이 과정에서 인간의 직접적인 개입은 줄어들고 기계가 점차 컨텍스트를 해석하고 구성하는 주체로 진화할 것입니다.

하지만 이 여정에는 아직 해결해야 할 과제들이 남아있습니다.

비효율적인 컨텍스트 수집: 여전히 많은 시스템이 사용자의 명시적 입력에 의존하고 있어, 더 자연스럽고 다중 모드적인 수집 방식이 필요합니다.
대규모 컨텍스트의 저장 및 관리: 평생에 걸쳐 축적되는 컨텍스트를 효율적으로 저장하고 검색할 수 있는 확장 가능한 아키텍처 설계가 시급합니다.
긴 컨텍스트 처리의 성능 병목 현상: 현재 Transformer 기반 모델은 컨텍스트 길이가 길어질수록 계산 복잡도가 급증하여 성능 저하를 겪는 한계가 있습니다.

AI 시스템을 설계하는 개발자와 기획자들은 이러한 도전 과제를 인식하고 실무에 컨텍스트 엔지니어링 관점을 적용해야 합니다. 단순히 프롬프트를 길고 상세하게 작성하는 것을 넘어, 시스템의 메모리 구조와 정보 흐름, 데이터의 생명 주기를 체계적으로 설계하는 아키텍처 관점이 필요합니다.

칼 마르크스는 "인간의 본질은 사회적 관계의 총합"이라고 말했습니다. AI 시대에 이 말은 새로운 의미를 갖습니다. 미래에는 우리의 대화, 결정, 상호작용의 흔적이 담긴 '디지털 컨텍스트' 자체가 한 개인의 정체성을 정의하는 핵심 요소가 될 수 있습니다. 컨텍스트 엔지니어링은 단순히 더 똑똑한 AI를 만드는 기술을 넘어, 인간의 디지털 존재(Digital Presence)를 형성하고 확장하는 철학적 과제가 될 것입니다.

저작자표시 비영리 변경금지 (새창열림)

'개발 > LLM' 카테고리의 다른 글

[AI][Agent] LLM의 AI 에이전트 평가 핵심 항목 분석 (1)	2025.11.14
[AI][백서] 구글이 정의하는 미래, AI 에이전트 아키텍처: 'Introduction to Agents' (0)	2025.11.13
[AI][워킹페이퍼] Canaries in the Coal Mine? Six Facts about the Recent Employment Effects of Artificial Intelligence: AI가 신입사원 일자리를 정말 위협할까? (0)	2025.11.08
[AI][RAG] RAG-Anything 분석: 오픈소스 RAG 프레임워크의 진화와 lightrag 연계 활용법 (0)	2025.11.07
[AI][Agent] CrewAI vs LangGraph: 협업인가, 상태인가? 당신의 멀티에이전트 프로젝트에 맞는 프레임워크 선택 가이드 (0)	2025.11.05