본문 바로가기
개발/LLM

[논문 리뷰] DeepSeek-OCR: Contexts Optical Compression: 10배 더 작게

by ▶ Carpe diem ◀ 2025. 10. 29.

긴 문서나 여러 페이지의 PDF를 LLM에 넣으려다 토큰 비용과 속도에 막힌 경험, 한 번쯤 있으실 거예요? 이 글은 그런 병목을 근본적으로 줄이는 시도로 등장한 DeepSeek-OCR의 아이디어와 성능, 그리고 10배 더 작게 압축하는 원리를 논문 관점에서 정리합니다.

 

DeepSeek-OCR 논문을 설명하는 그림

 

 

핵심은 텍스트를 곧장 토큰화하지 않고, 페이지를 이미지로 ‘광학적 2D 매핑’해 컴팩트한 비전 토큰으로 바꾼 뒤 해석하는 것입니다. 저자들은 텍스트 토큰 수가 비전 토큰의 10배 이내일 때(압축률 < 10×) OCR 디코딩 정확도 97%를 보고했고, 20×까지 올리면 약 60%로 떨어진다고 밝혔습니다. 즉, 토큰 예산과 추론 메모리를 동시에 줄이면서도 실용적 정확도를 유지하는 압축–정확도 트레이드오프가 정량화된 셈입니다. 이러한 성능 수치와 접근법은 장문 맥락을 다루는 모델에 특히 유의미하며, DeepSeek-OCR의 연구 목적을 이해하는 데 출발점이 됩니다.

DeepSeek-OCR 핵심 정보/배경 설명

모델은 두 단계로 구성되며, 시각 인코더 DeepEncoder가 문서 이미지를 비전 토큰으로 압축하고, 3B-파라미터 Mixture-of-Experts 디코더(DeepSeek‑3B‑MoE‑A570M)가 이를 텍스트·레이아웃으로 복원합니다.

(1) 인코더: DeepEncoder

  • 고해상도 입력(예: 문서 페이지 이미지)을 처리하면서도 메모리 활성화를 낮게 유지하고 높은 압축률을 달성하도록 설계됐습니다. 
  • 구조적으로는 다음과 같은 흐름을 갖습니다:
    • 먼저 창(Window) 주의(window-attention)가 중심이 되는 시각적 인지(feature extraction) 구성 요소 (예컨대 SAM-base 아키텍처 약 80M 파라미터)
    • 그 다음에 전역(global) 주의가 가능한 시각 지식(feature) 추출 구성 요소 (예컨대 CLIP-large 아키텍처 약 300M 파라미터)
    • 두 모듈 사이에 16× 합성곱 압축기(convolutional compressor) 가 삽입되어, 토큰 수(token count)를 대폭 줄입니다. 즉, 예컨대 4096개의 패치 토큰(patch tokens)이 이 압축기를 지나 256개의 토큰으로 줄어드는 식입니다.
  • 이러한 설계 덕분에 고해상도 이미지를 입력해도 글로벌 어텐션 전 단계에서 토큰 수가 줄어들기 때문에 메모리 및 계산 부담이 크게 줄어듭니다.

(2) 디코더: DeepSeek3B-MoE-A570M

  • 디코더는 MoE(Mixture-of-Experts) 구조를 채택하고 있으며, 총 3 B(=30억) 파라미터 규모의 모델이지만 추론 시 활성화되는 파라미터가 약 570 M(=5억7천만)에 불과하다는 특징이 있습니다.
  • 구체적으로는 64개의 전문가(experts) 중에서 6개 라우팅 전문가(routed experts) + 2개 공유 전문가(shared experts)가 활성화되는 방식이며, 이로써 실제 연산 부담을 비교적 낮게 유지하면서도 표현력은 대형 모델 수준을 가지는 구조입니다.
  • 디코더는 인코더가 생성한 압축된 비전 토큰을 받아서, 이를 다시 텍스트로 재구성하거나 마크다운/JSON 등의 구조화된 출력으로 변환하는 역할을 합니다. 실제 OCR(문서 → 텍스트) 뿐 아니라 레이아웃, 표(table), 다국어(multilingual) 문서 등 복잡한 문서 유형을 다루도록 설계되어 있습니다.

 

 

혁신적으로 평가되는 이유

이 모델이 AI 논문 독자 관점에서 혁신으로 평가되는 이유는 다음과 같습니다:

  • 토큰 수(token count)를 획기적으로 줄이는 구조적 변화: 텍스트 기반 토큰화는 언어 처리에 적합했지만 그 자체로 정보 밀도(information density)가 낮고, 긴 문맥을 다룰 때 토큰 수가 급증합니다. DeepSeek-OCR은 텍스트를 이미지로 렌더링(rendering)하고, 이미지 내 정보를 잠재 공간(latent space) 형태로 압축하여 비전 토큰으로 표현함으로써, 동일 텍스트 정보를 처리함에도 토큰 수를 크게 줄일 수 있다는 가능성을 제시합니다.
  • 시각 양식(visual modality)을 정보 압축 매체로 활용: 일반적으로 이미지는 텍스트보다 파일 크기가 클 수 있지만, 여기서 중요한 것은 표현 효율성(representation efficiency)입니다. 즉, 이미지 내의 픽셀/패치 정보는 텍스트 토큰이 갖는 제약(사전 정의된 단어 사전, 토큰화 단위 등)보다 훨씬 더 풍부하고 밀집된 표현이 가능하다는 것입니다. DeepSeek-OCR 논문에서는 이를 통해 “텍스트 토큰 수가 비전 토큰 수의 10배 이내일 때(압축률 < 10×), 정확도는 약 97%”라는 실험 결과가 나왔습니다.

  • 장문 맥락(long-context) 문제에 대한 새로운 해결 방향: LLM이 문서나 대화 맥락이 길어질수록 부담이 커지는 문제(메모리, 계산, 토큰 수 등)를 가지고 있습니다. 이 모델은 문서 전체를 이미지로 렌더링하고 이를 압축해 비전 토큰으로 모델에 전달하는 방식으로, 실질적으로 맥락 윈도우(context window)를 확대할 수 있는 잠재력을 보여줍니다. 특히 논문에서는 “최근 정보는 높은 해상도로 유지하고, 오래된 정보는 점진적으로 해상도를 낮추어 압축률을 높이는 방식(기억의 희미화(memory-decay) 모방)”을 제안하기도 했습니다.
  • 실용성: 단순한 개념 연구를 넘어, 공개된 코드·모델과 벤치마크(예: OmniDocBench)에서 기존 OCR/문서처리 모델 대비 적은 토큰으로 유사하거나 더 나은 성능을 보고하고 있으며, 대량 문서 처리(data generation)용 파이프라인으로 활용 가능하다는 언급도 있습니다.

따라서, 이 모델은 단지 OCR 기술 진보가 아니라 언어/문서 처리 방식 자체(토큰화 방식 → 시각적 압축 방식)를 바꿔보려 한다는 점에서 의미가 있습니다.

실제 구현 및 작동 방법

재현을 원하신다면 먼저 PDF를 페이지 단위 이미지로 렌더링하고, 용도에 따라 Tiny(64), Small(100), Base(256), Large(400), 또는 대형 도면용 Gundam(타일링) 모드를 선택하세요.

 

GitHub - deepseek-ai/DeepSeek-OCR: Contexts Optical Compression

Contexts Optical Compression. Contribute to deepseek-ai/DeepSeek-OCR development by creating an account on GitHub.

github.com

 

일반 보고서·논문은 Base가 균형이 좋고, 표·미세 글자가 많으면 Large나 Gundam을 권장합니다. Transformers 예제처럼 base_size=1024, image_size=640 세팅으로 시작해 압축 테스트 옵션을 켜고, 프롬프트는 <|grounding|>Convert the document to markdown.처럼 구조 보존 출력을 노려보세요. vLLM 경로를 쓰면 A100‑40G에서 초당 약 2500 토큰 수준의 동시 처리가 보고돼 대량 변환에 유리합니다. 평가에는 Fox 압축 벤치마크와 OmniDocBench를 함께 사용하고, 토큰 예산 대비 정확도를 곡선으로 그려 최적 압축률(현업에선 대개 7–10× 구간)을 팀 기준으로 정하는 것이 좋습니다. 표·도형·수식이 많은 기술 문서라면 HTML·Markdown·캡션 등 구조화 출력을 저장해 후속 분석 파이프라인과 바로 연동하는 전략이 효과적입니다.