百度开源 Unlimited OCR:长程文档解析 SOTA,GitHub 破千 Star

2026-06-23 16:00:00

6 月 23 日百度 Unlimited OCR 论文 arXiv:2606.23050 发布,GitHub 1000+ Star

核心创新

Reference Sliding Window Attention(R-SWA)

  • 解码器 恒定 KV cache——长文档 不降速
  • 一次 forward 解析 数十页(32K 长度内)
  • 基于 DeepSeek OCR 编码器 + MoE 解码器

benchmark

基准 Unlimited OCR DeepSeek OCR
OmniDocBench v1.5 93.23% 87.01%
OmniDocBench v1.6 93.92%(SOTA)
40+ 页长文档 edit distance <0.11 性能衰减

规格

  • 总参数 3B,激活 0.5B
  • MIT License
  • Hugging Face + ModelScope 权重
  • 支持 Transformers / SGLang

团队背景

  • 署名神秘 「YY」 任 technical director——社区猜测 DeepSeek OCR 背景
  • 6/18 首发,6/23 论文 + ModelScope

应用

OCR、ASR、翻译等 长程 reference-based 任务

意义

文档 AI逐页one-shot 长程——企业 合同/财报/RAG 新选项。