R-SWA 架构解读:百度 Unlimited OCR 如何实现恒定 KV 长程解析

2026-06-23 17:00:00

R-SWA 技术架构

问题

标准 OCR decoder:KV cache 线性增长 → 长文档 OOM + 降 TPS

R-SWA 机制

Reference tokens(视觉,静态)→ 全局 attention
Generated tokens → 宽度 n=128 滑动窗口
KV cache 大小 ≈ O(m + n) 常数级

编码器

  • DeepEncoder:1024×1024 页 → 256 visual tokens(16× 压缩)
  • 视觉 token 一次编码、全程不变

模型规格

  • 3B 总参 / 0.5B 激活(MoE)
  • 32K 标准最大长度内 数十页 one-shot

性能

指标 结果
6K tokens TPS +35% vs baseline
40+ 页 edit distance <0.11
通用性 OCR、ASR、翻译

部署

# SGLang 示例
--model_dir baidu/Unlimited-OCR

与 DeepSeek OCR

  • 基线改进 而非竞品对标
  • OmniDocBench +6.22pp

RAG 架构师

长 PDF 合同单次 forward 结构化——降低 分块+合并 pipeline 复杂度。