R-SWA 架构解读:百度 Unlimited OCR 如何实现恒定 KV 长程解析
2026-06-23 17:00:00
R-SWA 技术架构
问题
标准 OCR decoder:KV cache 线性增长 → 长文档 OOM + 降 TPS
R-SWA 机制
Reference tokens(视觉,静态)→ 全局 attention
Generated tokens → 宽度 n=128 滑动窗口
KV cache 大小 ≈ O(m + n) 常数级
编码器
- DeepEncoder:1024×1024 页 → 256 visual tokens(16× 压缩)
- 视觉 token 一次编码、全程不变
模型规格
- 3B 总参 / 0.5B 激活(MoE)
- 32K 标准最大长度内 数十页 one-shot
性能
| 指标 | 结果 |
|---|---|
| 6K tokens TPS | +35% vs baseline |
| 40+ 页 | edit distance <0.11 |
| 通用性 | OCR、ASR、翻译 |
部署
# SGLang 示例
--model_dir baidu/Unlimited-OCR
与 DeepSeek OCR
- 基线改进 而非竞品对标
- OmniDocBench +6.22pp
RAG 架构师
长 PDF 合同 可 单次 forward 结构化——降低 分块+合并 pipeline 复杂度。