R-SWA 架构解读：百度 Unlimited OCR 如何实现恒定 KV 长程解析

2026-06-23 17:00:00

R-SWA 技术架构

标准 OCR decoder：KV cache 线性增长 → 长文档 OOM + 降 TPS

Reference tokens（视觉，静态）→ 全局 attention
Generated tokens → 宽度 n=128 滑动窗口
KV cache 大小 ≈ O(m + n) 常数级

# SGLang 示例
--model_dir baidu/Unlimited-OCR

长 PDF 合同 可 单次 forward 结构化——降低 分块+合并 pipeline 复杂度。