百度近日发布并开源了3B参数规模的端到端OCR模型——Unlimited OCR,专为书籍、论文等长文档解析场景打造。该项目上线后迅速登顶GitHub与HuggingFace四项趋势榜,开源仅5天GitHub Star即破万。

技术上,Unlimited OCR推理时激活参数约570M,并首次引入Reference Sliding Window Attention(R-SWA)机制。该机制打破了传统“逐页解析+拼接”的限制,实现数十页文档的一次性连续解析;同时,它将解码阶段的KV Cache控制在恒定规模,使显存占用和计算成本不再随输出长度增长而暴涨。

在OmniDocBench v1.6基准测试中,该模型以93.92%的成绩刷新纪录。真实场景下,其推理速度较DeepSeek OCR提升约12.7%,在6000Tokens输出长度下速度优势扩大至35%,为海量文档数字化和大模型长程记忆管理提供了全新路径。