DeepSeek-OCR 2重磅发布:视觉因果流技术让AI像人一样“读懂”复杂文档
就在昨天,DeepSeek团队发布了新一代光学字符识别模型DeepSeek-OCR 2,这不仅仅是一次版本迭代,更是一次对传统视觉编码方式的彻底重构。
该模型采用创新的DeepEncoder V2架构,让AI首次能够根据图像含义动态重排视觉信息,而非传统的机械式光栅扫描。
01 打破光栅扫描局限,引入视觉因果流
传统OCR模型处理图像时,就像一台死板的复印机,只能从左上角到右下角机械扫描。这种“光栅扫描”方式在面对表格、公式、多栏排版或螺旋文字时,往往会把内容读得支离破碎。
DeepSeek-OCR 2的核心创新在于引入了“视觉因果流”概念。与人类阅读方式类似,我们的视线是由语义驱动的“因果流”,而不是由像素位置决定的。
新模型通过DeepEncoder V2架构,让AI学会了这种“因果流”阅读方式。它会根据图像内容的语义逻辑,自动调整阅读顺序,把原本散乱的视觉片段重新组织成符合人类理解的序列。
02 双流注意力机制,重构视觉编码逻辑
DeepSeek-OCR 2弃用了传统的CLIP视觉编码器,转而采用轻量级语言模型作为视觉编码器,这一转变颇具革命性。
模型引入了独特的双流注意力机制。视觉标记之间采用双向注意力,保留全局建模能力;而新引入的“因果流查询”则使用因果注意力,每个查询只能关注其之前的查询及所有视觉标记。
这种设计实际上构建了两级级联的1D因果推理结构:编码器负责“看懂并排序”,解码器负责“理解并生成”。这不仅更符合人类视觉习惯,也有效解决了2D图像结构与1D语言建模之间的长期矛盾。
03 性能大幅提升,计算成本反而降低
在权威的OmniDocBench v1.5基准测试中,DeepSeek-OCR 2取得了91.09%的综合得分,较前代提升3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085显著降至0.057,错误率下降超过30%。
更令人印象深刻的是,模型在提升性能的同时,大幅降低了计算成本。其视觉Token数量被严格控制在256到1120之间,与Google的Gemini-3 Pro处于同一水平,远低于部分竞品动辄6000以上的Token消耗。
在实际生产环境中,DeepSeek-OCR 2的表现同样亮眼。在线用户日志图像的重复率从6.25%降至4.17%,PDF预训练数据处理的重复率从3.69%降至2.88%。
04 三位核心作者的技术背景
这篇论文的三位作者魏浩然、孙耀峰和李宇琨在AI领域均有深厚积累。魏浩然曾就职于阶跃星辰,主导开发了GOT-OCR2.0系统;孙耀峰本科就读于北京大学,现于幻方AI从事大语言模型研究;李宇琨是谷歌学术论文近万引的研究员,持续参与了包括DeepSeek V2/V3在内的多款模型研发。
05 应用前景广阔,涉及多行业变革
从应用层面看,DeepSeek-OCR 2将为多个行业带来效率革命。在金融领域,它能轻松识别复杂的票据、合同和报表;在医疗行业,它可以处理手写病历、处方和医学影像报告;在政务服务中,它能让老旧档案、多格式表单的数字化变得更快、更准。
此次DeepSeek同步开源了模型权重、代码和技术报告,让全球开发者都能基于这一创新架构进行二次创新。这种开放态度,不仅加速了技术落地,也推动了整个视觉识别领域的进步。
DeepSeek-OCR 2的发布标志着AI视觉理解正式迈入新的时代。它不仅让OCR更聪明、更高效,更重要的是为未来更通用、更强大的AI系统点亮了新的方向。
这项技术验证了使用语言模型架构作为视觉编码器的潜力,为构建统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内处理图像、音频和文本等多种模态









