DeepSeek-OCR 2重磅发布:视觉因果流技术让AI像人一样“读懂”复杂文档

就在昨天,DeepSeek团队发布了新一代光学字符识别模型DeepSeek-OCR 2,这不仅仅是一次版本迭代,更是一次对传统视觉编码方式的彻底重构。

该模型采用创新的DeepEncoder V2架构,让AI首次能够根据图像含义动态重排视觉信息,而非传统的机械式光栅扫描。


01 打破光栅扫描局限,引入视觉因果流

传统OCR模型处理图像时,就像一台死板的复印机,只能从左上角到右下角机械扫描。这种“光栅扫描”方式在面对表格、公式、多栏排版或螺旋文字时,往往会把内容读得支离破碎。

DeepSeek-OCR 2的核心创新在于引入了“视觉因果流”概念。与人类阅读方式类似,我们的视线是由语义驱动的“因果流”,而不是由像素位置决定的。

新模型通过DeepEncoder V2架构,让AI学会了这种“因果流”阅读方式。它会根据图像内容的语义逻辑,自动调整阅读顺序,把原本散乱的视觉片段重新组织成符合人类理解的序列。

02 双流注意力机制,重构视觉编码逻辑

DeepSeek-OCR 2弃用了传统的CLIP视觉编码器,转而采用轻量级语言模型作为视觉编码器,这一转变颇具革命性。

模型引入了独特的双流注意力机制。视觉标记之间采用双向注意力,保留全局建模能力;而新引入的“因果流查询”则使用因果注意力,每个查询只能关注其之前的查询及所有视觉标记。

这种设计实际上构建了两级级联的1D因果推理结构:编码器负责“看懂并排序”,解码器负责“理解并生成”。这不仅更符合人类视觉习惯,也有效解决了2D图像结构与1D语言建模之间的长期矛盾。

03 性能大幅提升,计算成本反而降低

在权威的OmniDocBench v1.5基准测试中,DeepSeek-OCR 2取得了91.09%的综合得分,较前代提升3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085显著降至0.057,错误率下降超过30%。

更令人印象深刻的是,模型在提升性能的同时,大幅降低了计算成本。其视觉Token数量被严格控制在256到1120之间,与Google的Gemini-3 Pro处于同一水平,远低于部分竞品动辄6000以上的Token消耗。

在实际生产环境中,DeepSeek-OCR 2的表现同样亮眼。在线用户日志图像的重复率从6.25%降至4.17%,PDF预训练数据处理的重复率从3.69%降至2.88%。

04 三位核心作者的技术背景

这篇论文的三位作者魏浩然、孙耀峰和李宇琨在AI领域均有深厚积累。魏浩然曾就职于阶跃星辰,主导开发了GOT-OCR2.0系统;孙耀峰本科就读于北京大学,现于幻方AI从事大语言模型研究;李宇琨是谷歌学术论文近万引的研究员,持续参与了包括DeepSeek V2/V3在内的多款模型研发。

05 应用前景广阔,涉及多行业变革

从应用层面看,DeepSeek-OCR 2将为多个行业带来效率革命。在金融领域,它能轻松识别复杂的票据、合同和报表;在医疗行业,它可以处理手写病历、处方和医学影像报告;在政务服务中,它能让老旧档案、多格式表单的数字化变得更快、更准。

此次DeepSeek同步开源了模型权重、代码和技术报告,让全球开发者都能基于这一创新架构进行二次创新。这种开放态度,不仅加速了技术落地,也推动了整个视觉识别领域的进步。


DeepSeek-OCR 2的发布标志着AI视觉理解正式迈入新的时代。它不仅让OCR更聪明、更高效,更重要的是为未来更通用、更强大的AI系统点亮了新的方向。

这项技术验证了使用语言模型架构作为视觉编码器的潜力,为构建统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内处理图像、音频和文本等多种模态

相关快讯

巧用5小时滚动窗口,Codex与Claude Code额度变相翻倍技巧

Codex和Claude Code的额度限制基于5小时滚动窗口,且窗口结束后不会自动重置,需发消息才触发新窗口。利用此机制,可在工作前3小时通过自动化发消息提前触发窗口,使核心工作时间内经历一次额度重置,变相获得双倍额度。注意5小时窗口上还...
X
2026-06-03
豆包即将上线付费订阅,最高5088元/年,基础功能仍免费

豆包即将上线付费订阅,最高5088元/年,基础功能仍免费

字节旗下豆包计划于6月下旬落地商业化付费体系,App Store已现三档订阅价格,最高专业版年费5088元。官方回应基础聊天、问答等功能永久免费,付费主要针对PPT生成、数据分析等高阶算力与深度生成场景。巨额算力成本下,国产AI免费时代正迎...
mp.weixin.qq.com
2026-06-03
警惕!Codex更新触发二次验证,接码注册账号或直接报废

警惕!Codex更新触发二次验证,接码注册账号或直接报废

多位用户反馈,使用接码平台注册的 Codex 账号在更新并重新登录时,系统会要求二次手机号验证。由于无法再次获取原接码号码,账号将直接报废。目前尚不确定这是偶发Bug还是官方风控升级,建议接码注册用户暂勿升级或退出登录。
X
2026-05-31

暂无评论

none
暂无评论...