DeepSeek-OCR 2重磅发布:视觉因果流技术让AI像人一样“读懂”复杂文档

就在昨天,DeepSeek团队发布了新一代光学字符识别模型DeepSeek-OCR 2,这不仅仅是一次版本迭代,更是一次对传统视觉编码方式的彻底重构。

该模型采用创新的DeepEncoder V2架构,AI首次能够根据图像含义动态重排视觉信息,而非传统的机械式光栅扫描。


01 打破光栅扫描局限,引入视觉因果流

传统OCR模型处理图像时,就像一台死板的复印机,只能从左上角到右下角机械扫描。这种“光栅扫描”方式在面对表格、公式、多栏排版或螺旋文字时,往往会把内容读得支离破碎。

DeepSeek-OCR 2的核心创新在于引入了“视觉因果流”概念。与人类阅读方式类似,我们的视线是由语义驱动的“因果流”,而不是由像素位置决定的。

新模型通过DeepEncoder V2架构,让AI学会了这种“因果流”阅读方式。它会根据图像内容的语义逻辑,自动调整阅读顺序,把原本散乱的视觉片段重新组织成符合人类理解的序列。

02 双流注意力机制,重构视觉编码逻辑

DeepSeek-OCR 2弃用了传统的CLIP视觉编码器,转而采用轻量级语言模型作为视觉编码器,这一转变颇具革命性。

模型引入了独特的双流注意力机制。视觉标记之间采用双向注意力,保留全局建模能力;而新引入的“因果流查询”则使用因果注意力,每个查询只能关注其之前的查询及所有视觉标记。

这种设计实际上构建了两级级联的1D因果推理结构:编码器负责“看懂并排序”,解码器负责“理解并生成”。这不仅更符合人类视觉习惯,也有效解决了2D图像结构与1D语言建模之间的长期矛盾。

03 性能大幅提升,计算成本反而降低

在权威的OmniDocBench v1.5基准测试中,DeepSeek-OCR 2取得了91.09%的综合得分,较前代提升3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085显著降至0.057,错误率下降超过30%。

更令人印象深刻的是,模型在提升性能的同时,大幅降低了计算成本。其视觉Token数量被严格控制在256到1120之间,与Google的Gemini-3 Pro处于同一水平,远低于部分竞品动辄6000以上的Token消耗。

在实际生产环境中,DeepSeek-OCR 2的表现同样亮眼。在线用户日志图像的重复率从6.25%降至4.17%,PDF预训练数据处理的重复率从3.69%降至2.88%。

04 三位核心作者的技术背景

这篇论文的三位作者魏浩然、孙耀峰和李宇琨在AI领域均有深厚积累。魏浩然曾就职于阶跃星辰,主导开发了GOT-OCR2.0系统;孙耀峰本科就读于北京大学,现于幻方AI从事大语言模型研究;李宇琨是谷歌学术论文近万引的研究员,持续参与了包括DeepSeek V2/V3在内的多款模型研发。

05 应用前景广阔,涉及多行业变革

从应用层面看,DeepSeek-OCR 2将为多个行业带来效率革命。在金融领域,它能轻松识别复杂的票据、合同和报表;在医疗行业,它可以处理手写病历、处方和医学影像报告;在政务服务中,它能让老旧档案、多格式表单的数字化变得更快、更准。

此次DeepSeek同步开源了模型权重、代码和技术报告,让全球开发者都能基于这一创新架构进行二次创新。这种开放态度,不仅加速了技术落地,也推动了整个视觉识别领域的进步。


DeepSeek-OCR 2的发布标志着AI视觉理解正式迈入新的时代。它不仅让OCR更聪明、更高效,更重要的是为未来更通用、更强大的AI系统点亮了新的方向。

这项技术验证了使用语言模型架构作为视觉编码器的潜力,为构建统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内处理图像、音频和文本等多种模态

相关快讯

马斯克旗下聊天机器人Grok因生成色情内容被调查

马斯克旗下人工智能聊天机器人“格罗克”被指生成色情内容,引发广泛谴责。多国政府已启动相关调查,受害者包括成年女性和未成年人。这一事件去年年末以来持续发酵,凸显了人工智能技术的伦理风险。 随着大模型迅猛发展,利用AI生成深度伪造内容的案例时有...
X平台官方安全公告
2026-01-14

Anthropic推出完全由Claude编写代码的智能体

Anthropic推出的新型AI智能体Cowork,其全部代码均由Claude模型自主编写完成,开发周期仅约10天,展示了AI在软件工程领域的强大自动化能力
Anthropic技术博客官方发布
2026-01-15

OpenAI寻求500亿美元融资,估值冲高至8300亿美元

OpenAI CEO山姆·奥特曼近期秘密前往中东,与当地主要投资者会面,为其新一轮至少500亿美元的融资计划募集资金。知情人士透露,OpenAI正寻求以约7500亿至8300亿美元的估值进行本轮融资,目前谈判尚处于早期阶段。 若融资成功,这...
财联社
2026-01-23

八部门印发“AI+制造”实施意见:2027年打造千个工业智能体

工信部等八部门联合印发《“人工智能+制造”专项行动实施意见》,明确到2027年推动AI核心技术安全可靠供给,并在制造业深度应用3-5个通用大模型,打造1000个高水平工业智能体。 政策重点支持人形机器人、脑机接口等新兴产业,预计将打开千亿级...
https://www.miit.gov.cn/zwgk/zcwj/wjfb/tz/art/2026/art_01010414608a4226b30687773bb21bdf.html
2026-01-11

王小川隔空回应张文宏:医疗AI不应因担心医生成长而受限

百川智能创始人王小川隔空回应张文宏医生关于“拒绝将AI引入医院电子病历系统”的观点,表示“如果你担心阻碍医生成长去限制使用AI,可能就限制了最有利于病人的医疗措施”。王小川称,患者利益优先是根本原则。 与此同时,王小川发布增强医疗大模型M3...
第一财经
2026-01-23

中国人形机器人“众擎T800”海外走红,展示高难度武术

一段名为“众擎T800机器人硬核演示”的视频在海外社交媒体爆火。视频中,该人形机器人流畅地完成了回旋五连踢、360度旋空转身等高难度武术动作,其出色的运动控制和稳定性引发了全球科技爱好者的广泛关注,成为中国机器人技术走向世界舞台的生动案例
2026-01-20

阿里千问发布最强推理模型,性能媲美GPT-5.2

1月27日,阿里巴巴正式发布千问最强推理模型Qwen3-Max-Thinking,总参数量超万亿,预训练数据量达36T Tokens。在涵盖事实知识、复杂推理、指令遵循等19项公认基准测试中,整体性能可媲美GPT-5.2和Gemini 3 ...
阿里云官方发布
2026-01-28

暂无评论

none
暂无评论...