DeepSeek-OCR 2重磅发布:视觉因果流技术让AI像人一样“读懂”复杂文档

就在昨天,DeepSeek团队发布了新一代光学字符识别模型DeepSeek-OCR 2,这不仅仅是一次版本迭代,更是一次对传统视觉编码方式的彻底重构。

该模型采用创新的DeepEncoder V2架构,让AI首次能够根据图像含义动态重排视觉信息,而非传统的机械式光栅扫描。


01 打破光栅扫描局限,引入视觉因果流

传统OCR模型处理图像时,就像一台死板的复印机,只能从左上角到右下角机械扫描。这种“光栅扫描”方式在面对表格、公式、多栏排版或螺旋文字时,往往会把内容读得支离破碎。

DeepSeek-OCR 2的核心创新在于引入了“视觉因果流”概念。与人类阅读方式类似,我们的视线是由语义驱动的“因果流”,而不是由像素位置决定的。

新模型通过DeepEncoder V2架构,让AI学会了这种“因果流”阅读方式。它会根据图像内容的语义逻辑,自动调整阅读顺序,把原本散乱的视觉片段重新组织成符合人类理解的序列。

02 双流注意力机制,重构视觉编码逻辑

DeepSeek-OCR 2弃用了传统的CLIP视觉编码器,转而采用轻量级语言模型作为视觉编码器,这一转变颇具革命性。

模型引入了独特的双流注意力机制。视觉标记之间采用双向注意力,保留全局建模能力;而新引入的“因果流查询”则使用因果注意力,每个查询只能关注其之前的查询及所有视觉标记。

这种设计实际上构建了两级级联的1D因果推理结构:编码器负责“看懂并排序”,解码器负责“理解并生成”。这不仅更符合人类视觉习惯,也有效解决了2D图像结构与1D语言建模之间的长期矛盾。

03 性能大幅提升,计算成本反而降低

在权威的OmniDocBench v1.5基准测试中,DeepSeek-OCR 2取得了91.09%的综合得分,较前代提升3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085显著降至0.057,错误率下降超过30%。

更令人印象深刻的是,模型在提升性能的同时,大幅降低了计算成本。其视觉Token数量被严格控制在256到1120之间,与Google的Gemini-3 Pro处于同一水平,远低于部分竞品动辄6000以上的Token消耗。

在实际生产环境中,DeepSeek-OCR 2的表现同样亮眼。在线用户日志图像的重复率从6.25%降至4.17%,PDF预训练数据处理的重复率从3.69%降至2.88%。

04 三位核心作者的技术背景

这篇论文的三位作者魏浩然、孙耀峰和李宇琨在AI领域均有深厚积累。魏浩然曾就职于阶跃星辰,主导开发了GOT-OCR2.0系统;孙耀峰本科就读于北京大学,现于幻方AI从事大语言模型研究;李宇琨是谷歌学术论文近万引的研究员,持续参与了包括DeepSeek V2/V3在内的多款模型研发。

05 应用前景广阔,涉及多行业变革

从应用层面看,DeepSeek-OCR 2将为多个行业带来效率革命。在金融领域,它能轻松识别复杂的票据、合同和报表;在医疗行业,它可以处理手写病历、处方和医学影像报告;在政务服务中,它能让老旧档案、多格式表单的数字化变得更快、更准。

此次DeepSeek同步开源了模型权重、代码和技术报告,让全球开发者都能基于这一创新架构进行二次创新。这种开放态度,不仅加速了技术落地,也推动了整个视觉识别领域的进步。


DeepSeek-OCR 2的发布标志着AI视觉理解正式迈入新的时代。它不仅让OCR更聪明、更高效,更重要的是为未来更通用、更强大的AI系统点亮了新的方向。

这项技术验证了使用语言模型架构作为视觉编码器的潜力,为构建统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内处理图像、音频和文本等多种模态

相关快讯

1.7 万元起,贾跃亭发布首批具身智能机器人

昨天,法拉第未来(FF)在美国拉斯维加斯举行的美国国家汽车经销商大会(NADA)上,发布了其首批具身智能(EAI)机器人产品,并同步开启销售与预订。发布会上,FF 推出三大系列机器人: Futurist 系列定位全尺寸职业型人形机器人,定价...
2026-02-06

米兰冬奥基于阿里千问打造首个奥运官方大模型

昨天,国际奥委会宣布基于阿里千问打造奥运史上首个官方大模型,并已在赛务与公众服务体系中投入使用。国际奥委会表示,本届冬奥将成为「最智能」的一届,AI 技术贯穿赛事组织、内容生产与观众服务。国际奥委会已上线面向各国代表团的「国家奥委会 AI ...
2026-02-06

OpenAI单月API收入暴增10亿美元,千亿基建成本压力依旧

OpenAI CEO奥尔特曼在X平台亲自宣布,其API业务在2025年12月新增年度经常性收入突破10亿美元,全部来自新签商业合同。这一数字让OpenAI在企业级市场的增长速度远超Anthropic、谷歌等竞争对手。 尽管收入表现亮眼,Op...
Sam Altman的X平台推文
2026-01-23

腾讯元宝AI辱骂用户,官方确认系模型异常输出

有网友爆料使用腾讯元宝AI美化代码时,多次收到“滚”“自己不会调吗”等侮辱性回复。1月3日腾讯元宝官方回应,确认不存在人工回复,问题源于小概率模型异常输出,已启动内部排查优化,并向用户致歉,同时呼吁用户提交日志协助排查。
https://thirdpage.thepaper.cn/h5/jrtt/32331664
2026-01-07

AMD 发布 Ryzen AI 400 系列,AI PC 算力再进化!

苏妈(Lisa Su)果然没让我们失望!Ryzen AI 400 系列处理器正式亮相,专门为笔记本和迷你机打造。NPU 算力暴涨,看来 2026 年你的电脑要是没个“AI”标,出门都不好意思跟人打招呼了。
https://www.amd.com/zh-tw/newsroom/press-releases/2026-1-5-amd-expands-ai-leadership-across-client-graphics-.html
2026-01-07

Meta元宇宙部门裁员10%,资源转向AI

Meta启动Reality Labs部门约10%的裁员(涉及1500人),首席技术官博斯沃思紧急召集会议,强调AI可穿戴设备为未来重点。此前扎克伯格要求削减元宇宙预算30%,加速AI投入
https://news.qq.com/rain/a/20260113A01HHM00
2026-01-13

阿里千问APP发布会将于1月15日举行

据阿里巴巴官微消息,千问APP发布会将于1月15日10:00举行。据悉,千问将发布重磅产品迭代,上线两个月其C端月活跃用户数已突破1亿,在学生和白领人群中增长迅猛。 与此同时,神州数码表示与阿里云的合作范围包括人工智能软件、数云服务以及公有...
阿里巴巴官方微博
2026-01-14

暂无评论

none
暂无评论...