DeepSeek-OCR 2重磅发布:视觉因果流技术让AI像人一样“读懂”复杂文档

就在昨天,DeepSeek团队发布了新一代光学字符识别模型DeepSeek-OCR 2,这不仅仅是一次版本迭代,更是一次对传统视觉编码方式的彻底重构。

该模型采用创新的DeepEncoder V2架构,让AI首次能够根据图像含义动态重排视觉信息,而非传统的机械式光栅扫描。


01 打破光栅扫描局限,引入视觉因果流

传统OCR模型处理图像时,就像一台死板的复印机,只能从左上角到右下角机械扫描。这种“光栅扫描”方式在面对表格、公式、多栏排版或螺旋文字时,往往会把内容读得支离破碎。

DeepSeek-OCR 2的核心创新在于引入了“视觉因果流”概念。与人类阅读方式类似,我们的视线是由语义驱动的“因果流”,而不是由像素位置决定的。

新模型通过DeepEncoder V2架构,让AI学会了这种“因果流”阅读方式。它会根据图像内容的语义逻辑,自动调整阅读顺序,把原本散乱的视觉片段重新组织成符合人类理解的序列。

02 双流注意力机制,重构视觉编码逻辑

DeepSeek-OCR 2弃用了传统的CLIP视觉编码器,转而采用轻量级语言模型作为视觉编码器,这一转变颇具革命性。

模型引入了独特的双流注意力机制。视觉标记之间采用双向注意力,保留全局建模能力;而新引入的“因果流查询”则使用因果注意力,每个查询只能关注其之前的查询及所有视觉标记。

这种设计实际上构建了两级级联的1D因果推理结构:编码器负责“看懂并排序”,解码器负责“理解并生成”。这不仅更符合人类视觉习惯,也有效解决了2D图像结构与1D语言建模之间的长期矛盾。

03 性能大幅提升,计算成本反而降低

在权威的OmniDocBench v1.5基准测试中,DeepSeek-OCR 2取得了91.09%的综合得分,较前代提升3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085显著降至0.057,错误率下降超过30%。

更令人印象深刻的是,模型在提升性能的同时,大幅降低了计算成本。其视觉Token数量被严格控制在256到1120之间,与Google的Gemini-3 Pro处于同一水平,远低于部分竞品动辄6000以上的Token消耗。

在实际生产环境中,DeepSeek-OCR 2的表现同样亮眼。在线用户日志图像的重复率从6.25%降至4.17%,PDF预训练数据处理的重复率从3.69%降至2.88%。

04 三位核心作者的技术背景

这篇论文的三位作者魏浩然、孙耀峰和李宇琨在AI领域均有深厚积累。魏浩然曾就职于阶跃星辰,主导开发了GOT-OCR2.0系统;孙耀峰本科就读于北京大学,现于幻方AI从事大语言模型研究;李宇琨是谷歌学术论文近万引的研究员,持续参与了包括DeepSeek V2/V3在内的多款模型研发。

05 应用前景广阔,涉及多行业变革

从应用层面看,DeepSeek-OCR 2将为多个行业带来效率革命。在金融领域,它能轻松识别复杂的票据、合同和报表;在医疗行业,它可以处理手写病历、处方和医学影像报告;在政务服务中,它能让老旧档案、多格式表单的数字化变得更快、更准。

此次DeepSeek同步开源了模型权重、代码和技术报告,让全球开发者都能基于这一创新架构进行二次创新。这种开放态度,不仅加速了技术落地,也推动了整个视觉识别领域的进步。


DeepSeek-OCR 2的发布标志着AI视觉理解正式迈入新的时代。它不仅让OCR更聪明、更高效,更重要的是为未来更通用、更强大的AI系统点亮了新的方向。

这项技术验证了使用语言模型架构作为视觉编码器的潜力,为构建统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内处理图像、音频和文本等多种模态

相关快讯

苹果谷歌达成AI合作,Gemini将植入苹果生态

这绝对是今天最重磅的消息!苹果和谷歌正式宣布达成AI合作协议,谷歌的Gemini大模型将深度集成到苹果生态中,为升级版Siri及其他Apple Intelligence功能提供核心技术支撑。 天风证券分析师郭明錤在X平台发文指出,苹果自研A...
《财富》杂志
2026-01-14

智谱GLM-4.7登顶全球开源榜

中国开源模型全球下载量占比达17.1%,首次反超美国15.8%,Vercel、Kilo Code等国际平台第一时间接入。
2026-01-06

米兰冬奥基于阿里千问打造首个奥运官方大模型

昨天,国际奥委会宣布基于阿里千问打造奥运史上首个官方大模型,并已在赛务与公众服务体系中投入使用。国际奥委会表示,本届冬奥将成为「最智能」的一届,AI 技术贯穿赛事组织、内容生产与观众服务。国际奥委会已上线面向各国代表团的「国家奥委会 AI ...
2026-02-06

国产之光DeepSeek发布“mHC”架构,硅谷被“吓”到了

咱们的DeepSeek(深度求索)又立功了!他们发布了最新的mHC(Manifold-Constrained Hyper-Connections)训练架构,并推出了带有更强“思考”能力的更新。最狠的是,DeepSeek再次证明了不需要天价算...
https://timesofindia.indiatimes.com/technology/tech-news/chinas-deepseek-that-wiped-billions-from-us-stock-market-in-january-2025-sends-new-years-message-to-american-companies/articleshow/126318862.cms
2026-01-07

AI假图搅局马杜罗捕获事件

AI深伪技术又作妖!美国突袭委内瑞拉后,网上流传的马杜罗“被捕”图片全是AI生成的(用Google Nano Banana Pro),百万浏览量散播假新闻。这提醒我们,AI时代媒体素养超重要!
https://www.france24.com/en/americas/20260106-ai-generated-images-contributed-disinformation-spreading-maduro-capture?referrer=grok.com
2026-01-07

魅族发布AI情感设备“魅族22 Next AI小方块”

4英寸独立AI设备搭载AIOS系统,支持情感记忆、多设备互联,可充当随身/车机助手,具备超100种情绪表情。官方未公布售价与上市时间,但预示消费级AI硬件向情感交互深化
https://news.mydrivers.com/1/1097/1097644.htm
2026-01-11

暂无评论

none
暂无评论...