DeepSeek-OCR 2重磅发布：视觉因果流技术让AI像人一样“读懂”复杂文档

就在昨天，DeepSeek团队发布了新一代光学字符识别模型DeepSeek-OCR 2，这不仅仅是一次版本迭代，更是一次对传统视觉编码方式的彻底重构。

该模型采用创新的DeepEncoder V2架构，让AI首次能够根据图像含义动态重排视觉信息，而非传统的机械式光栅扫描。

01 打破光栅扫描局限，引入视觉因果流

传统OCR模型处理图像时，就像一台死板的复印机，只能从左上角到右下角机械扫描。这种“光栅扫描”方式在面对表格、公式、多栏排版或螺旋文字时，往往会把内容读得支离破碎。

DeepSeek-OCR 2的核心创新在于引入了“视觉因果流”概念。与人类阅读方式类似，我们的视线是由语义驱动的“因果流”，而不是由像素位置决定的。

新模型通过DeepEncoder V2架构，让AI学会了这种“因果流”阅读方式。它会根据图像内容的语义逻辑，自动调整阅读顺序，把原本散乱的视觉片段重新组织成符合人类理解的序列。

02 双流注意力机制，重构视觉编码逻辑

DeepSeek-OCR 2弃用了传统的CLIP视觉编码器，转而采用轻量级语言模型作为视觉编码器，这一转变颇具革命性。

模型引入了独特的双流注意力机制。视觉标记之间采用双向注意力，保留全局建模能力；而新引入的“因果流查询”则使用因果注意力，每个查询只能关注其之前的查询及所有视觉标记。

这种设计实际上构建了两级级联的1D因果推理结构：编码器负责“看懂并排序”，解码器负责“理解并生成”。这不仅更符合人类视觉习惯，也有效解决了2D图像结构与1D语言建模之间的长期矛盾。

03 性能大幅提升，计算成本反而降低

在权威的OmniDocBench v1.5基准测试中，DeepSeek-OCR 2取得了91.09%的综合得分，较前代提升3.73%。特别是在阅读顺序准确度方面，编辑距离从0.085显著降至0.057，错误率下降超过30%。

更令人印象深刻的是，模型在提升性能的同时，大幅降低了计算成本。其视觉Token数量被严格控制在256到1120之间，与Google的Gemini-3 Pro处于同一水平，远低于部分竞品动辄6000以上的Token消耗。

在实际生产环境中，DeepSeek-OCR 2的表现同样亮眼。在线用户日志图像的重复率从6.25%降至4.17%，PDF预训练数据处理的重复率从3.69%降至2.88%。

04 三位核心作者的技术背景

这篇论文的三位作者魏浩然、孙耀峰和李宇琨在AI领域均有深厚积累。魏浩然曾就职于阶跃星辰，主导开发了GOT-OCR2.0系统；孙耀峰本科就读于北京大学，现于幻方AI从事大语言模型研究；李宇琨是谷歌学术论文近万引的研究员，持续参与了包括DeepSeek V2/V3在内的多款模型研发。

05 应用前景广阔，涉及多行业变革

从应用层面看，DeepSeek-OCR 2将为多个行业带来效率革命。在金融领域，它能轻松识别复杂的票据、合同和报表；在医疗行业，它可以处理手写病历、处方和医学影像报告；在政务服务中，它能让老旧档案、多格式表单的数字化变得更快、更准。

此次DeepSeek同步开源了模型权重、代码和技术报告，让全球开发者都能基于这一创新架构进行二次创新。这种开放态度，不仅加速了技术落地，也推动了整个视觉识别领域的进步。

DeepSeek-OCR 2的发布标志着AI视觉理解正式迈入新的时代。它不仅让OCR更聪明、更高效，更重要的是为未来更通用、更强大的AI系统点亮了新的方向。

这项技术验证了使用语言模型架构作为视觉编码器的潜力，为构建统一的全模态编码器提供了一条有希望的路径。未来，单一编码器可能通过配置特定模态的可学习查询，在同一参数空间内处理图像、音频和文本等多种模态

返回快讯目录

图钉AI导航致力于优质、实用的网络站点资源收集与分享！本文地址https://www.tudingai.com/ainews/3608.html转载请注明

AI魔改视频扭曲历史？官方媒体发声警示

秦始皇开机甲战车、林黛玉拳打贾宝玉……一批“AI魔改”短视频以“创意解读”为名泛滥网络，被批扭曲青少年历史认知。官方媒体《半月谈》发文呼吁平台加强审核，杜绝低俗化篡改经典

2026-01-12

OpenAI 1亿美元收购医疗应用Torch，健康助手功能升级

OpenAI以股权对价1亿美元收购医疗健康应用Torch，整合其多源健康数据分析能力，助力ChatGPT推出个性化健康助手功能，可分析用户病历并给出建议

https://k.sina.com.cn/article_5953740931_162dee08306702k3kk.html

2026-01-13

八部门联合发文：运用AI构建名老中医经验方知识图谱

八部门联合印发方案，提出运用人工智能、大数据等技术构建名老中医经验方等特色方剂知识图谱，深度赋能中药新药研发。方案强调加强基础研究与关键技术攻关，完善评价体系，鼓励中成药改良与资源综合利用，旨在加速新药创新、缩短研发周期并降低成本。这是A...

国家中医药管理局官网

2026-02-06

阿里千问发布最强推理模型，性能媲美GPT-5.2

1月27日，阿里巴巴正式发布千问最强推理模型Qwen3-Max-Thinking，总参数量超万亿，预训练数据量达36T Tokens。在涵盖事实知识、复杂推理、指令遵循等19项公认基准测试中，整体性能可媲美GPT-5.2和Gemini 3 ...

阿里云官方发布

2026-01-28

特斯拉Optimus机器人或于三年内登陆火星

据《独立报》报道，埃隆·马斯克表示，特斯拉的Optimus人形机器人有望在2026年的火星任务中进行技术测试，为后续人类登陆做准备。他同时宣称，Optimus将在三年内超越世界上最好的人类外科医生，解决优秀外科医生短缺的问题

独立报

2026-01-20

数字人直播监管新规出台，市场监管总局联手网信办整治乱象

市场监管总局与网信办联合印发《直播电商监督管理办法》，将数字人主播等AIGC内容纳入监管，重点打击虚假宣传、仿冒名人等乱象，要求平台落实主体责任

工人日报《数字人直播，别让带货成“带祸”》

2026-01-13

DeepSeek-OCR 2重磅发布：视觉因果流技术让AI像人一样“读懂”复杂文档

01 打破光栅扫描局限，引入视觉因果流

02 双流注意力机制，重构视觉编码逻辑

03 性能大幅提升，计算成本反而降低

04 三位核心作者的技术背景

05 应用前景广阔，涉及多行业变革

相关快讯

AI魔改视频扭曲历史？官方媒体发声警示

OpenAI 1亿美元收购医疗应用Torch，健康助手功能升级

八部门联合发文：运用AI构建名老中医经验方知识图谱

阿里千问发布最强推理模型，性能媲美GPT-5.2

特斯拉Optimus机器人或于三年内登陆火星

数字人直播监管新规出台，市场监管总局联手网信办整治乱象

月之暗面发布Kimi K2.5：百个Agent并行协作，开启AI集群智能新时代

吴恩达提出新图灵测试：专为AGI时代设计

暂无评论

网址

Artificial Analysis

Claude 镜像站

即梦AI

站酷梦笔

网易见外工作台

Hugging Face

秘塔AI搜索

SWE-Bench Pro

Midjourney

Claude

最新快讯