DeepSeek发布新一代文档识别模型OCR 2：引入“视觉因果流”推动复杂版式理解再升级

当前，文档识别技术在金融、法律、教育等领域的应用日益广泛，但传统视觉语言模型在处理复杂版式文档时仍存在明显短板。

深度求索此次推出的DeepSeek-OCR 2正是针对这一痛点的创新之举。

问题的根源在于现有技术与人类视觉认知的不匹配。

传统视觉语言模型采用固定的栅格处理方式，将图像从左上到右下按照空间顺序切分为若干视觉标记，逐一送入模型进行处理。

这种方法虽然实现相对简单，但忽视了文档内容本身的逻辑结构。

在处理学术论文、财务报表、复杂表格等版式多样的文档时，这种机械的空间顺序往往无法准确反映内容的语义关联，导致模型对文档结构的理解能力受限，最终影响识别的准确性和完整性。

为解决这一问题，深度求索研究团队提出了名为DeepEncoder V2的新型编码器结构，核心创新在于引入"视觉因果流"的概念。

该编码器采用类似语言模型的架构，用可学习的"因果流查询标记"替代了传统基于CLIP的视觉编码模块。

在具体实现上，编码器同时融合了双向注意力与因果注意力两种处理机制。

原始视觉信息通过双向注意力进行全局感知，确保模型能够获取完整的视觉上下文；而新增的查询标记则通过因果注意力逐步建立语义顺序，在编码阶段对视觉标记的处理顺序进行动态重排。

这一设计使得模型能够像人类阅读一样，根据文档的逻辑关系和语义内涵灵活调整信息处理的优先级。

在整体架构层面，DeepSeek-OCR 2保持了前代模型的编解码框架，但在关键环节进行了优化升级。

编码器首先将图像转换为视觉标记并进行压缩，随后由DeepEncoder V2进行语义建模和顺序重组，最后由基于混合专家架构的语言模型进行解码生成识别结果。

这种设计在不显著增加计算负担的前提下，将单页文档所需的视觉标记数量控制在256至1120之间，与前代模型及同类系统的资源开销保持在相近水平，体现了性能与效率的良好平衡。

为全面验证模型性能，研究团队在OmniDocBench v1.5基准上进行了系统评估。

该基准涵盖学术论文、杂志、报告等多种类型的中英文文档，重点考察文本识别、公式解析、表格结构还原以及阅读顺序等关键指标。

评估结果显示，DeepSeek-OCR 2相比前代模型实现了3.73%的性能提升，在复杂版式文档的处理上表现尤为突出。

这一成果表明，通过更贴近人类认知的算法设计，机器视觉理解能力可以得到显著增强。

从更广阔的视角看，DeepSeek-OCR 2的推出反映了当前人工智能技术发展的重要趋势。

越来越多的研究者认识到，单纯追求模型规模和计算量的增长已不是最优路径，而应该通过更深入的问题分析和更精妙的算法设计来实现性能突破。

这种以人类认知为参照、以实际应用需求为导向的技术创新方向，对整个行业具有重要的启示意义。

此次技术突破不仅体现了我国在人工智能应用领域的创新能力，更展现了科研人员对技术本质的深刻思考。

从模仿人类处理方式到真正理解认知逻辑，文档识别技术的发展路径为其他AI应用领域提供了有益启示。

在数字化转型的关键时期，这种基础性创新将持续释放技术红利，助力各行业效率提升。