深度求索发布新一代文档识别模型视觉编码突破提升识别精度

随着数字化办公与知识管理的普及，文档识别技术正从简单的字符识别向理解文档结构转变。实际应用中，大多数文档并非单一文本，而是包含多栏排版、脚注、图表、公式和标题等复杂元素的复合页面。如何在保持计算效率的同时，实现字符识别与结构理解的统一，成为行业亟待解决的难题。传统视觉语言模型处理文档时，通常将图像分割为视觉标记并按固定顺序输入模型。这种方法假设"空间相邻即语义有关"，但在复杂版式中往往失效：读者会先看标题再看摘要，浏览表格时会在表头和单元格间切换，解析公式需要遵循特定结构关系。单纯依赖几何顺序容易导致模型对内容层级和逻辑关系的误判。针对这些问题，DeepSeek在新模型中改进了视觉编码器设计，提出"视觉因果流"概念：在输出识别结果前，先对视觉信息进行语义排序。新型编码器DeepEncoder V2引入可学习的"因果流查询标记"，同时采用双向注意力和因果注意力机制：前者捕捉页面整体布局和元素关系，后者建立语义先后顺序。最终仅将重排后的查询标记送入解码器生成结果，在不增加解码负担的情况下提升结构理解能力。 DeepSeek-OCR 2延续了编解码框架：编码器将图像转换为256到1120个视觉标记，经DeepEncoder V2处理后由基于混合专家架构的语言模型解码。此设计实现了工程目标——在不显著增加资源消耗的前提下，通过优化编码提升识别质量。

这个技术突破标志着我国在智能文档处理领域已达到国际先进水平。它不仅为解决实际问题提供了有效方案，也为AI与传统产业的融合开辟了新途径。随着研究的深入和应用的拓展，这类技术创新有望成为数字经济发展的重要推动力。

深度求索发布新一代文档识别模型 视觉编码突破提升识别精度

深度求索发布新一代文档识别模型视觉编码突破提升识别精度