深度求索发布新一代文档识别模型 视觉编码突破提升识别精度

随着数字化办公与知识管理的普及,文档识别技术正从简单的字符识别向理解文档结构转变。实际应用中,大多数文档并非单一文本,而是包含多栏排版、脚注、图表、公式和标题等复杂元素的复合页面。如何在保持计算效率的同时,实现字符识别与结构理解的统一,成为行业亟待解决的难题。 传统视觉语言模型处理文档时,通常将图像分割为视觉标记并按固定顺序输入模型。这种方法假设"空间相邻即语义有关",但在复杂版式中往往失效:读者会先看标题再看摘要,浏览表格时会在表头和单元格间切换,解析公式需要遵循特定结构关系。单纯依赖几何顺序容易导致模型对内容层级和逻辑关系的误判。 针对这些问题,DeepSeek在新模型中改进了视觉编码器设计,提出"视觉因果流"概念:在输出识别结果前,先对视觉信息进行语义排序。新型编码器DeepEncoder V2引入可学习的"因果流查询标记",同时采用双向注意力和因果注意力机制:前者捕捉页面整体布局和元素关系,后者建立语义先后顺序。最终仅将重排后的查询标记送入解码器生成结果,在不增加解码负担的情况下提升结构理解能力。 DeepSeek-OCR 2延续了编解码框架:编码器将图像转换为256到1120个视觉标记,经DeepEncoder V2处理后由基于混合专家架构的语言模型解码。此设计实现了工程目标——在不显著增加资源消耗的前提下,通过优化编码提升识别质量。

这个技术突破标志着我国在智能文档处理领域已达到国际先进水平。它不仅为解决实际问题提供了有效方案,也为AI与传统产业的融合开辟了新途径。随着研究的深入和应用的拓展,这类技术创新有望成为数字经济发展的重要推动力。