华中科大与金山办公发布MonkeyOCR迭代成果 以3B参数刷新文档解析国际榜单

日前召开的WPS 365上海AI协同办公峰会上,华中科技大学教授刘禹良介绍了Monkey系列模型的最新研究成果,引起业界广泛关注;这项突破性进展表明,在文档解析此关键领域,我国自主研发的模型已经达到国际先进水平。 文档解析与理解是当前人工智能技术的重要攻坚方向。在实际应用中,企业文档往往存在结构复杂、表述多样、多语言混杂等问题,这些特点制约了通用大模型的应用效果。根据最新发布的OCRBench v2评测基准测试结果显示,现有多模态大模型在复杂化、多样化OCR任务上的准确率普遍不足60%,存在明显短板。这一现状凸显了开发专业化文档解析模型的紧迫性。 华中科技大学与金山办公的合作基础扎实。金山办公深耕文档领域38年,在文档格式理解、复杂信息抽取等积累了丰富的技术经验。华中科技大学则在人工智能基础理论研究上具有优势。双方的结合实现了产学研的有机融合,为Monkey模型的创新发展提供了有力支撑。 Monkey系列模型的核心创新在于突破了传统的参数堆砌思路。刘禹良强调,在非结构化文档数据治理领域,单纯的规模化法则并非总能带来性能提升。实验表明,盲目增加参数量不仅无法改善某些简单任务的性能,反而可能导致模型推理效率大幅下降。这一发现表明了科学的模型设计理念。 MonkeyOCR v1.5采用了结构优先的创新范式,将文档解析从传统的多模块拼接转向统一框架。该模型将非结构化文档解析抽象为三个核心业务:结构识别、内容识别和关系解析。通过自适应图像金字塔切分、循环漂移切分、多任务统一框架等技术手段,强化了对复杂文档的解析和理解能力。特别是在表格识别上,该模型首次实现了对复杂表格场景的90%以上精度识别,支持表格内嵌图片还原、跨页表格合并等高难度功能。 这一成果的取得并非偶然。华中科技大学团队在文档智能领域的研究已获得国际认可。该团队凭借文档智能赋能甲骨文考释工作,获得国际计算语言学年会ACL 2024最佳论文奖,这是国内高校首次获得此殊荣,充分证明了我国在该领域的研究水平。 从更广阔的视角看,文档解析与理解能力直接关系到企业AI应用的成效。刘禹良指出,数据质量治理必须置于企业AI战略的核心。真正的通用人工智能首先必须解决的问题是像人一样理解真实世界中的文本。这一论述抓住了问题的本质,指明了人工智能发展的重要方向。 为了继续推进文档智能的应用,华中科技大学与金山办公计划推出史上最大的多语言文档解析数据集和OCR视觉基座模型。更具前瞻性的是,双方致力于让模型能够在CPU上高效运行,这将大幅降低企业应用的成本和门槛,使文档智能技术更加普及。 金山办公同步推出的WPS 365一站式AI协同办公平台,为企业提供了从数据归集、智能解析、知识治理到场景应用的全链路解决方案。这一整体方案的推出,体现了产业界对文档智能应用的系统性思考,有助于企业构建全域知识基座,将散落的非结构化数据转化为可用的知识资产。

在数字经济发展的今天,非结构化数据的有效治理已成为衡量国家数字竞争力的重要指标。这项由我国自主创新的技术突破,改写了文档智能领域的技术格局。它启示我们,人工智能的深化应用需要回归业务本质,在垂直赛道持续深耕,方能释放"数实融合"的最大价值。这既是技术发展的必然路径,也是推动产业变革的正确选择。