omnidocbench v1.5 开源了一个轻量化的ocr 模型

智谱AI团队最近搞了个大动作,开源了一个轻量化的OCR模型,叫GLM-OCR。这个模型专门用来解析文档,特别适合做OCR任务。为啥大家这么关注呢?因为文档的智能化识别和理解,现在已经成了各行各业的刚需了。智谱AI这一出手,直接给这个领域带来了新希望。 这个GLM-OCR模型特别厉害,参数只有9亿,也就是0.9B。尽管体积小,但性能却很强悍。在一个叫OmniDocBench V1.5的评测基准上,它拿到了94.6分的高分,排在了全球前列。不仅在综合性测试中表现突出,像公式识别、表格解析这些垂直任务上也不逊色于那些参数更多的大模型。 要做到这点全靠架构创新和优化训练。团队自研的CogViT视觉编码器,能很好地协同感知图像的全局和局部特征。再加上海量数据的训练优化,这个模型就不怕手写笔迹、复杂表格合并、多语言混排这些难题了,鲁棒性特别强。 它解决了不少行业痛点。比如金融票据里有手写注释、盖章和印刷体混杂的情况,GLM-OCR能准确分离并识别各种文字信息。科研文献里跨页的复杂表格也能被精准还原成结构化代码。各类证件文书上的关键信息也能快速定位并抽取出来。 为了方便大家用起来,智谱AI直接把模型权重、推理代码和工具链都开源了。支持vLLM、SGLang、Ollama这些主流推理框架部署,环境要求简单到可以“一行命令”就调用起来。这种低门槛的策略能帮开发者和企业研发团队快速接入现有业务系统。 而且这模型速度快、省资源。处理标准PDF文档的吞吐量能达到每秒近2页。成本方面更是给力,据估算API调用成本只有传统商用方案的十分之一左右。这让大规模文档处理变得经济可行了。 文档是信息承载的重要形式,它的数字化和结构化是智能化转型的基础。GLM-OCR这种高性能的轻量化模型不仅提升了自动化水平,还为下游的RAG、知识库构建这些高级应用提供了更好的“原料”。 这次开源发布展示了我国科研团队在前沿AI技术上的创新实力。期待未来有更多国产核心技术突破出来,推动我国文档智能化处理技术的进步与普及。