合合信息推出文档解析新功能：实现多类图表数据自动提取助力科研与企业知识库建设

问题：图表“看得见、用不动”成为数据再利用堵点学术研究、行业研究与企业知识库建设中，图表常用于展示趋势、对比与结构信息。但当使用者需要把PDF或图片中的柱状图、折线图、散点图等转成可编辑、可计算的数据表时，常陷入“看得见、用不动”的困境：人工读取坐标和数据点既耗时又费力，结果还容易受主观判断影响；遇到多图对照、跨页引用或复杂图形时，数据口径难统一，后续分析与复核成本随之增加。原因：非结构化载体与专业排版叠加，拉高提取门槛业内人士表示，图表数据提取难，既受“非结构化”载体限制，也与专业文档的排版特点有关。一上，研报与论文多以PDF或图片形式流转，图表天然不可直接编辑；另一方面，学术期刊与专业报告常见多栏排版、图表浮动、脚注穿插、公式密集等设计，使阅读顺序还原、图表定位、标注识别与数据点还原彼此牵连，处理难度上升。尽管市场上已有图表识别工具，但不少仍需要手动框选、逐点校准，或对编程与参数设置能力要求较高，难以在批量场景中稳定产出。影响：效率与质量的双重压力，制约知识资产沉淀图表数据无法高效回流为结构化数据，会直接影响科研复现、企业洞察与合规留痕。对研究人员而言，图表拆解慢会拖延对比验证与二次建模；对企业而言，研报、临床报告、技术文献中的关键指标若不能被检索、汇总与追溯，就难以沉淀为可复用的知识资产，进而影响研发决策、供应链评估、质量管理与市场研判等环节。在信息更新加速的情况下，“数据提取慢一步”可能带来“判断滞后一程”的连锁影响。对策：以一体化解析推动图表结构化，提升可用性与一致性针对上述痛点，合合信息推出的TextIn文档解析新增图表数据提取能力，覆盖柱状图、折线图、饼图、雷达图、散点图等常见类型，可自动识别坐标轴标签、图例分类与数据点，并将图表内容转为表格形式的结构化结果输出。对数值标注明确的图表，可直接生成可编辑数据表；对标注不完整或图形复杂的情况，可依据图形位置关系进行测量与估算，输出可用于分析的参考数据。该工具支持线上参数配置调用，减少样本分割等前期预处理，便于在批量文档场景中流水化处理。值得关注的是，该工具不只停留在“识图取数”。在学术论文等复杂文档处理中，还可进行版面分析与阅读顺序还原，识别标题层级、段落区块及图表等浮动元素，并输出便于系统接入的结构化结果；同时针对理工医等领域常见的数学推导、化学方程式与专业符号，提供公式识别与结构化输出能力，更降低专业文献进入知识系统的门槛。前景：从单点效率工具走向知识生产基础设施业内认为，文档结构化能力正从“办公辅助工具”走向“知识生产的基础能力”。随着科研数据治理、企业数字化运营与合规管理需求上升，图表、表格、公式等过去难以被机器直接理解的内容，正在成为信息资产化的重点。以医药行业为例，临床试验报告与生物医学文献常包含跨页表格、专业符号与大量图表指标，若能稳定转化为结构化数据，将为研发、供应链与质量管理提供更可追溯的依据。据介绍，已有头部医药企业在知识库建设中引入对应的能力，完成海量专业文档的结构化处理，为研发、生产、内部资产与营销等业务场景提供支撑。未来，随着标准化接口、行业词表与质量评估体系逐步完善，图表数据提取有望与检索、统计、建模等环节进一步打通，加速“文档信息”向“可计算资产”的转化。

在知识经济时代，信息处理效率直接影响创新速度与竞争力。文档解析能力的提升不仅缓解了图表、公式等内容难以结构化的实际问题，也反映出基础工具能力的持续进步。随着人工智能与垂直行业加深融合，有关创新有望深入释放数据要素价值，为高质量发展提供支撑。这也提示我们——在数字化转型中——补齐“最后一公里”的基础技术，往往能带来更大的放大效应。