北大等联合发布One-Eval评测系统 推动大模型能力评估迈向“一句话完成”新范式

(问题)近年来,大模型能力快速演进,但“如何评得准、评得全、评得快”仍是行业普遍难题。一方面,模型更新迭代频繁,评测需求从单一任务扩展到数学推理、常识问答、多学科综合等多维能力;另一方面,评测工作常被数据集选择、下载配置、运行环境搭建、指标解释等流程性事务占据,导致研究人员投入大量时间“准备评测”而非“改进模型”上。尤其对资源有限的团队而言,评测门槛高、周期长、难复用的问题更为突出。 (原因)造成上述困境的关键,在于评测生态长期存在碎片化特征:其一,不同基准测试的数据格式、目录结构与运行脚本差异较大,配置经验高度依赖个人积累;其二,数据源分散且更新频繁,链接失效、版本不一致等问题影响评测稳定性;其三,评测意图难以结构化表达,同一句“测试数学能力”可能对应算术、竞赛题、证明推理或应用题等多种子目标,若缺乏清晰定义,结果容易出现“测的不是想测的能力”。在多任务、多指标并行的现实需求下,传统手工方式更容易引发误选基准、误配参数或解读偏差,影响评测公信力与可比性。 (影响)因此,北京大学联合北京理工大学、北京邮电大学和中关村学院研究团队提出One-Eval系统,尝试以“自然语言驱动的一站式评测”为核心思路,减少人工配置与工具切换。据团队介绍,系统可让使用者直接用普通话或文字描述评测目的,例如关注数学推理或常识问答等能力,随后自动完成基准匹配、数据准备、环境配置、评测运行与结果分析,并输出相对完整的报告。对应的研究已在预印本平台发布(arXiv:2603.09821v1)。 从技术路径看,One-Eval围绕“理解需求—落实基准—保障执行”形成协同链条。其一,系统通过名为NL2Bench的模块,将用户自然语言需求转化为结构化评测意图,避免仅靠关键词检索导致的“表面匹配”。该模块强调对评测目标的细化理解,例如区分基础计算与复杂推理、理论题与应用题等,并支持交互式纠偏,即当系统推荐方向与用户意图不一致时,用户可补充约束条件促使重新匹配。其二,系统内置一定规模的可用基准库(团队披露为77个经过筛选验证的基准集合),并能够结合外部数据平台检索新基准,以兼顾稳定性与覆盖面。其三,系统通过BenchResolve等组件处理数据下载、格式解析与配置生成,提出“本地优先、动态后备”的策略:对常用基准优先调用已验证配置以保证可复现;对新或小众基准,则自动读取元信息、解析结构并生成配置,减少人工排障时间。 (对策)业内分析认为,提升模型评测质量,关键不在“更多测试”而在“更可比、更可复用、更可解释”。面向科研机构与产业应用,下一步可从三上着力:一是推动评测意图标准化表达,将能力定义、约束条件与指标口径以结构化方式固化,减少“同名不同测”的偏差;二是建立基准测试的版本治理与可追溯机制,明确数据来源、版本号、过滤规则与运行参数,提升跨团队复现实验的可靠性;三是加强评测报告的可解释呈现,区分能力短板、数据偏置、提示策略等因素对结果的影响,避免将单次分数简单等同于综合能力。One-Eval以“语言指令+自动化工具链”的方式,提供了降低门槛的一种实践路径,但其长期效果仍需在更多模型、更多任务与更复杂环境中接受检验。 (前景)随着模型应用从通用问答走向教育、科研、政务与产业流程,评测将从“研发环节的内部工具”逐步演变为“技术治理的重要基础设施”。可以预见,未来评测体系将更强调三类能力:面向真实场景的任务分解与鲁棒性测试、面向安全合规的风险评估与红队对抗、面向持续迭代的自动回归与监测。在这个趋势下,能够把复杂评测流程产品化、标准化、自动化的工具,有望推动评测从“少数专家操作”走向“更多团队可用”,从而缩短模型迭代周期,提升行业整体透明度与协作效率。

这项研究展现了我国在AI基础工具领域的创新能力;降低技术测评门槛将释放更多创新活力,这类基础性创新对提升科技竞争力至关重要。