北大等联合发布One-Eval评测系统推动大模型能力评估迈向“一句话完成”新范式

（问题）近年来，大模型能力快速演进，但“如何评得准、评得全、评得快”仍是行业普遍难题。一方面，模型更新迭代频繁，评测需求从单一任务扩展到数学推理、常识问答、多学科综合等多维能力；另一方面，评测工作常被数据集选择、下载配置、运行环境搭建、指标解释等流程性事务占据，导致研究人员投入大量时间“准备评测”而非“改进模型”上。尤其对资源有限的团队而言，评测门槛高、周期长、难复用的问题更为突出。（原因）造成上述困境的关键，在于评测生态长期存在碎片化特征：其一，不同基准测试的数据格式、目录结构与运行脚本差异较大，配置经验高度依赖个人积累；其二，数据源分散且更新频繁，链接失效、版本不一致等问题影响评测稳定性；其三，评测意图难以结构化表达，同一句“测试数学能力”可能对应算术、竞赛题、证明推理或应用题等多种子目标，若缺乏清晰定义，结果容易出现“测的不是想测的能力”。在多任务、多指标并行的现实需求下，传统手工方式更容易引发误选基准、误配参数或解读偏差，影响评测公信力与可比性。（影响）因此，北京大学联合北京理工大学、北京邮电大学和中关村学院研究团队提出One-Eval系统，尝试以“自然语言驱动的一站式评测”为核心思路，减少人工配置与工具切换。据团队介绍，系统可让使用者直接用普通话或文字描述评测目的，例如关注数学推理或常识问答等能力，随后自动完成基准匹配、数据准备、环境配置、评测运行与结果分析，并输出相对完整的报告。对应的研究已在预印本平台发布（arXiv:2603.09821v1）。从技术路径看，One-Eval围绕“理解需求—落实基准—保障执行”形成协同链条。其一，系统通过名为NL2Bench的模块，将用户自然语言需求转化为结构化评测意图，避免仅靠关键词检索导致的“表面匹配”。该模块强调对评测目标的细化理解，例如区分基础计算与复杂推理、理论题与应用题等，并支持交互式纠偏，即当系统推荐方向与用户意图不一致时，用户可补充约束条件促使重新匹配。其二，系统内置一定规模的可用基准库（团队披露为77个经过筛选验证的基准集合），并能够结合外部数据平台检索新基准，以兼顾稳定性与覆盖面。其三，系统通过BenchResolve等组件处理数据下载、格式解析与配置生成，提出“本地优先、动态后备”的策略：对常用基准优先调用已验证配置以保证可复现；对新或小众基准，则自动读取元信息、解析结构并生成配置，减少人工排障时间。（对策）业内分析认为，提升模型评测质量，关键不在“更多测试”而在“更可比、更可复用、更可解释”。面向科研机构与产业应用，下一步可从三上着力：一是推动评测意图标准化表达，将能力定义、约束条件与指标口径以结构化方式固化，减少“同名不同测”的偏差；二是建立基准测试的版本治理与可追溯机制，明确数据来源、版本号、过滤规则与运行参数，提升跨团队复现实验的可靠性；三是加强评测报告的可解释呈现，区分能力短板、数据偏置、提示策略等因素对结果的影响，避免将单次分数简单等同于综合能力。One-Eval以“语言指令+自动化工具链”的方式，提供了降低门槛的一种实践路径，但其长期效果仍需在更多模型、更多任务与更复杂环境中接受检验。（前景）随着模型应用从通用问答走向教育、科研、政务与产业流程，评测将从“研发环节的内部工具”逐步演变为“技术治理的重要基础设施”。可以预见，未来评测体系将更强调三类能力：面向真实场景的任务分解与鲁棒性测试、面向安全合规的风险评估与红队对抗、面向持续迭代的自动回归与监测。在这个趋势下，能够把复杂评测流程产品化、标准化、自动化的工具，有望推动评测从“少数专家操作”走向“更多团队可用”，从而缩短模型迭代周期，提升行业整体透明度与协作效率。

这项研究展现了我国在AI基础工具领域的创新能力；降低技术测评门槛将释放更多创新活力，这类基础性创新对提升科技竞争力至关重要。

北大等联合发布One-Eval评测系统 推动大模型能力评估迈向“一句话完成”新范式

北大等联合发布One-Eval评测系统推动大模型能力评估迈向“一句话完成”新范式