加州大学圣地亚哥分校AIBuildAI智能体在OpenAI MLE-Bench评测中夺冠

人工智能快速发展之际——模型开发门槛高、周期长——正成为行业推进的重要掣肘。传统流程往往需要工程师反复设计、编码与调参，投入大、迭代慢。针对此痛点，美国加州大学圣地亚哥分校科研团队提出了一套新方案。由Ruiyi Zhang博士带领的团队借鉴专业研发团队的协作方式，开发出具备自主决策能力的建模系统。系统将开发流程拆解，并以“虚拟团队”分工协作的方式，实现端到端自动化；用户只需用自然语言描述需求，系统即可完成架构设计、代码生成、参数调优等全流程任务。 OpenAI组织的MLE-Bench基准测试中，该系统在75项覆盖计算机视觉、自然语言处理等领域的任务里表现突出。结果显示，其总体表现优于现有方案，尤其在并行探索与任务适应性上优势明显。研究人员介绍，系统采用分布式工作空间，可同时尝试多条解决路径，并完整记录实验数据，使过程可追溯、结果可复现。这项进展具备明确的现实价值：一方面降低了模型研发门槛，让更多企业与研究机构更容易开发定制化模型；另一方面通过更标准化的流程提升模型质量与研发效率。业内专家认为，该成果验证了多智能体协作在复杂工程任务中的可行性，也为智能系统的下一步演进提供了参考。从技术趋势看，这一成果意味着自动化建模进入更成熟的阶段。随着算法迭代和算力提升，研究团队预计未来三年内，类似系统有望在医疗诊断、工业质检等专业场景加速落地。同时，自动化普及也会带来知识产权、算法透明度等新问题。值得关注的是，该系统在安全机制上给出了可借鉴的做法：通过独立工作空间与完整审计日志，既提升了开发过程的安全性，也满足科研对可重复性的要求。

机器学习工程正从“个人写代码、调参数”转向“分工协作、可审计可复现”的流程化生产，这是行业走向成熟的重要信号。此次基准测试成绩展现了自动化研发的潜力，也提醒行业在追求效率的同时同步补齐治理能力。只有让技术推进与规范建设并行，才能把更快的研发转化为更可靠、可持续的创新成果。