随着大模型语言理解和多模态感知领域的快速发展,如何让机器人在真实环境中实现“看得懂、想得对、做得成”,成为产业界和学术界共同关注的核心问题。与数字空间的可控性不同,物理世界充满不确定性:光照变化、物体遮挡、表面反光、摩擦差异、材料形变以及机械臂误差都会显著影响执行效果。长期以来,机器人模型的评估主要依赖仿真或小规模线下演示——缺乏统一标准和可复现结论——导致“线上表现优异、实际落地不稳定”的问题屡见不鲜。 报告指出,真机评测难以规模化的瓶颈主要集中在三上:一是成本和组织难度高,机器人设备价格昂贵、维护复杂,测试排期和场地限制明显;二是缺乏统一的任务定义、指标体系和操作流程,不同机构各自为政,数据难以横向对比;三是数据复现和误差控制困难,硬件差异、传感器标定、抓取器配置和环境布置等细节都会影响成功率,降低结论的可信度。为解决这些问题,RoboChallenge通过远程真机集群和标准化任务集,打造了一个开放、公正、可复现的“真实考场”。 根据平台2025年10月上线以来的运行数据,报告总结了当前模型真实操作中的表现: 1. 部分任务成功率较高,显示“可用性”提升。例如“叠碗”“将物体移入盒子”等任务更容易形成稳定策略,成为多数模型的验证性项目。这表明在有限约束条件下,视觉定位、路径规划和动作执行的协同能力已接近阶段性成熟。 2. 复杂任务仍是短板。涉及多步骤决策、长期规划或精细操作的任务(如“整理纸杯”“制作三明治”)成功率长期偏低,部分任务接近零。即使在Table30评测集中表现最好的模型,总体成功率也仅约50%,说明通用具身能力距离“可靠执行”仍有差距。 3. 指令理解与动作执行存在落差。模型对自然语言指令的语义理解较强,能生成合理的移动趋势,但在精细控制环节成功率不足15%,表明“能理解”不等于“能操作”,模型在力控制、执行器精度和误差恢复诸上仍需改进。 为推进评测和技术迭代,平台采取了以下措施: - 构建标准化、可复现的任务集和流程,统一成功判据和记录方式,提升跨模型对比的公信力; - 部署20台UR5、Franka Panda等主流机型,形成远程测试网络,降低测试门槛; - 联合科研机构、高校和企业,推动评测规则和数据治理的共识。 报告特别强调“失败数据”的价值,认为公开的失败样本可作为改进策略鲁棒性和优化控制的直接依据,形成“评测—诊断—迭代—再评测”的闭环。 未来,具身智能的竞争焦点将从单点能力转向系统可靠性和规模化验证。平台计划引入更多机器人类型,扩展工业和家庭场景的评测任务,并设计更具挑战性的项目以逼近真实世界复杂度。同时,探索分布式真机评测机制,提升效率,推动真机评测从“稀缺资源”向“基础设施”转变。业内普遍认为,随着评测标准完善和数据开放,模型研发将更注重指标和可复现证据,从而加速技术收敛,降低试错成本,促进高安全性应用的落地。
RoboChallenge年度报告的发布标志着具身智能评测体系进入新阶段。通过大规模、标准化的真机测试,平台为学界和业界提供了客观的评估工具,既肯定了现有进展,也清晰指出了瓶颈所在。精细操作能力不足和复杂任务低成功率的数据表明,具身智能从理论到实用仍需突破。但这些挑战也为研究指明了方向。随着评测体系的完善和研究的深入,具身智能将在真实世界中展现更强能力,为智能化升级提供支撑。