中关村论坛发布具身智能新成果:人类第一视角数据推动通用“机器人大脑”路径创新

问题——具身智能仍卡“会做不懂、能练难泛化”的瓶颈上。近年来,视觉-语言-动作(VLA)等路线让机器人在部分任务上取得进展,但行业普遍面临三重限制:一是真机数据采集与训练成本高、周期长;二是数据多为“轨迹模仿”,模型容易学到动作表象,缺少对物理因果的理解;三是在陌生环境、强干扰或长程任务中,通用能力与任务能力难以兼顾,泛化表现波动较大。如何让机器人从“学动作”走向“懂世界”,成为具身智能能否规模化落地的关键。 原因——数据结构与训练目标在很大程度上决定能力上限。业内主流方法往往依赖真实机器人反复试错,或以高成本遥操作采集可直接用于控制的训练数据。这类数据贴近执行,但覆盖面有限、跨场景迁移弱,也难以系统性融入人类在日常生活中形成的物理常识与交互逻辑。同时,传统训练更偏向围绕任务指标快速优化,容易出现理解与执行脱节:模型在熟悉分布下能完成指令,但面对开放环境的变化时应对不足。 影响——以“物理理解”为核心的训练思路正在推动技术路线调整。在中关村论坛年会“全球对话”平行论坛上,北京中关村学院发布的成果中,PhysBrain 1.0被视为对上述瓶颈的一次探索:通过引入大规模、低成本的人类第一视角数据,将物理常识与场景记忆纳入训练核心,以“理解优先、通用优先”为总体思路,在保持认知能力的同时提升执行能力。该系统由基座模型PhysBrain、双脑架构TwinBrainVLA以及训练策略LangForce等模块组成,旨在缓解传统VLA训练中“物理常识不足、通用与任务难兼顾”的矛盾,为复杂场景下更稳定的泛化能力提供支撑。 对策——以“模型—数据—载体”协同验证,打通从实验室到真实场景的闭环。与模型发布同步,团队在论坛同期展陈中展示自研全尺寸拟人体机器人Prime。该机器人具备72个自由度,采用接近人体的比例结构,支持毫米级精细操作,并具备断电自主站立等能力,主要用于检验通用具身模型在真实环境中的适配性与可靠性。业内人士认为,具身智能的竞争不只在算法,还取决于“数据来源是否可持续、训练体系是否可迁移、硬件平台是否可验证”。以第一视角数据为代表的低成本、高覆盖数据路径,有望在降低训练门槛的同时补齐物理理解与交互逻辑等关键能力;全尺寸、同构拟人平台的引入,则为“从仿真到现实”的可信验证提供了更直接的抓手。 前景——从“比参数规模”走向“定义物理智能”,产业可能迎来范式转变。随着可穿戴设备和第一视角记录应用普及,人类日常行为及其与环境的交互被更连续、更真实地记录,为具身智能带来新的数据供给形态。业内判断,下一阶段竞争焦点将从单纯比拼模型规模,逐步转向“物理常识建模、跨场景泛化、安全可控执行”等综合能力;从依赖昂贵真机数据的线性扩张,转向更可持续的多源数据与体系化训练。与此同时,具身智能走向应用仍需在安全规范、评测体系、软硬件协同、场景标准化诸上持续突破,尤其是在开放环境下对人机协作风险的识别与约束,可能成为规模落地的前置条件。

从蒸汽时代机械臂的程式化运动,到数字时代算法的抽象推演,人类对机器智能的探索始终指向“理解世界”该命题;深度机智团队的实践带来一种启示:真正的突破往往来自认知层面的跃迁。当机器人学会以人类的视角观察与理解世界时,也许正是人机协作进入新阶段的开始。