中关村论坛发布具身智能新成果：人类第一视角数据推动通用“机器人大脑”路径创新

问题——具身智能仍卡“会做不懂、能练难泛化”的瓶颈上。近年来，视觉-语言-动作（VLA）等路线让机器人在部分任务上取得进展，但行业普遍面临三重限制：一是真机数据采集与训练成本高、周期长；二是数据多为“轨迹模仿”，模型容易学到动作表象，缺少对物理因果的理解；三是在陌生环境、强干扰或长程任务中，通用能力与任务能力难以兼顾，泛化表现波动较大。如何让机器人从“学动作”走向“懂世界”，成为具身智能能否规模化落地的关键。原因——数据结构与训练目标在很大程度上决定能力上限。业内主流方法往往依赖真实机器人反复试错，或以高成本遥操作采集可直接用于控制的训练数据。这类数据贴近执行，但覆盖面有限、跨场景迁移弱，也难以系统性融入人类在日常生活中形成的物理常识与交互逻辑。同时，传统训练更偏向围绕任务指标快速优化，容易出现理解与执行脱节：模型在熟悉分布下能完成指令，但面对开放环境的变化时应对不足。影响——以“物理理解”为核心的训练思路正在推动技术路线调整。在中关村论坛年会“全球对话”平行论坛上，北京中关村学院发布的成果中，PhysBrain 1.0被视为对上述瓶颈的一次探索：通过引入大规模、低成本的人类第一视角数据，将物理常识与场景记忆纳入训练核心，以“理解优先、通用优先”为总体思路，在保持认知能力的同时提升执行能力。该系统由基座模型PhysBrain、双脑架构TwinBrainVLA以及训练策略LangForce等模块组成，旨在缓解传统VLA训练中“物理常识不足、通用与任务难兼顾”的矛盾，为复杂场景下更稳定的泛化能力提供支撑。对策——以“模型—数据—载体”协同验证，打通从实验室到真实场景的闭环。与模型发布同步，团队在论坛同期展陈中展示自研全尺寸拟人体机器人Prime。该机器人具备72个自由度，采用接近人体的比例结构，支持毫米级精细操作，并具备断电自主站立等能力，主要用于检验通用具身模型在真实环境中的适配性与可靠性。业内人士认为，具身智能的竞争不只在算法，还取决于“数据来源是否可持续、训练体系是否可迁移、硬件平台是否可验证”。以第一视角数据为代表的低成本、高覆盖数据路径，有望在降低训练门槛的同时补齐物理理解与交互逻辑等关键能力；全尺寸、同构拟人平台的引入，则为“从仿真到现实”的可信验证提供了更直接的抓手。前景——从“比参数规模”走向“定义物理智能”，产业可能迎来范式转变。随着可穿戴设备和第一视角记录应用普及，人类日常行为及其与环境的交互被更连续、更真实地记录，为具身智能带来新的数据供给形态。业内判断，下一阶段竞争焦点将从单纯比拼模型规模，逐步转向“物理常识建模、跨场景泛化、安全可控执行”等综合能力；从依赖昂贵真机数据的线性扩张，转向更可持续的多源数据与体系化训练。与此同时，具身智能走向应用仍需在安全规范、评测体系、软硬件协同、场景标准化诸上持续突破，尤其是在开放环境下对人机协作风险的识别与约束，可能成为规模落地的前置条件。

从蒸汽时代机械臂的程式化运动，到数字时代算法的抽象推演，人类对机器智能的探索始终指向“理解世界”该命题；深度机智团队的实践带来一种启示：真正的突破往往来自认知层面的跃迁。当机器人学会以人类的视角观察与理解世界时，也许正是人机协作进入新阶段的开始。