通用智能人“通通”迭代至3.0版：空间、认知、社交三维升级并引入价值驱动机制

（问题）当前，通用智能正从“能对话”向“能做事”转变，但面临的核心挑战是如何让系统真实或接近真实的环境中实现可靠的感知、可解释的推理和可控的行为。这要求智能体不仅能理解三维空间中的物体与规则，还要在多任务并行、突发事件和社会互动中保持稳定的价值取向，避免逻辑矛盾和不恰当行为。业界普遍认为，具备“主体性”和“言行一致”的通用具身智能体，是通用智能迈向实际应用的关键门槛之一。（原因）3月29日，在2026中关村论坛年会通用人工智能论坛上，北京通用人工智能研究院发布了通用智能人“通通”3.0版本。研究团队表示，新版本以“因果—价值”驱动为核心，围绕价值系统、认知推理、空间智能、多模态交互、具身运动、社交智能、安全可信与持续学习等能力进行了系统性升级。其技术路线旨在让智能体不仅“会回答”，还能“会判断、会行动、能协作”，并在连续交互中保持决策的可追溯性和可解释性。（影响）与1.0和2.0版本相比，“通通”3.0在三大核心能力上实现了大幅提升。一是空间智能更贴近实际需求。“通通”能够区分三维虚拟具身空间与二维视频信息流，并精准感知和映射环境，为定位、规划和动作约束提供基础。相比早期版本主要在封闭家居环境中执行清洁等任务，新版本能够应对更开放、更复杂的社会化场景，在多对象和多规则条件下做出更细致的判断。二是认知智能增强了长序列任务和动态调整能力。“通通”具备复杂任务的自主规划和并行任务管理能力，可根据环境变化实时调整行动路径。例如，在家长提示“不要碰电源”时，“通通”能将“电风扇未开启”与“需要插电”建立因果联系，同时理解“插电行为需获得同意”的约束条件，显示出将常识、规则与目标整合到决策中的能力。三是社交智能向拟人化协作与共情拓展。新版本能够识别他人情绪与意图，支持在多智能体共存环境中互动，并在多轮对话中保持连贯性。例如，在被问及儿童撒谎原因时，“通通”尝试用“害怕被责怪”解释动机；面对“踢狗”指令时，它拒绝伤害动物，显示出对社会规范和伦理约束的识别与执行能力。这些表现表明，智能体正从单纯“完成任务”向“符合规则地完成任务”演进，安全与可信成为其能力体系的重要组成部分。（对策）为支持通用智能体在复杂环境中的持续学习与迭代，北京通用人工智能研究院构建了“全场景、多任务、高保真”的三维仿真虚拟世界作为训练与评测平台。该平台覆盖上百个精细室内场景和城市级户外环境，高度还原物理、交互与社交特性，让智能体在接近真实条件下反复训练，尽可能将风险控制在可管理范围内。同时，通过透明的推理展示机制，提升决策过程的可解释性与可追溯性，减少不一致推断和行为偏差带来的不确定性。（前景）业内人士认为，通用具身智能的价值不仅在于单点能力的突破，更在于能否形成可复用的通用框架，并在家居服务、教育陪伴、园区运营、公共服务等领域建立可验证的应用闭环。下一阶段，通用智能体要走向更广泛的现实场景，还需在安全边界、规则对齐、数据与评测标准、系统鲁棒性诸上持续完善，并在开放环境中接受长期检验。随着仿真平台、评测体系和工程化能力的逐步成熟，具备价值驱动与社交协作能力的智能体有望从演示验证迈向规模化试点。

从封闭测试环境到开放社会场景，“通通”的进化轨迹反映了人工智能技术的发展趋势。当机器开始理解价值判断与社会规范时，我们不仅需要关注技术突破本身，更应思考如何构建与之相适应的伦理框架和应用标准。这项技术的未来，或将重新定义人机协作的边界与可能。