问题——物理智能加速走向产业一线,缺少统一“标尺”制约规模化应用。
随着大模型等技术向实体场景延伸,具备感知、决策、操作能力的物理智能正在进入智能制造、智慧物流、城市运行等领域,成为推动新型工业化的重要力量。
但与数字空间不同,真实世界环境复杂多变,设备与系统异构并存,智能体要在噪声、时延、误差与安全边界约束下稳定运行。
如何衡量其对物理规律的一致性理解、如何验证“感知—决策—执行”全链路可靠性、如何实现跨设备跨系统协同互认,成为产业落地的关键瓶颈。
原因——数据供给不足、系统协同复杂与安全责任边界不清是主要掣肘。
从技术链条看,物理智能训练与验证需要高质量、多模态、可标注、可流通的数据,但工业数据往往分散在不同企业与环节,标准不一,导致数据碎片化与质量参差并存;从工程体系看,多智能体、多设备、多网络环境带来的互操作难度显著提升,协同能力不足会放大安全隐患;从治理角度看,缺乏可复制的评测与认证机制,使得能力评价更多停留在单点展示,难以支撑规模部署与责任追溯。
影响——没有统一评测与标准化体系,产业将面临“能演示、难量产”的现实阻力。
一方面,企业在引入具身机器人、智能终端等产品时,很难以统一指标比较不同方案的可靠性与适配性,投资决策成本上升;另一方面,缺少全链路验证会增加安全事故与停机风险,进而影响关键行业对新技术的信任度;同时,数据与接口不统一会造成重复建设与生态割裂,不利于形成跨区域、跨行业的规模效应。
对策——以“格物”体系为抓手,通过五维全栈评测把能力验证前置到标准化流程。
中国信通院工业互联网与物联网研究所依托数字基础设施、物联网与工业互联网等基础能力,提出“在物理交互中验证智能、在场景实践中确立标准”的思路,构建覆盖“数据集—大模型—智能体—终端产品—系统设施”的全链条评测框架,形成从数据底座到系统运行的闭环验证。
在数据集评测方面,面向工业机理、传感器时序、三维点云、触觉反馈等多模态数据提出质量评价思路,意在突破单一文本语料评价的局限,为训练与验证提供更贴近实体场景的基础数据规范;在大模型评测方面,强调对物理一致性认知、复杂因果推理等能力的验证,突出“能否理解并遵循实体规律”的核心要求;在智能体评测方面,聚焦异构智能体通信互操作、多机协同与边缘自主决策,推动多智能体在复杂环境下的稳定协作;在终端产品评测方面,将智能能力与硬件质量体系衔接,关注软硬协同性能与系统兼容适配,推动从“算法好不好”走向“产品稳不稳”;在系统设施评测方面,借助高保真虚实迁移验证与产品数字护照等机制,探索从仿真训练到物理测试的全生命周期追溯与合规认证,强化产业链的可信基础。
与此同时,相关首评验证工作也面向产业痛点展开:围绕“智能执行”开展全链路分级评测,为自主决策与异构协同建立可对比的基准;围绕“数据供给”建立数据确权与质量评估机制,规范采集标注流程,提升模型训练效率;围绕“可信基座”推进数字身份认证、指令拒绝机制、功能安全等接口能力评测,增强设施互联互通与安全运行能力。
通过这些工作,评测不再停留于单项性能指标,而是更强调工程可用性、系统稳定性与安全可控性。
前景——评测标准化有望加快物理智能从试点走向规模应用,推动形成开放共赢生态。
面向下一阶段,随着实体场景智能化需求持续增长,评测体系将从单点能力衡量向跨系统互联、跨场景迁移与跨主体协同深化。
按照相关计划,后续将进一步完善标准体系、建设评测中心并强化央地协同,推动在地方落地与因地制宜的产业创新;同时通过常态化发布评测榜单与技术洞察,引导技术路线更注重安全、可靠与可验证,促进供需两端在同一“标尺”下形成良性竞争与合作。
可以预期,随着数据要素流通机制与安全合规框架的完善,物理智能将更快进入制造、物流、能源等领域的关键环节,成为提升效率与韧性的基础能力之一。
物理AI的发展代表了人工智能技术与实体经济融合的新方向,其规模化应用对推进新型工业化具有重要意义。
"格物"物理AI评测体系的推出,不仅为这一新兴领域提供了科学的量化评估框架,更为产业生态的健康发展奠定了基础。
通过标准化、系统化的评测体系,可以有效降低技术应用的风险,加快创新成果的转化,推动物理AI从理论研究走向广泛应用。
随着该体系的不断完善和推广,物理AI必将在智能制造、自主机器人、智慧物流等领域释放更大的生产力潜能,成为驱动经济高质量发展的重要力量。