我国首创"格物"评测体系填补物理智能标准空白为新型工业化提供技术支撑

问题——物理智能加速走向产业一线，缺少统一“标尺”制约规模化应用。

随着大模型等技术向实体场景延伸，具备感知、决策、操作能力的物理智能正在进入智能制造、智慧物流、城市运行等领域，成为推动新型工业化的重要力量。

但与数字空间不同，真实世界环境复杂多变，设备与系统异构并存，智能体要在噪声、时延、误差与安全边界约束下稳定运行。

如何衡量其对物理规律的一致性理解、如何验证“感知—决策—执行”全链路可靠性、如何实现跨设备跨系统协同互认，成为产业落地的关键瓶颈。

原因——数据供给不足、系统协同复杂与安全责任边界不清是主要掣肘。

从技术链条看，物理智能训练与验证需要高质量、多模态、可标注、可流通的数据，但工业数据往往分散在不同企业与环节，标准不一，导致数据碎片化与质量参差并存；从工程体系看，多智能体、多设备、多网络环境带来的互操作难度显著提升，协同能力不足会放大安全隐患；从治理角度看，缺乏可复制的评测与认证机制，使得能力评价更多停留在单点展示，难以支撑规模部署与责任追溯。

影响——没有统一评测与标准化体系，产业将面临“能演示、难量产”的现实阻力。

一方面，企业在引入具身机器人、智能终端等产品时，很难以统一指标比较不同方案的可靠性与适配性，投资决策成本上升；另一方面，缺少全链路验证会增加安全事故与停机风险，进而影响关键行业对新技术的信任度；同时，数据与接口不统一会造成重复建设与生态割裂，不利于形成跨区域、跨行业的规模效应。

对策——以“格物”体系为抓手，通过五维全栈评测把能力验证前置到标准化流程。

中国信通院工业互联网与物联网研究所依托数字基础设施、物联网与工业互联网等基础能力，提出“在物理交互中验证智能、在场景实践中确立标准”的思路，构建覆盖“数据集—大模型—智能体—终端产品—系统设施”的全链条评测框架，形成从数据底座到系统运行的闭环验证。

在数据集评测方面，面向工业机理、传感器时序、三维点云、触觉反馈等多模态数据提出质量评价思路，意在突破单一文本语料评价的局限，为训练与验证提供更贴近实体场景的基础数据规范；在大模型评测方面，强调对物理一致性认知、复杂因果推理等能力的验证，突出“能否理解并遵循实体规律”的核心要求；在智能体评测方面，聚焦异构智能体通信互操作、多机协同与边缘自主决策，推动多智能体在复杂环境下的稳定协作；在终端产品评测方面，将智能能力与硬件质量体系衔接，关注软硬协同性能与系统兼容适配，推动从“算法好不好”走向“产品稳不稳”；在系统设施评测方面，借助高保真虚实迁移验证与产品数字护照等机制，探索从仿真训练到物理测试的全生命周期追溯与合规认证，强化产业链的可信基础。

与此同时，相关首评验证工作也面向产业痛点展开：围绕“智能执行”开展全链路分级评测，为自主决策与异构协同建立可对比的基准；围绕“数据供给”建立数据确权与质量评估机制，规范采集标注流程，提升模型训练效率；围绕“可信基座”推进数字身份认证、指令拒绝机制、功能安全等接口能力评测，增强设施互联互通与安全运行能力。

通过这些工作，评测不再停留于单项性能指标，而是更强调工程可用性、系统稳定性与安全可控性。

前景——评测标准化有望加快物理智能从试点走向规模应用，推动形成开放共赢生态。

面向下一阶段，随着实体场景智能化需求持续增长，评测体系将从单点能力衡量向跨系统互联、跨场景迁移与跨主体协同深化。

按照相关计划，后续将进一步完善标准体系、建设评测中心并强化央地协同，推动在地方落地与因地制宜的产业创新；同时通过常态化发布评测榜单与技术洞察，引导技术路线更注重安全、可靠与可验证，促进供需两端在同一“标尺”下形成良性竞争与合作。

可以预期，随着数据要素流通机制与安全合规框架的完善，物理智能将更快进入制造、物流、能源等领域的关键环节，成为提升效率与韧性的基础能力之一。

物理AI的发展代表了人工智能技术与实体经济融合的新方向，其规模化应用对推进新型工业化具有重要意义。

"格物"物理AI评测体系的推出，不仅为这一新兴领域提供了科学的量化评估框架，更为产业生态的健康发展奠定了基础。

通过标准化、系统化的评测体系，可以有效降低技术应用的风险，加快创新成果的转化，推动物理AI从理论研究走向广泛应用。

随着该体系的不断完善和推广，物理AI必将在智能制造、自主机器人、智慧物流等领域释放更大的生产力潜能，成为驱动经济高质量发展的重要力量。

我国首创"格物"评测体系填补物理智能标准空白 为新型工业化提供技术支撑

我国首创"格物"评测体系填补物理智能标准空白为新型工业化提供技术支撑