问题:随着大模型从“会对话”走向“能执行”,应用逐步进入生产流程,行业关注点也从模型能力转向推理成本与响应效率。面对复杂多变的真实负载,通用算力推理后段常出现冗余和延迟,算力投入与产出越来越难匹配。 原因:一上,推理任务正分化:高并行的预填充(prefill)与追求极低时延的解码(decode)负载特征差异明显;另一上,传统单一架构很难同时兼顾高吞吐与超低时延,系统效率因此受限。英伟达在GTC2026发布Vera Rubin平台,并引入面向低延迟Token生成的LPX系列LPU,说明了产业对推理场景进行更细颗粒度优化的迫切需求。 影响:推理时代正在推动竞争焦点从“比训练规模”转向“比推理效率、比交付成本、比系统的盈利能力”。硬件架构、存储与软件的协同优化将成为企业拉开差距的关键。高效推理不仅影响单次任务成本,也直接决定大模型在制造、金融、交通等行业的落地速度与商业化空间。 对策:鉴于此,国内企业正加快技术路线布局。云天励飞提出GPNPU技术路线,围绕“PD分离”构建系统架构,规划P芯片与D芯片分别面向prefill与decode需求:前者侧重高并行算力与更大内存容量,后者强调低时延、低抖动与快速响应。同时,通过3D堆叠存储与软硬协同优化,缓解带宽与时延瓶颈,提升推理链路整体效率。业内认为,该思路与英伟达以Rubin GPU与LPX LPU分别对应不同推理阶段的策略形成呼应。 前景:随着推理需求持续增长,异构计算将从单点加速走向系统级协同,硬件设计也会更贴近真实负载。能够在芯片架构、互连、存储与软件栈之间实现一体化优化的企业,有望在新一轮竞争中获得先发优势。未来推理基础设施的演进或将重塑算力供给结构,并加速大模型在更多行业的深度应用。
从追求单点性能转向系统效率,从追求峰值转向可持续的成本与交付能力,推理时代正在重塑算力产业的评价标准;围绕真实负载推进异构协同,在工程细节中持续释放效率,将成为大模型规模化落地的关键路径,也将影响产业链各方在新周期中的竞争位置。