问题——大模型走向应用,推理成本与体验成为新瓶颈。 本周,超过3万人参加在圣何塞举行的英伟达全球技术大会。会上,英伟达首席执行官黄仁勋多次把焦点放在“推理”上:人工智能正在从能力演示走向真实生产,模型要能“思考并行动”,就必须在推理阶段的响应速度、稳定性和成本上实现突破。随着大模型从云端走进企业业务和终端产品,用户对等待的容忍度下降,推理环节的低时延、连续输出以及高并发承载,正在成为应用落地的关键门槛。 原因——训练与推理的计算逻辑不同,硬件架构面临重新分工。 业内人士指出,训练面向海量数据的并行计算,周期可能长达数周,更依赖高吞吐算力和大容量显存;推理则由用户请求触发,强调端到端延迟和数据流效率,同时不需要训练阶段那套高成本的反向传播流程。随着“训练一次、推理多次”逐渐成为主流模式,推理在总体算力消耗中的占比不断抬升,推动硬件从“通用加速”走向“按任务优化”,也带动GPU与推理专用处理器并行发展的趋势。 影响——专用推理芯片加速涌现,核心竞争转向内存带宽与数据流。 大会上,英伟达在发布新一代Vera Rubin GPU的同时,推出Groq 3 LPU(语言处理单元),被外界视为其在推理芯片方向的重要布局。据介绍,该产品融合了英伟达此前与初创企业Groq合作获得的对应的知识产权。与传统GPU更强调“算力+显存容量”不同,Groq 3 LPU把重点放在更简化的数据通路上,以改善推理时延表现:其将SRAM集成在处理器内部,并通过计算单元与存储单元的布局优化,减少数据在芯片内外往返的开销,让数据流更直接、更线性,以适配推理阶段高频、短时、连续的令牌生成需求。 从已披露的关键指标也能看出两类产品的侧重:Vera Rubin GPU配备大容量HBM显存,面向大规模训练与通用加速;Groq 3 LPU内存容量相对更小,但显著强化了内存带宽,体现出“用带宽换时延”的取向。此对比也说明,推理侧的竞争不再只看峰值算力,内存系统设计与数据流组织能力,正在更直接地决定业务吞吐和单位成本。 对策——产业需形成“训练—推理—应用”分层优化思路,降低全链路成本。 业内分析认为,推理专用芯片的兴起既来自需求拉动,也反映出技术路径的分化。过去几年,多家初创企业围绕推理加速探索了不同路线,包括数字或模拟存内计算、面向Transformer推理的专用ASIC、神经形态芯片、对数运算优化以及针对张量计算的架构改造等,显示推理市场仍处在快速试错与迭代阶段。对企业用户而言,应从业务目标出发,打通模型选型、量化策略、服务编排与硬件平台之间的协同:需要高吞吐训练和通用适配的场景,仍以成熟GPU生态为主;对对话交互、检索增强生成、智能体执行等低时延推理场景,则可结合专用推理硬件与软件栈优化,降低单次调用成本,并提升服务质量的稳定性。 同时,数据中心与云服务商需要在集群层面优化资源调度以及网络、存储体系,减少“算力够但延迟高”的结构性浪费;产业链也应推进编译器、推理框架与算子库对新架构的适配,沉淀可复制的工程能力,降低企业部署门槛。 前景——算力竞争进入“应用效率时代”,推理将成为规模化落地的主战场。 随着多模态、长上下文与智能体任务增多,推理链路更长、计算更复杂、多轮调用更频繁,对低时延与稳定吞吐提出更高要求。可以预期,在未来一段时间里,训练端仍将追求规模与能效,推理端则更强调面向场景的系统级优化,硬件形态也会更加多元:GPU继续承担通用加速与训练主力,推理专用芯片在特定负载上提供更优的成本—性能比;,软硬件协同、数据流设计与内存系统创新,将成为影响竞争格局的关键变量。
当人工智能从实验室走向日常应用,算力基础设施的竞争也在转向新的赛道。Groq 3 LPU不仅是一款新产品,更反映出产业正在向实用化、场景化加速推进。在摩尔定律放缓的背景下,通过架构创新释放性能空间,可能为全球半导体行业打开新的增长路径。能否在这场推理变革中抢占先机,也将成为衡量各国科技战略执行力的重要指标。