给大家聊一下AI服务器的市场走向,2030年ASIC这块儿能达到40%,这可是个大动作。TrendForce集邦咨询刚出了个报告,说因为像Amazon这些云服务商(CSP)自己开始研发芯片,NVIDIA这次在GTC 2026上的重点变了,不光盯着训练,更要把推理应用做落地。他们弄了GPU、CPU还有LPU这些产品线去分别打训练和推理的市场,还搞了那种Rack整合方案来带动供应链。因为Google和Amazon这些大厂都在搞自研芯片,估计ASIC的出货比例会从2026年的27.8%一路涨上去,到了2030年差不多能占到40%。NVIDIA为了保住老大的位子,出了GB300、VR200这种把CPU和GPU合在一起的机柜系统,强调要扩展到推理应用。他们这次发布的Vera Rubin被说成是高度垂直整合的系统,里头有七款芯片和五款机柜。你看他们供应链的进度就知道,内存厂家大概能在2026年第二季度把HBM4给Vera Rubin用上,这样NVIDIA就能在第三季前后开始出货这个芯片了。至于GB300 Rack系统,它在2025年第四季就把GB200给挤下来当主力了,到了2026年的出货量预计能占到将近80%。VR200 Rack大概是在2026年第三季度末才慢慢开始出货。 另外,AI现在从生成转向了代理模型时代,生成Token的时候那个译码过程慢得要命,存储器带宽也不够用。为了解决这个问题,NVIDIA把Groq团队的技术拿过来做了个Groq 3 LPU,专门用来做低延迟推理的。一颗里头就有500MB的SRAM,整个机柜加起来能达到128GB。不过LPU自己的内存装不下Vera Rubin那么大的参数和KV Cache。所以这次GTC上NVIDIA提出了一个“解耦合推理”的架构。 他们通过一个叫Dynamo的系统把整个流水线切成两半:处理那种需要大量数学运算和储存大KV Cache的Pre-fill、Attention阶段时,就交给Vera Rubin去做;而那些受限于带宽、对延迟特别敏感的译码和生成Token阶段呢,直接交给那些扩展了大容量存储器的LPU机柜去执行。 现在看供应链的情况,第三代Groq LP30交给三星代工已经在全面量产了,预计2026年下半年就能出货。以后计划在下一代Feynman架构里推出性能更强的LP40芯片。