2030年asic能达到40% ，这可是个大动作

给大家聊一下AI服务器的市场走向，2030年ASIC这块儿能达到40%，这可是个大动作。TrendForce集邦咨询刚出了个报告，说因为像Amazon这些云服务商（CSP）自己开始研发芯片，NVIDIA这次在GTC 2026上的重点变了，不光盯着训练，更要把推理应用做落地。他们弄了GPU、CPU还有LPU这些产品线去分别打训练和推理的市场，还搞了那种Rack整合方案来带动供应链。因为Google和Amazon这些大厂都在搞自研芯片，估计ASIC的出货比例会从2026年的27.8%一路涨上去，到了2030年差不多能占到40%。NVIDIA为了保住老大的位子，出了GB300、VR200这种把CPU和GPU合在一起的机柜系统，强调要扩展到推理应用。他们这次发布的Vera Rubin被说成是高度垂直整合的系统，里头有七款芯片和五款机柜。你看他们供应链的进度就知道，内存厂家大概能在2026年第二季度把HBM4给Vera Rubin用上，这样NVIDIA就能在第三季前后开始出货这个芯片了。至于GB300 Rack系统，它在2025年第四季就把GB200给挤下来当主力了，到了2026年的出货量预计能占到将近80%。VR200 Rack大概是在2026年第三季度末才慢慢开始出货。另外，AI现在从生成转向了代理模型时代，生成Token的时候那个译码过程慢得要命，存储器带宽也不够用。为了解决这个问题，NVIDIA把Groq团队的技术拿过来做了个Groq 3 LPU，专门用来做低延迟推理的。一颗里头就有500MB的SRAM，整个机柜加起来能达到128GB。不过LPU自己的内存装不下Vera Rubin那么大的参数和KV Cache。所以这次GTC上NVIDIA提出了一个“解耦合推理”的架构。他们通过一个叫Dynamo的系统把整个流水线切成两半：处理那种需要大量数学运算和储存大KV Cache的Pre-fill、Attention阶段时，就交给Vera Rubin去做；而那些受限于带宽、对延迟特别敏感的译码和生成Token阶段呢，直接交给那些扩展了大容量存储器的LPU机柜去执行。现在看供应链的情况，第三代Groq LP30交给三星代工已经在全面量产了，预计2026年下半年就能出货。以后计划在下一代Feynman架构里推出性能更强的LP40芯片。