下个月英伟达在GTC大会上就要发布新的推理芯片了,这回他们把LPU架构给整合进去了,还打算全面转向纯CPU的部署。现在人工智能到处都是,大公司们都在忙着改架构、搭生态。有消息说,英伟达这次要把Groq开发的那种专门干语言处理的单元给用上了。这个叫"划时代产品"的处理器是专为那些需要实时响应的AI模型设计的,跟以前那种GPU不一样。他们这次的核心招数就是用SRAM密集型存储方案和3D堆叠技术,直接把计算单元和存储单元堆在一块儿,这样就突破了内存带宽和延迟的老毛病。分析师说这能让大型语言模型解码快上好几倍,能耗还能降40%以上。 市场格局变天了。OpenAI已经确认要买这种新芯片了,想给他们的代码生成工具换个大脑。之前OpenAI是和Cerebras合作的,还在用亚马逊的Trainium芯片,这次换了英伟达的方案,说明大家都急着找那种又快又省电的推理方案。 除了硬件上的创新,英伟达的生意经也变了。面对云服务商对成本的严苛要求,他们不再只盯着GPU了。这个月和Meta深度合作就是个例子:他们用纯CPU架构的数据中心给广告推荐系统提供算力。这样一来不管是训练还是推理都能搞定,在细分市场上就有了优势。 竞争越来越激烈了。Cerebras说他们的专用芯片性能超过了英伟达的GPU;亚马逊、谷歌这些云巨头也在砸钱搞自研;Anthropic这些新兴势力则是搞混合架构来防止一家独大。面对这么多对手的围剿,英伟达在搞一个包含芯片、数据中心、云服务的大生态系统。 这种算力革命是被应用层的变化逼出来的。现在Agent技术火了,企业对推理性能的需求涨得特别快。某科技巨头负责人说他们的智能客服每天要处理几亿次查询,以前用GPU太贵了撑不住。这种需求变化让产业链重新洗牌,那些能搞出创新架构的公司才有机会。 资本市场都在盯着英伟达怎么转型呢。投资机构估计推理芯片市场三年后能到千亿美元级别。要是英伟达能保持90%以上的份额,就得看这次新品到底多省电、多好兼容了。马上要开的这个大会就是检验他们成功的第一步石头。