专家们正在分析AI芯片里的存储技术该怎么选。虽然说高速随机存取存储器(SRAM)在某些测试里表现不错,但大家也没说它能完全取代高带宽内存(HBM)。英伟达公司的人在国际科技展会期间聊了很多,说明白了算法和硬件其实是互相影响的。 现在人工智能产业有个怪圈,一方面大模型和各种复杂的系统越来越厉害,另一方面大家又想省钱。所以大家都在琢磨怎么优化硬件、压缩算法、或者让系统配合得更好。这个时候SRAM就被拿出来说事了,因为它速度快。 不过专业的分析说这两种存储技术其实不一样,也互相补充。SRAM因为是静态的,速度很快,一般是用来当处理器内部的高速缓存。HBM用的是那种叠起来的封装技术,能在很小的地方塞下很多内存和带宽,主要用来做系统的主存。这两者在AI系统里是一起干活的。 专家们提醒咱们看存储技术不能光看速度,得看它在实际场景里行不行。现代的AI工作很不稳定,有时候会突然变个样。比如混合专家模型需要不停切换模块,多模态任务要同时处理文本、图像、音频这些乱七八糟的数据。生成式模型还得处理特别长的上下文。 这些复杂的场景要求存储子系统既要带宽大、容量多,又得延迟低、还能扩展。数据显示现在的大模型参数都有万亿级别的了,训练时要用的上下文也变得很长。这种情况下SRAM有个大问题,就是物理特性限制了密度没法再往上提了,只能装下模型的一小部分。 一旦计算任务超出了芯片上缓存的大小,系统就不得不频繁去读外面的存储了。原本的速度优势就没了,反而会被数据传输的延迟拖慢。从经济学角度看,数据中心的老板也得算笔账。专用的加速架构虽然在特定算法上能跑快点,但很快就会过时。 相比之下用HBM的通用平台虽然一开始贵点,但它灵活啊,能适应变化的工作负载。这样在运营的这几个月里利用率就高了,总体成本反而更低。 开源模型火起来之后对性能的要求反而更高了。随着社区推动功能越来越复杂——比如能处理更长的上下文、融合更多模态、控制更精细——对内存的需求就像指数函数一样涨得很快。这就让高带宽、可扩展的架构变得特别重要。 领先的芯片公司之所以一直投钱在HBM上研发,是因为他们看好未来算法的走向。通过让硬件平台保持兼容性和适应性,既不让客户被锁死在一个性能区间里,也为以后的新算法留了条后路。 这种“可选择”的设计思路说明高端芯片的思路变了:不只是追求最快的峰值性能了。现在大家更看重怎么把整个系统的效率优化好。 人工智能算力的建设现在正从摸索阶段走到深耕期了。存储架构是连接算法需求和硬件能力的关键。 所以在这个阶段选啥方案很重要。现在的情况看HBM因为在处理大规模数据、系统优化、还有长期投资保护这些方面都有优势。 未来如果新型存储器件、先进封装技术、异构计算架构能一起创新的话。 人工智能系统的存储层级就能做得更精细。 这样就能给全球的AI创新提供更高效、更经济的算力支撑了。