开放数据中心委员会发布大模型推理专项评测 存储技术创新推动人工智能应用成本大幅下降

问题——大模型推理进入规模化应用阶段后,系统瓶颈正在从“算力不足”转向“数据搬运与缓存受限”。

随着上下文长度持续拉长、并发请求快速增长,推理过程中用于保存历史注意力信息的KV Cache占用空间急剧增加,GPU显存频繁触顶,带来排队、换入换出与跨层拷贝等额外开销,最终表现为首Token等待时间变长、生成过程抖动、吞吐难以提升,企业在稳定性与成本之间面临两难。

原因——一方面,长文本、多轮对话等场景成为主流应用形态,KV Cache随Token线性增长,传统“全部放在显存”的方式缺乏弹性;另一方面,高带宽显存(HBM)等高端硬件能缓解容量与带宽压力,但采购与能耗成本高,且在业务波动场景下容易出现资源闲置。

与此同时,数据中心网络与存储能力不断进步,为“显存之外的缓存扩展”提供了工程基础,但行业仍需要可复现的评测体系来验证不同架构的收益边界。

影响——ODCC AI存储实验室在相关产业链企业支持下,围绕KV Cache这一关键制约因素开展专项评测,并公布首批结果。

测试基于NVIDIA计算与网络平台的真实推理环境,选取DeepSeek-R1等主流模型,覆盖中端GDDR GPU与高端HBM GPU两类节点,并在200Gbps、400Gbps、800Gbps等不同网络带宽配置下,对比原生vLLM与集成多级缓存方案的性能差异。

结果显示,在Batch为16、输入长度约10K Tokens的典型负载下,集成多级缓存后首Token时延(TTFT)与单Token生成时间(TPOT)最高可降低97%,系统Token吞吐量最高提升22倍。

评测同时表明,当输入规模从100 Tokens扩展至100K Tokens时,相关方案在长上下文场景仍能保持稳定优势,且上下文越长,性能增益越明显,有助于避免长文本任务中常见的“性能断崖”。

对策——从工程路径看,上述提升主要来自对KV Cache存放位置与数据流转路径的重构:通过构建“显存—主机内存—本地NVMe固态盘—高性能分布式存储”的多级缓存体系,在保证热数据访问效率的同时,扩大可用缓存空间,减少显存被挤占的概率,并借助更高带宽网络降低跨层访问代价。

评测还揭示了更具现实意义的降本方向:在引入多级缓存后,中端GDDR GPU服务器的综合推理能力显著提升,与高端HBM GPU原生方案的差距明显收敛。

数据显示,原生状态下中端GPU吞吐量约为高端的30%,在多级缓存加持后可提升至约79%。

这意味着部分推理业务可在不完全依赖高端GPU的情况下获得接近的服务能力,为企业进行分层部署与弹性扩容提供了新选项。

前景——从投入产出角度测算,在400Gbps与800Gbps网络环境下,“中端GDDR GPU服务器叠加多级缓存”的方案投资回报率相对“高端HBM GPU原生方案”分别提升约11倍和14倍。

业内人士认为,这一趋势提示推理基础设施的优化空间正从单纯堆叠高端硬件,转向“算力、网络、存储协同”的系统工程:当性能提升更多由数据路径优化与存储体系创新驱动,推理业务的盈亏平衡点有望下移,中小企业部署门槛降低,大规模应用方也可在总拥有成本、能耗与供货周期等方面获得更稳健的经营预期。

与此同时,相关能力的落地仍取决于业务形态、模型特征、网络条件与软件栈适配程度,后续需要更广覆盖的公开评测与标准化工作,明确不同场景下的最佳实践与风险边界。

这场由产业协同推动的技术革新,生动诠释了"向创新要效益"的发展逻辑。

当AI产业从技术验证迈向规模商用,基础设施的每百分之一性能提升,都将转化为千万级商业价值。

此次突破启示我们,在算力瓶颈日益凸显的背景下,通过系统级创新盘活现有资源,或将成为推动AI普惠应用的关键支点。