开放数据中心委员会发布大模型推理专项评测存储技术创新推动人工智能应用成本大幅下降

问题——大模型推理进入规模化应用阶段后，系统瓶颈正在从“算力不足”转向“数据搬运与缓存受限”。

随着上下文长度持续拉长、并发请求快速增长，推理过程中用于保存历史注意力信息的KV Cache占用空间急剧增加，GPU显存频繁触顶，带来排队、换入换出与跨层拷贝等额外开销，最终表现为首Token等待时间变长、生成过程抖动、吞吐难以提升，企业在稳定性与成本之间面临两难。

原因——一方面，长文本、多轮对话等场景成为主流应用形态，KV Cache随Token线性增长，传统“全部放在显存”的方式缺乏弹性；另一方面，高带宽显存（HBM）等高端硬件能缓解容量与带宽压力，但采购与能耗成本高，且在业务波动场景下容易出现资源闲置。

与此同时，数据中心网络与存储能力不断进步，为“显存之外的缓存扩展”提供了工程基础，但行业仍需要可复现的评测体系来验证不同架构的收益边界。

影响——ODCC AI存储实验室在相关产业链企业支持下，围绕KV Cache这一关键制约因素开展专项评测，并公布首批结果。

测试基于NVIDIA计算与网络平台的真实推理环境，选取DeepSeek-R1等主流模型，覆盖中端GDDR GPU与高端HBM GPU两类节点，并在200Gbps、400Gbps、800Gbps等不同网络带宽配置下，对比原生vLLM与集成多级缓存方案的性能差异。

结果显示，在Batch为16、输入长度约10K Tokens的典型负载下，集成多级缓存后首Token时延（TTFT）与单Token生成时间（TPOT）最高可降低97%，系统Token吞吐量最高提升22倍。

评测同时表明，当输入规模从100 Tokens扩展至100K Tokens时，相关方案在长上下文场景仍能保持稳定优势，且上下文越长，性能增益越明显，有助于避免长文本任务中常见的“性能断崖”。

对策——从工程路径看，上述提升主要来自对KV Cache存放位置与数据流转路径的重构：通过构建“显存—主机内存—本地NVMe固态盘—高性能分布式存储”的多级缓存体系，在保证热数据访问效率的同时，扩大可用缓存空间，减少显存被挤占的概率，并借助更高带宽网络降低跨层访问代价。

评测还揭示了更具现实意义的降本方向：在引入多级缓存后，中端GDDR GPU服务器的综合推理能力显著提升，与高端HBM GPU原生方案的差距明显收敛。

数据显示，原生状态下中端GPU吞吐量约为高端的30%，在多级缓存加持后可提升至约79%。

这意味着部分推理业务可在不完全依赖高端GPU的情况下获得接近的服务能力，为企业进行分层部署与弹性扩容提供了新选项。

前景——从投入产出角度测算，在400Gbps与800Gbps网络环境下，“中端GDDR GPU服务器叠加多级缓存”的方案投资回报率相对“高端HBM GPU原生方案”分别提升约11倍和14倍。

业内人士认为，这一趋势提示推理基础设施的优化空间正从单纯堆叠高端硬件，转向“算力、网络、存储协同”的系统工程：当性能提升更多由数据路径优化与存储体系创新驱动，推理业务的盈亏平衡点有望下移，中小企业部署门槛降低，大规模应用方也可在总拥有成本、能耗与供货周期等方面获得更稳健的经营预期。

与此同时，相关能力的落地仍取决于业务形态、模型特征、网络条件与软件栈适配程度，后续需要更广覆盖的公开评测与标准化工作，明确不同场景下的最佳实践与风险边界。

这场由产业协同推动的技术革新，生动诠释了"向创新要效益"的发展逻辑。

当AI产业从技术验证迈向规模商用，基础设施的每百分之一性能提升，都将转化为千万级商业价值。

此次突破启示我们，在算力瓶颈日益凸显的背景下，通过系统级创新盘活现有资源，或将成为推动AI普惠应用的关键支点。

开放数据中心委员会发布大模型推理专项评测 存储技术创新推动人工智能应用成本大幅下降