ai 技术的快速发展引发了对算力需求的剧变

AI技术的快速发展引发了对算力需求的剧变。根据OpenRouter平台提供的信息，多步骤推理正在逐步替代传统的单轮交互。这一点通过Anthropic的实测数据得到了验证：单个Agent对Token的消耗已经达到了对话模式的4倍，而多Agent系统的消耗更是高达15倍。此外，GitHub星标数也能反映出这种变化。OpenClaw框架发布仅四个多月就获得了24.8万的星标，超过了全球其他开源项目。这些迹象表明，人工智能从Prompt转向长Agent的范式跃迁已经开启。算力需求的增长是由多个因素共同作用造成的。首先，大模型自注意力机制的计算成本与上下文长度呈二次方增长。而且，在推理过程中，Decode阶段受到内存带宽的限制。随着KVCache随上下文线性膨胀，GPU的利用率逐渐下降，吞吐瓶颈变得日益突出。主流厂商也采取了分档定价的策略来体现这些物理成本。谷歌和阿里云都采用了按上下文长度进行阶梯定价的方式。其次，多Agent协作架构的兴起引入了额外的通信开销维度。根据Gartner提供的数据显示，从2024年一季度到2025年第二季度，企业对多Agent系统的询盘量暴增了1445%。Google DeepMind的研究还指出，并行Agent之间传递全局上下文会产生不可避免的“协调税”，导致通信成本随着Agent数量非线性扩大。最后，杰文斯悖论进一步放大了上述效应。微软CEO纳德拉预测，模型推理效率提升带来的成本下降反而会刺激使用量以更快速度增长。随着Agent运行时长的持续增加，对内存带宽、互联吞吐和智能计算密度的需求也将持续以非线性速率扩张。国金证券认为这种变化给产业链带来了投资机会。他们关注的是那些能应对这些新挑战并从中受益的公司。随着2026年1月技术博客发布，NVIDIA明确指出下一代AI工厂必须具备处理数十万输入Token的能力，以支持Agentic推理所需的长上下文环境。在可见未来中，对于内存带宽、互联吞吐和智能计算密度这些关键资源的需求将持续增加。