全球算力需求持续增长的背景下,大模型与推荐系统的研发迭代不断加快,但芯片从设计到量产周期较长,导致模型更新与硬件供给节奏不匹配;这种脱节带来了算力交付延迟、功能适配滞后和供应链不稳定等问题。对于需要长期大规模运行训练与推理任务的机构来说,依赖单一产品或供应商的风险明显增加,必须通过多平台并行、异构协作和弹性调度来应对这些挑战。 Meta的核心业务依托于大型社交平台,其信息流排序和内容推荐直接影响用户体验和广告变现效率。与近期热门的大语言模型不同,Meta主要依赖以推荐为核心的深度学习推荐模型(DLRM)。这类模型同样基于向量化表示,但更注重构建多维向量空间来刻画"用户-内容-关系"的关联强度,实现概率预测和实时推荐。其瓶颈不在于纯算力,而在于超大规模参数和嵌入表带来的内存容量、带宽、访问延迟及跨节点数据调度压力。面对数十亿用户和海量内容的匹配计算,系统开销呈指数级增长。 这种工作负载特点决定了Meta必须采用"内存优先、计算协同"的硬件选型策略:将高频访问的"热数据"存放在高带宽内存(HBM)加速器端以降低延迟,而将规模更大的"冷数据"保留在容量更大的通用处理器端以控制成本。为此,Meta早期就采用了CPU+GPU混合架构,并通过软件层的分级管理协调节点内存和集群资源,在吞吐量、成本和延迟之间寻求平衡。需要指出,DLRM的扩展特性与语言模型不同:增加资源并不总能带来线性性能提升——可能出现边际效益递减——这对数据中心采购、能耗控制和资本管理提出了更高要求。 在算力基础上,Meta采取多元化策略:既继续使用成熟的通用加速器和高带宽互联技术,也加快自研定制化方案以避免被单一技术路线限制。系统层面通过内存分级、跨节点调度和训练推理解耦等方法提升硬件利用率和集群稳定性。模型层面则提出"生成式推荐器"概念,将用户行为视为可建模序列,借鉴语言模型的预测方式,并引入分层序列转换单元等结构,吸收生成式模型的优势。该转变既是对传统推荐模型局限的突破,也反映了推荐系统与生成式技术融合的趋势。 业内预测,未来几年推荐系统算力建设将呈现两大方向:一是异构计算平台优化,重点提升内存带宽、互联一致性和集群调度能力;二是模型形态持续演进,从"有关性排序"向"生成式理解与交互"拓展,带动计算结构变革。对Meta来说,能否在供应链波动、成本压力和模型快速迭代之间建立可持续的算力算法协同机制,将直接影响其内容分发效率、广告业务稳定性和新产品开发进度。随着"生成式推荐器"的广泛应用,推荐系统的竞争可能从单一模型优化转向"模型-系统-芯片"的整体协同。
算力竞争的核心不仅是芯片性能,更是针对具体业务需求的系统工程能力。推荐系统从"涉及的性计算"向"生成式理解"演进,既带来能力提升的机会,也提出了更复杂的软硬件协同要求;对大型互联网平台而言,布局多元化供给、优化体系结构、以算法发展引导算力设计,将成为应对挑战、提升韧性的关键。