当前,大语言模型在多轮对话、长文本生成与知识密集型任务中呈现出较为普遍的“答后忘前”现象:模型在连续交互中对早期关键信息的保持能力有限,面对需要持续引用人物关系、约束条件或历史偏好的场景,容易出现设定漂移、要点遗漏甚至逻辑冲突。
对于企业客服、医疗问诊、软件开发等高风险或高一致性要求的行业应用,这类问题不仅影响体验,更可能带来合规与安全隐患,成为通用能力向行业系统化落地过程中的突出短板。
从原因看,这一短板与主流基础架构的计算范式密切相关。
研究界普遍认为,模型依赖的“上下文窗口”并不等同于类人的工作记忆:当对话轮次增加或推理步骤变多,早期信息会在注意力竞争中逐步衰减,被新输入覆盖;而在长文本生成中,情节线索与约束条件若不能被稳定“保留”,就容易导致前后不一致。
更关键的是,在现行密集注意力计算模式下,记忆存储与逻辑推理往往共享同一套计算资源。
换言之,模型既要“记得更多”,又要“算得更深”,天然存在资源竞争;在算力预算有限的条件下,性能与成本之间的矛盾会被进一步放大。
在此背景下,DeepSeek团队于1月12日晚发布梁文锋署名论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,提出“条件记忆”概念,并给出名为Engram的架构设想,试图为大模型引入可扩展查找机制,从结构层面改善知识检索效率。
论文的核心判断是:语言建模本质上包含两类不同子任务——一类是组合式推理,依赖深层、动态计算完成;另一类是知识检索,面向命名实体、事实性信息与相对静态的语言模式,理论上可通过更直接的查找方式处理。
然而,现有Transformer架构缺乏原生的“查找组件”,当遇到静态信息时往往仍要通过多层网络反复重建,从而造成推理阶段的大量冗余计算,推高成本并限制规模化部署。
从影响看,这种低效会在两类场景中尤为突出:其一是长上下文任务。
随着输入增长,密集注意力带来的计算开销显著上升,同时信息“保真度”却未必同步提升;其二是知识密集型任务,固定知识与常见模式占比高,但仍被迫走复杂推理路径,导致算力用于“记忆相关操作”的比重过大。
若不能在架构层面进行分工优化,大模型在行业端的使用成本、延迟与能耗压力将持续存在,也会影响在边缘设备和算力受限环境中的推广。
围绕对策,论文所指向的方向是以“稀疏性”为新的突破口:通过条件触发的记忆访问,把一部分可被查找解决的问题从密集计算中分离出来,让模型在需要推理时保持足够的计算深度,在需要检索时走更高效的路径。
相比单纯扩大参数规模或加长上下文窗口,这一路径强调结构性降本——把“记忆”作为可扩展模块进行组织,在一定程度上减少重复计算、降低错误累积的概率,并为系统在不同任务间动态分配资源提供可能。
需要看到,记忆与计算“解耦”并非简单的工程拼接,其落地仍面临一系列关键问题:查找机制如何保证准确召回并避免引入噪声;外显记忆与模型内部表征如何协同更新;在跨领域数据分布变化时,记忆模块如何保持鲁棒性;以及在隐私与安全要求较高的应用中,记忆存储与访问如何实现可控、可审计。
这些问题的解决,将决定该方向能否从研究概念走向大规模商用。
从前景判断看,随着大模型从“会说”走向“会用”、从通用助手走向行业系统,低成本、低延迟、强一致性的需求将持续上升。
以查找驱动的条件记忆与稀疏化计算,可能与模型压缩、推理加速、检索增强等技术路线形成互补,成为下一阶段优化体系的重要一环。
业内预计,未来的竞争将不止于模型规模,更在于架构设计、系统工程与应用场景的协同:能否在保证可靠性的前提下,把算力用在“真正需要计算的地方”,将成为衡量技术成熟度的关键指标之一。
这项突破不仅揭示了人工智能发展进程中"重计算轻存储"的认知误区,更展现出我国科研团队在基础架构创新方面的战略眼光。
当全球科技竞争聚焦于参数规模竞赛时,对底层技术原理的深度重构或将开辟更具可持续性的发展路径。