DeepSeek发布新论文探索大模型记忆机制将知识检索与逻辑推理分离以降低算力消耗

当前，大语言模型在多轮对话、长文本生成与知识密集型任务中呈现出较为普遍的“答后忘前”现象：模型在连续交互中对早期关键信息的保持能力有限，面对需要持续引用人物关系、约束条件或历史偏好的场景，容易出现设定漂移、要点遗漏甚至逻辑冲突。

对于企业客服、医疗问诊、软件开发等高风险或高一致性要求的行业应用，这类问题不仅影响体验，更可能带来合规与安全隐患，成为通用能力向行业系统化落地过程中的突出短板。

从原因看，这一短板与主流基础架构的计算范式密切相关。

研究界普遍认为，模型依赖的“上下文窗口”并不等同于类人的工作记忆：当对话轮次增加或推理步骤变多，早期信息会在注意力竞争中逐步衰减，被新输入覆盖；而在长文本生成中，情节线索与约束条件若不能被稳定“保留”，就容易导致前后不一致。

更关键的是，在现行密集注意力计算模式下，记忆存储与逻辑推理往往共享同一套计算资源。

换言之，模型既要“记得更多”，又要“算得更深”，天然存在资源竞争；在算力预算有限的条件下，性能与成本之间的矛盾会被进一步放大。

在此背景下，DeepSeek团队于1月12日晚发布梁文锋署名论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》，提出“条件记忆”概念，并给出名为Engram的架构设想，试图为大模型引入可扩展查找机制，从结构层面改善知识检索效率。

论文的核心判断是：语言建模本质上包含两类不同子任务——一类是组合式推理，依赖深层、动态计算完成；另一类是知识检索，面向命名实体、事实性信息与相对静态的语言模式，理论上可通过更直接的查找方式处理。

然而，现有Transformer架构缺乏原生的“查找组件”，当遇到静态信息时往往仍要通过多层网络反复重建，从而造成推理阶段的大量冗余计算，推高成本并限制规模化部署。

从影响看，这种低效会在两类场景中尤为突出：其一是长上下文任务。

随着输入增长，密集注意力带来的计算开销显著上升，同时信息“保真度”却未必同步提升；其二是知识密集型任务，固定知识与常见模式占比高，但仍被迫走复杂推理路径，导致算力用于“记忆相关操作”的比重过大。

若不能在架构层面进行分工优化，大模型在行业端的使用成本、延迟与能耗压力将持续存在，也会影响在边缘设备和算力受限环境中的推广。

围绕对策，论文所指向的方向是以“稀疏性”为新的突破口：通过条件触发的记忆访问，把一部分可被查找解决的问题从密集计算中分离出来，让模型在需要推理时保持足够的计算深度，在需要检索时走更高效的路径。

相比单纯扩大参数规模或加长上下文窗口，这一路径强调结构性降本——把“记忆”作为可扩展模块进行组织，在一定程度上减少重复计算、降低错误累积的概率，并为系统在不同任务间动态分配资源提供可能。

需要看到，记忆与计算“解耦”并非简单的工程拼接，其落地仍面临一系列关键问题：查找机制如何保证准确召回并避免引入噪声；外显记忆与模型内部表征如何协同更新；在跨领域数据分布变化时，记忆模块如何保持鲁棒性；以及在隐私与安全要求较高的应用中，记忆存储与访问如何实现可控、可审计。

这些问题的解决，将决定该方向能否从研究概念走向大规模商用。

从前景判断看，随着大模型从“会说”走向“会用”、从通用助手走向行业系统，低成本、低延迟、强一致性的需求将持续上升。

以查找驱动的条件记忆与稀疏化计算，可能与模型压缩、推理加速、检索增强等技术路线形成互补，成为下一阶段优化体系的重要一环。

业内预计，未来的竞争将不止于模型规模，更在于架构设计、系统工程与应用场景的协同：能否在保证可靠性的前提下，把算力用在“真正需要计算的地方”，将成为衡量技术成熟度的关键指标之一。

这项突破不仅揭示了人工智能发展进程中"重计算轻存储"的认知误区，更展现出我国科研团队在基础架构创新方面的战略眼光。

当全球科技竞争聚焦于参数规模竞赛时，对底层技术原理的深度重构或将开辟更具可持续性的发展路径。

DeepSeek发布新论文探索大模型记忆机制 将知识检索与逻辑推理分离以降低算力消耗

DeepSeek发布新论文探索大模型记忆机制将知识检索与逻辑推理分离以降低算力消耗