DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

智东西（公众号：zhidxcom）
作者 | 骏达王涵
编辑 | 心缘

智东西1月13日报道，昨晚，DeepSeek又开源了，还发布一篇新论文。这次，他们提出了一种全新的“条件记忆”机制——Engram，旨在让MoE模型在保持巨量参数的同时，更高效地处理语言信息。

DeepSeek创始人兼CEO梁文锋、北大王选计算机研究所的赵东岩和张辉帅教授都在论文中署名。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

Engram架构的核心优势在于以更低成本实现更优性能。训练计算量较MoE减少18%的情况下，在32768个token的长上下文任务中，Engram在RULER基准测试中反超同参数量MoE模型。

并且，其浅层部署的记忆模块接管局部依赖与静态知识存储，为注意力机制腾出容量以专注全局推理，1000亿参数记忆表卸载后使H800推理吞吐量降幅不足3%。

DeepSeek还观察到，增加记忆槽位数量能持续、稳定地降低验证损失，这意味着Engram提供了一个可预测的Scaling新手段：增大记忆容量持续带来收益，而无需增加计算量。

那这种效果究竟是如何实现的呢？如今的MoE模型虽然在计算层面做到了稀疏化，但是它处理信息的方式仍然很费劲：有些老生常谈的事实性内容，比如常见的名字、公式或固定表达，模型却要重复计算，非常耗时间。

DeepSeek的做法是，把这些“固定知识”提前整理成一个可以快速查询的表格，这样就能把更多精力放在真正需要深度思考的任务上，比如复杂推理或者理解长段文本。

值得一提的是，论文的第一作者Xin Cheng（程信）目前在北京大学智能学院攻读博士学位，主要研究大模型的高效参数化方法和机制。他同时也在DeepSeek工作，R1、V3的研究都参与了，很有可能是实习生。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

在论文摘要中，DeepSeek提出，条件记忆（conditional memory）将成为下一代稀疏模型中不可或缺的建模原语。这或许意味着DeepSeek-V4有望整合条件记忆机制，实现知识高效检索与推理能力的飞跃。

论文链接：

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

项目链接：

https://github.com/deepseek-ai/Engram

一、Transformer缺乏知识检索机制，经典𝑁-gram架构提供启发

在正式介绍新型记忆机制前，DeepSeek团队首先提出了一项重要的观察。

稀疏性已经成为了智能系统的核心设计原则，在大模型领域，其具体实现就是MoE（混合专家模型）。但是，现有的标准Transformer本质上没有真正的知识检索机制，导致现有大模型不得不在早期层中通过昂贵计算来“重建”静态知识，浪费了宝贵的模型深度。

因此，DeepSeek认为有必须要提出第二个与条件计算互补的稀疏维度：条件记忆。条件记忆则依赖稀疏的查找操作，为固定知识检索静态嵌入表示，适合命名实体、固定表达等静态且高度模式化的语言表示。

DeepSeek他们向经典的𝑁-gram结构引入了现代化的条件记忆模块，包括分词器压缩、多头哈希、上下文化门控以及多分支集成等，最终提出了Engram。

下图是Engram的基本架构，通俗地说，Engram就是给Transformer加个外接记忆库，并把当前token附近的一小段内容，用快速、省参数的方式，去一个超大的静态记忆表里查到对应内容。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

二、多管齐下打造新型记忆机制，天然支持参数存储与计算资源解耦

这个记忆库该如何具体实现呢？

首先，DeepSeek团队对分词器（tokenizer）进行了压缩。普通的分词器会把Apple、apple、APPLE这些单词当成完全不同的东西，但是对人来说其实差别不大。

Engram先把词表清洗了一遍，全部转小写，Unicode规范化（NFKC）。最后，一个原本128k的词表，实际只剩下77%，有23%的token ID被合并了。这让 $N$ -gram记忆的密度明显提升了。

不过，直接对所有𝑁-gram进行建模是不可行的，参数会指数级增长。DeepSeek团队引入了多头哈希记忆（Multi-Head Hashing），在固定参数预算下近似大规模𝑁-gram表，降低哈希碰撞引入的语义噪声。

上述检索机制提供的记忆是静态的，缺乏上下文适应性，易受歧义与冲突的影响，这一问题可通过上下文感知门控（Context-aware Gating）来解决。为进一步扩大感受野并增强非线性建模能力，模型还引入了一个深度可分离因果卷积。

DeepSeek团队采用多分支架构作为默认主干网络，而非标准的单流残差连接（这是何恺明此前的研究成果）。多分支架构把残差流扩展为M个并行分支，但共享记忆表和输出映射。这样设计的好处是，它可以一次性用矩阵乘法搞定多条分支的计算，GPU用得非常高效。

Engram的核心优势在于记忆检索完全依赖输入token，而非运行时的隐藏状态。这种确定性机制实现了参数存储与计算资源的解耦，支持训练和推理阶段采取专门的优化策略：

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

▲Engram训练和推理阶段可采用不同优化策略

训练优化：通过将超大嵌入表分片至多张GPU，利用All-to-All通信按需收集对应行，使总记忆容量随GPU数量线性扩展。

推理优化：由于可提前确定待查询记忆，系统可从主机内存异步预取，同时在前几层计算期间隐藏通信延迟，实现预取与计算的重叠，避免GPU停顿。

硬件-算法协同设计：Engram在模型中的放置位置需平衡建模性能与系统延迟。较早引入有助于局部模式重建，较深放置则延长延迟隐藏窗口，需兼顾二者优化。

层次化存储：基于自然语言𝑁-gram的Zipf分布特性，可采用多级缓存策略，高频嵌入存放于GPU HBM或主机DRAM，低频嵌入置于SSD。这使Engram能扩展至超大规模记忆，同时保持低延迟与高效率。

三、两个模块资源二八分成，互补性获验证

接下来，DeepSeek团队研究了另一个关键问题——条件计算和条件记忆这两种稀疏模式该怎么配合，才能发挥最佳效果？

实验发现，在有限资源下，把所有空闲参数都给MoE（也就是纯MoE模型）不是最优解，最好的效果是大约75%-80%给MoE，其余20%-25%给Engram。

如果完全由MoE主导，模型缺乏静态模式的专用记忆，只能靠计算反复重建，效率低。而如果完全由Engram主导，模型失去了动态计算能力，无法应对需要上下文理解的任务。

这条U型曲线，验证了两个模块的结构互补性：

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

前面这一实验探索的是在固定参数参数预算下的分配优化，那么如果把记忆大幅度扩展，会发生什么？

实验发现，在MoE主干网络不变的情况下，附加Engram表。结果显示，增加记忆槽位数量能持续、稳定地降低验证损失。

在探索范围内，曲线严格遵循幂律（对数空间线性）。DeepSeek认为，这意味着Engram提供了一个可预测的Scaling新手段：增大记忆持续带来收益，而无需增加计算量。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

同时，相比别的只做简单平均的记忆方法（比如OverEncoding），Engram的Scaling潜力更大，性能提升更明显。

这些结果验证了条件记忆作为稀疏容量的独立可扩展维度，与MoE的条件计算形成互补。

四、架构训练计算量少18%，性能反超MoE

验证了架构、技术路径的可行性，DeepSeek团队的下一步就是进行大规模的Scale，验证这种方式在实际语言模型预训练中的有效性。

具体而言，DeepSeek训练了四个模型：Dense-4B、MoE-27B、Engram-27B、Engram-40B。训练时的语料库、分词器都使用了相同的设置，而后两个模型引入了Engram机制，用于研究在模型大小不变和Engram进一步扩展后的特性。

结果显示，在相同算力和参数量的情况下，Engram-27B能在MoE-27B的基线上去取得持续提升，并且这些增益并不仅限于知识密集型任务。通用推理任务、代码与数学推理任务从中得到的提升甚至更为显著，

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

这些结果支持了DeepSeek的假设：引入专门的知识查找原语（knowledge lookup primitive）能够提升表示效率，这超出了仅将整个稀疏预算用于条件计算所能达到的效果。

最后，将模型扩展到Engram-40B进一步降低了预训练损失，并在大多数基准上提升了性能。虽然它尚未在每个任务上严格优于Engram-27B，但这很可能是训练不足的结果。

DeepSeek团队观察到，在训练结束时，Engram-40B与基线模型之间的训练损失差距仍在扩大，这表明在当前的token预算下，扩展的记忆容量尚未完全发挥其潜力。

接着，DeepSeek团队用MoE-27B与Engram-27B作为对照组，均使用了5000步（约300亿token）的高质量长上下文数据进行微调，然后他们采用DeepSeek-V3中的YaRN技术，将模型的上下文窗口扩展到32768个token。

实验结果显示，由于Engram模块接管了局部依赖的建模，它为模型的注意力机制腾出了容量，使其能更专注于处理全局上下文。因此，Engram架构在处理超长文本和长程推理任务上比传统架构表现更好，具体表现如下：

在架构方面，在排除了基础模型能力差异的情况下，Engram-27B依然显著优于MoE-27B。

在复杂的检索任务RULER基准测试中，Engram表现出了更强的长程依赖处理能力。例如在多查询Multi-Query NIAH任务中，Engram准确率大幅领先。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

▲长上下文性能比较基准测试

计算效率方面，即使只用了82%的预训练计算量，Engram-27B的表现依然能与完全训练的MoE-27B基线模型持平，甚至在RULER基准上实现超越。

这证明了Engram架构具有极高的训练效率，能用更少的计算资源达到同等或更好的长上下文性能。

五、Engram浅层效果更好，对事实性知识影响较大

而后，DeepSeek团队对Engram模型进行了深入的机制分析和消融实验。核心目的是回答“Engram到底是如何工作的？它的各个组件有什么用？”这两个问题。

首先是模型深度与表征分析，DeepSeek团队通过LogitLens分析显示，Engram模型在早期层就能更快地收敛到最终预测结果，因为它通过查表直接获取了静态知识，不需要像传统模型那样通过多层计算来重组基础特征。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

▲表征对齐和收敛速度分析

中心核对齐分析发现，Engram的浅层在表征上与纯MoE模型的深层高度相似。这意味着Engram让模型在更少的层数内完成了同等复杂的特征提取，在功能上等同于增加了模型的有效深度。

在架构消融实验中，研究人员发现将Engram模块放在较浅的层，如第2层，效果最好。这样可以尽早卸载模型背负的局部模式重建任务，让后面的深层网络专注于复杂的全局推理。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

▲结构消融实验结果

研究人员还发现，分支特定融合、上下文感知门控和分词器压缩对性能影响最大，去掉任何一个都会导致验证损失显著上升，而次要组件轻量级卷积层的影响则较小。

如果把Engram“关掉”，模型在哪些任务上会崩溃？为回答这个问题，DeepSeek团队进行了功能敏感性分析。他们测试在推理时强制屏蔽Engram模块的输出，观察性能下降情况。

结果显示，在事实性知识方面，模型性能灾难性下降，仅保留约29-44%的性能。这证明Engram是模型存储参数化知识的主要仓库。

️但在阅读理解方面，模型性能几乎不受影响，保留约81-93%。这证明涉及上下文推理的任务主要由Transformer的骨干网络处理，而非记忆模块。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

▲功能敏感性分析结果

在系统效率与推理吞吐上，由于Engram的访问模式是预先可知的，不像MoE需要根据隐藏状态动态路由，系统可以提前从内存中预取数据。

即使将一个1000亿参数的Engram表卸载到主机内存，其在H800硬件上的推理吞吐量下降也不到3%，这证明了Engram能以极低的代价实现参数量的大幅扩展。

此外，Engram的门控机制会在遇到静态模式时被激活，即变红。具体表现为当模型遇到多词实体、固定短语或中文成语以及历史名词时，Engram会被激活进行检索；而在处理需要动态推理的文本时，其门控则保持关闭。

DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

▲门控机制激活

六、Engram内化记忆，与Attention机制互补

最后，DeepSeek团队将Engram与MoE、外部记忆与检索增强、长上下文建模以及表征学习与知识蒸馏进行了对比。

传统MoE是Engram的“前辈”，它通过稀疏激活来扩展模型容量。Engram解决了传统MoE在超大规模下路由成本高、训练不稳定的问题，提供了一种更高效的扩展路径。

对比外部记忆与检索增强（RAG）这类工作通常是在模型外部挂一个数据库，在推理时实时检索。而Engram是内化的记忆，它在预训练阶段就把海量知识消化并固化到了参数化的记忆表中，这使得它比传统RAG具有更低的延迟和更强的知识一致性。

长上下文建模这一领域的研究则主要关注如何让模型的注意力机制处理更长的序列。DeepSeek团队强调，Engram并不是要取代注意力机制，而是与之互补。Engram负责处理局部的、静态的上下文依赖，从而让注意力机制能更专注于处理全局的、动态的长程依赖。

对于表征学习与知识蒸馏来说，Engram提供了一种新的视角——将模型的知识解耦为通用推理能力和特定知识库。

这种解耦结构天然适合进行知识蒸馏，因为未来的研究团队可以选择只蒸馏轻量级的骨干网，而将庞大的知识库作为可插拔的附件。

结语：Engram将实现低成本超大规模扩展，逼近AGI

Engram架构的核心思想就是通过解耦来实现效率与性能的平衡。

它成功地将“局部模式重建”从复杂的Transformer骨干网中剥离出来，交由专门的记忆模块处理。这种设计使得模型在保持强大推理能力的同时，能够以极低的成本扩展到超大规模。

DeepSeek团队认为，Engram不仅仅是一个学术上的新模型，它具有很强的工程落地价值。

由于记忆模块的访问具有确定性，Engram可以进行高效的预取和硬件优化，非常适合大规模部署。

而且，既然知识集中在Engram表中，未来或许可以通过直接修改这个表来修正模型的知识错误，而无需进行昂贵的微调。

但目前的Engram是在预训练时“固化”的。未来的一个重要方向是让这个记忆模块具备在线学习或动态更新的能力，让模型能实时获取新知识。

例如，未来的研究可以将Engram扩展到多模态领域，建立一个通用的多模态记忆库。研究人员还可以继续探索是否能将模型解耦为更多专用模块，以进一步逼近AGI（通用人工智能）的效率。

一、Transformer缺乏知识检索机制，经典𝑁-gram架构提供启发

二、多管齐下打造新型记忆机制，天然支持参数存储与计算资源解耦

三、两个模块资源二八分成，互补性获验证

四、架构训练计算量少18%，性能反超MoE

五、Engram浅层效果更好，对事实性知识影响较大

六、Engram内化记忆，与Attention机制互补

结语：Engram将实现低成本超大规模扩展，逼近AGI

相关推荐