DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升

传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”，每次遇到相同的模式都需要重新计算，这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈，DeepSeek 的研究团队近日推出了一项名为 Engram 的创新模块，为稀疏大语言模型（LLM）引入了一个高效的“条件记忆轴”。

与现有的混合专家模型（MoE）不同，Engram 并不是要取代它，而是作为一种补充，将经典的 N-gram 嵌入技术现代化，转化为一种可扩展的、查询复杂度为 $O(1)$ 的查找存储库。简单来说，Engram 就像是模型的一个“快捷记忆本”，专门存储常见的短语、实体等静态模式，让模型骨干网络能够腾出精力去处理更复杂的推理和长距离交互。

在实际应用中，DeepSeek团队在包含2620亿 token 的数据集上进行了预训练测试。实验结果显示，通过将约20% 到25% 的稀疏参数预算分配给 Engram 内存，模型的验证损失得到了显著优化。在 Engram-27B 和 Engram-40B 模型的测试中，即便激活参数保持不变，模型在知识库、推理、代码和数学等多项基准测试（如 MMLU、GSM8K）中的表现均优于纯 MoE 基准模型。

此外，Engram 在长文本处理上也表现出色。在扩展到32，768个 token 的上下文窗口后，Engram 模型在多查询“大海捞针”（NIAH）和变量跟踪等任务中均展现了更强的准确性。这种设计不仅提升了模型的知识储备，还通过分担静态重构任务，实际上变相增加了模型的有效深度，让 AI 变得更加聪明且高效。

划重点:

🧠 创新架构: DeepSeek引入 Engram 模块，通过 $O（1）$ 哈希查找实现静态知识的高效检索，让模型骨干更专注于逻辑推理。
📈 性能飞跃: 在同等计算资源下，引入 Engram 的27B 和40B 模型在 MMLU、数学及代码等核心榜单上全面超越传统的 MoE 架构。
📑 长文本增强: 该技术显著提升了模型在长上下文环境下的召回能力，在32k 长度的测试中表现优异，且有效降低了预测所需的层间损耗。

120 人团队把万亿巨头拉下马：Runway Gen-4.5 盲测夺冠，正式宣战谷歌与 OpenAI

Runway公司最新模型Gen-4.5在第三方盲测平台Video Arena中击败谷歌Veo3与OpenAI Sora2Pro，成为首个由小团队登顶的大模型。其CEO强调“专注研究、快速迭代”的可行性，并指出“一百人对万亿，靠的不是预算，而是密度”。该模型采用自研时空混合Transformer架构，展现了小团队在AI视频生成领域的突破。

DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升

相关推荐

哈萨比斯达沃斯再评中国AI：领先仅6个月，但“突破性创新”仍是关键差距

马斯克宣布 X 平台推荐算法正式开源:基于 Grok 模型架构，每四周迭代更新

英伟达推出 Nemotron 3：混合架构提升 AI 代理处理效率

120 人团队把万亿巨头拉下马：Runway Gen-4.5 盲测夺冠，正式宣战谷歌与 OpenAI

13GB显存干翻百亿巨兽：大华「星汉2.0」用一张财报给AI落地写答案

​DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升

相关推荐

哈萨比斯达沃斯再评中国AI：领先仅6个月，但“突破性创新”仍是关键差距

马斯克宣布 X 平台推荐算法正式开源:基于 Grok 模型架构，每四周迭代更新

英伟达推出 Nemotron 3：混合架构提升 AI 代理处理效率

120 人团队把万亿巨头拉下马：Runway Gen-4.5 盲测夺冠，正式宣战谷歌与 OpenAI

13GB显存干翻百亿巨兽：大华「星汉2.0」用一张财报给AI落地写答案

DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升