传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出了一项名为 Engram 的创新模块,为稀疏大语言模型(LLM)引入了一个高效的“条件记忆轴”。

image.png

与现有的混合专家模型(MoE)不同,Engram 并不是要取代它,而是作为一种补充,将经典的 N-gram 嵌入技术现代化,转化为一种可扩展的、查询复杂度为 $O(1)$ 的查找存储库。简单来说,Engram 就像是模型的一个“快捷记忆本”,专门存储常见的短语、实体等静态模式,让模型骨干网络能够腾出精力去处理更复杂的推理和长距离交互。

在实际应用中,DeepSeek团队在包含2620亿 token 的数据集上进行了预训练测试。实验结果显示,通过将约20% 到25% 的稀疏参数预算分配给 Engram 内存,模型的验证损失得到了显著优化。在 Engram-27B 和 Engram-40B 模型的测试中,即便激活参数保持不变,模型在知识库、推理、代码和数学等多项基准测试(如 MMLU、GSM8K)中的表现均优于纯 MoE 基准模型。

此外,Engram 在长文本处理上也表现出色。在扩展到32,768个 token 的上下文窗口后,Engram 模型在多查询“大海捞针”(NIAH)和变量跟踪等任务中均展现了更强的准确性。这种设计不仅提升了模型的知识储备,还通过分担静态重构任务,实际上变相增加了模型的有效深度,让 AI 变得更加聪明且高效。

划重点:

  • 🧠 创新架构: DeepSeek引入 Engram 模块,通过 $O(1)$ 哈希查找实现静态知识的高效检索,让模型骨干更专注于逻辑推理。

  • 📈 性能飞跃: 在同等计算资源下,引入 Engram 的27B 和40B 模型在 MMLU、数学及代码等核心榜单上全面超越传统的 MoE 架构。

  • 📑 长文本增强: 该技术显著提升了模型在长上下文环境下的召回能力,在32k 长度的测试中表现优异,且有效降低了预测所需的层间损耗。