传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出了一项名为 Engram 的创新模块,为稀疏大语言模型(LLM)引入了一个高效的“条件记忆轴”。

与现有的混合专家模型(MoE)不同,Engram 并不是要取代它,而是作为一种补充,将经典的 N-gram 嵌入技术现代化,转化为一种可扩展的、查询复杂度为 $O(1)$ 的查找存储库。简单来说,Engram 就像是模型的一个“快捷记忆本”,专门存储常见的短语、实体等静态模式,让模型骨干网络能够腾出精力去处理更复杂的推理和长距离交互。
在实际应用中,
此外,Engram 在长文本处理上也表现出色。在扩展到32,768个 token 的上下文窗口后,Engram 模型在多查询“大海捞针”(NIAH)和变量跟踪等任务中均展现了更强的准确性。这种设计不仅提升了模型的知识储备,还通过分担静态重构任务,实际上变相增加了模型的有效深度,让 AI 变得更加聪明且高效。
划重点:
🧠 创新架构:
引入 Engram 模块,通过 $O(1)$ 哈希查找实现静态知识的高效检索,让模型骨干更专注于逻辑推理。DeepSeek 📈 性能飞跃: 在同等计算资源下,引入 Engram 的27B 和40B 模型在 MMLU、数学及代码等核心榜单上全面超越传统的 MoE 架构。
📑 长文本增强: 该技术显著提升了模型在长上下文环境下的召回能力,在32k 长度的测试中表现优异,且有效降低了预测所需的层间损耗。
