清华联合腾讯混元斩获MLSys2026MoE推理挑战赛冠军，NPU推理提速4.1倍

清华大学存储实验室与腾讯混元AI Infra团队近日联合宣布，在国际机器学习系统顶级会议MLSys2026举办的MoE模型推理优化挑战赛中荣获全球冠军。

面对万亿参数时代混合专家（MoE）架构在异构芯片(NPU)上的推理性能瓶颈，联合团队针对官方指定模型及NPU硬件设计了全链路优化方案。通过引入按专家拆分双核任务的E-Shard策略、PSUM三维张量批量读出、打散输出至多Bank并发的GEMV路径，以及利用标量引擎降低初始搬运延迟等组合拳，团队成功攻克了数据搬运不充分、激活反复搬运等底层算子痛点。

同时，针对注意力模块，团队重构片上数据布局并融合Transformer关键算子，实现了比特级高精度对齐。

图3:MoE 优化结构示意图，包含E-Shard专家切分、连续 DMA、PSUM/GEMV并发、冷启动流水和预取控制。

在此次角逐中，团队还联合研发了基于Agent的推理算子优化器“Knight”，通过方案提出、代码落地与复盘迭代的自动化闭环，大幅拓展了优化搜索空间。最终，该方案将模型端到端推理时间由14.91s缩短至3.56s，性能加速达4.1倍;单步解码延迟从12.63ms降至5.45ms，权重加载期间的DMA引擎利用率攀升至约80%。

击败Stanford、MIT等国际顶尖高校夺冠，不仅彰显了我国团队在大模型底层系统适配与算子优化上的深厚积累，也为未来超节点算力平台部署万亿参数MoE模型提供了极具价值的工程范式。

OpenAI 前研究员田永龙被曝加入腾讯混元多模态团队

OpenAI前研究员田永龙已加入腾讯，或将担任混元多模态模型负责人，主导视觉语言模型（VLM）研发。消息尚未官宣但备受业界关注，继姚顺雨之后，他成为混元团队引进的又一核心人才，显示腾讯正加速强化多模态大模型领域的人才与技术布局。

清华联合腾讯混元斩获MLSys2026MoE推理挑战赛冠军，NPU推理提速4.1倍

相关推荐

腾讯混元发布科研智能体Hyra-1.0，单一框架打通AI研发与科学发现

腾讯混元 Hy3 发布首周调用量增超 68 倍，登顶 OpenRouter 全球榜单

调用量火爆致算力承压，WorkBuddy 完成腾讯混元 Hy3 模型紧急扩容

OpenAI又走一员大将：田永龙疑似投奔腾讯混元，将执掌多模态方向

OpenAI 前研究员田永龙被曝加入腾讯混元多模态团队