寒武纪宣布实现 DeepSeek-V4全系列模型 Day0适配并开源优化代码

寒武纪今日宣布，已基于 vLLM 推理框架完成对深度求索（DeepSeek）最新开源模型DeepSeek-V4全系列的“Day0”适配。此次改装涵盖285B 参数的 Flash 版本及1.6T 参数的 Pro 版本，确保模型在发布当日即可在寒武纪硬件平台上稳定运行，相关改装代码已正式开源至 GitHub 社区。

针对DeepSeek-V4独有的稀疏注意力与压缩结构，寒武纪通过自研向量融合算子库 Torch-MLU-Ops 对 Compressor 等核心模块进行了专项加速。利用 BangC 高性能编程语言，寒武纪团队编写了稀疏 Attention 及 GroupGemm 等热点算子的极致优化内核，并于 vLLM 框架中全面支持 TP/PP/SP/DP/EP 五维混合并行策略、低精度量化及 PD 分离部署。这些技术手段在满足延迟约束的前提下，显著提升了端到端推理的词元吞吐能力。

硬件层面，寒武纪深度挖掘了 MLU 的访存与排序加速特性，有效应对DeepSeek-V4复杂的索引结构。凭借高互联带宽与低延迟通信优势，该方案最大化降低了 Prefill 与 Decode 场景下的通信损耗，提升了推理利用率。

行业分析指出，DeepSeek-V4凭借百万字（1M）超长上下文及顶尖的逻辑推理性能，对底层算力架构提出了严苛要求。寒武纪在模型发布首日的敏捷适配，不仅展示了国产算力平台对超大规模、复杂结构模型的承载能力，也预示着国产 AI 产业链在软硬协同层面已进入成熟期，为大模型应用普惠提供了高效的算力底座支持。

寒武纪成功适配 DeepSeek-V4，推动 AI 模型高效运行

寒武纪公司宣布，已成功完成对深度求索公司开源AI模型DeepSeek-V4的Day 0适配，实现发布当天即稳定运行。通过自研融合算子库Torch-MLU-Ops，对模型中的Compressor、mHC等模块进行针对性加速，大幅提升推理效率。同时采用vLLM推理框架，为用户带来更高效的人工智能体验。

DeepSeek-V4 发布！性能直逼顶级闭源模型，百万上下文 1 元起

DeepSeek于4月24日发布新一代大模型DeepSeek-V4，性能比肩顶级闭源模型，成为开源AI里程碑。它支持100万tokens超长上下文，适用于长文档分析、代码生成和多轮任务。同时推出轻量版Flash和标准版，分别满足快速迭代与深度应用需求。

DeepSeek-V4预览版正式发布:1M 超长上下文进入全员普惠时代

深度求索（DeepSeek）发布DeepSeek-V4预览版并开源，实现1M超长上下文标准化，在Agent协作、知识及推理性能上领先国内及开源领域。双版本布局：Pro版（1.6T参数，激活49B）性能对标顶级闭源模型，Flash版兼顾效率，满足不同应用需求。

首次全年扭亏为盈后，寒武纪正面回应大厂竞争:通用芯片具备更强“技术普适性”

寒武纪董事长陈天石在2025年度业绩说明会上回应投资者，针对互联网大厂自研芯片的竞争压力，强调公司产品采用“通用型”设计，具备更强的普适性，能应对多样化AI技术。他指出，大厂芯片多围绕主营业务提供垂直解决方案，而寒武纪的通用架构更灵活，适应不同场景需求。

寒武纪宣布实现 DeepSeek-V4全系列模型 Day0适配并开源优化代码

相关推荐

腾讯云 TokenHub 发布 DeepSeek-V4 预览版，百万上下文支持全面上线

寒武纪成功适配 DeepSeek-V4，推动 AI 模型高效运行

DeepSeek-V4 发布！性能直逼顶级闭源模型，百万上下文 1 元起

DeepSeek-V4预览版正式发布:1M 超长上下文进入全员普惠时代

首次全年扭亏为盈后，寒武纪正面回应大厂竞争:通用芯片具备更强“技术普适性”