AMD 推出 vLLM-ATOM 插件，深度优化国产大模型推理表现

近日，AMD 正式发布了名为 vLLM-ATOM 的全新插件。这款工具的核心使命是在维持现有工作流不变的前提下，显著榨取硬件潜能，为 DeepSeek-R1、Kimi-K2以及 gpt-oss-120B 等主流大语言模型的推理过程实现大幅提速。

对于开发者而言，vLLM 是一套旨在优化高并发场景下吞吐量与显存利用率的开源框架。与传统的单次调用工具不同，它更专注于请求调度与缓存管理。而此次 AMD 推出的 ATOM 插件，则是一套专为 Instinct GPU 打造的深度定制方案。它最大的亮点在于“无感迁移”:企业用户无需修改现有的 API 接口、命令或端到端操作流程，插件即可在后台自动接管并完成底层的性能优化。

从技术架构上看，vLLM-ATOM 采用了精密的三层设计。顶层继续沿用 vLLM 的请求调度与兼容接口;中间层的 ATOM 插件则负责模型实现与内核调优;而最底层的 AITER 则直接对接 GPU 硬件，提供包括 Flash Attention、量化 GEMM 以及融合 MoE 在内的核心加速能力。

这一插件主要面向 Instinct MI350、MI400以及 MI355X 等高性能 GPU 计算卡。在支持列表中，不仅涵盖了 Qwen3、GLM、DeepSeek 等明星模型，还实现了对 MoE（混合专家模型）、稠密模型以及视觉语言模型(VLM)等多种架构的全覆盖。

行业分析人士指出，该方案的核心价值在于极大地降低了高性能算力的部署门槛。通过这种“零学习成本”的平滑迁移方案，企业可以更轻松地将 AI 服务切换至 AMD 硬件后端，在保证推理效率的同时，有效提升了大模型在线服务的稳定性和响应速度。

加速国产大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

AMD发布vLLM-ATOM插件，专为大语言模型部署优化，在不改变现有工作流下，显著提升DeepSeek-R1、Kimi-K2等国产大模型在AMD硬件上的推理性能。该插件针对Instinct系列GPU定制，利用vLLM框架的高显存利用率优势，让开发者以低学习成本实现技术迁移，获得性能平滑升级。

OpenAI 联合英伟达等巨头发布 MRC 协议，重塑大规模 AI 训练网络架构

OpenAI联合AMD、博通、英特尔、微软及英伟达等五大巨头，发布多路径可靠连接（MRC）协议，旨在解决大规模AI训练中的网络延迟与故障问题。该协议已通过开放计算项目（OCP）开源，并推动从三层架构向两层设计的转变，以击碎“单点故障”，提升训练稳定性与效率。

AMD：代理式 AI 时代，CPU 或将超越 GPU 的崛起

AMD CEO苏姿丰在2026年Q1财报电话会议中指出，随着代理式AI时代到来，数据中心CPU需求快速增长。传统“一CPU配多GPU”的模式正转向CPU与GPU数量接近一对一，未来CPU甚至可能超过GPU。CPU从主要调度角色变为更核心的计算节点，推动数据中心架构变革。

AMD 推出 vLLM-ATOM 插件，深度优化国产大模型推理表现

相关推荐

加速国产大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

OpenAI 联合英伟达等巨头发布 MRC 协议，重塑大规模 AI 训练网络架构

AMD：代理式 AI 时代，CPU 或将超越 GPU 的崛起

AMD 斥资 2.5 亿美元投资 Nutanix，共同打造 AI 基础设施平台

豪掷 1000 亿美元！Meta 与 AMD 达成史上最大芯片订单，剑指英伟达霸权

AMD 推出 vLLM-ATOM 插件，深度优化国产大模型推理表现

相关推荐

加速国产大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

OpenAI 联合英伟达等巨头发布 MRC 协议，重塑大规模 AI 训练网络架构

​AMD：代理式 AI 时代，CPU 或将超越 GPU 的崛起

AMD 斥资 2.5 亿美元投资 Nutanix，共同打造 AI 基础设施平台

豪掷 1000 亿美元！Meta 与 AMD 达成史上最大芯片订单，剑指英伟达霸权

AMD：代理式 AI 时代，CPU 或将超越 GPU 的崛起