近日,开源机器学习框架 PyTorch 迎来了全新版本2.8的正式发布。这一版本的发布备受关注,主要集中在提升量化大语言模型(LLM)的推理性能,尤其是在 Intel CPU 上的表现。此次更新不仅显著增强了在离线模式下的推理效率,还首次实验性支持了 Intel GPU 的分布式后端。

在 PyTorch2.8中,开发者们通过优化算法和引入新技术,使得量化 LLM 的推理速度大幅提升。具体来说,该版本支持多种量化模式,包括 A16W8、DA8W8和 A16W4等。测试数据显示,在 Intel 的第六代 Xeon 平台上,以 M=8、K 和32核心为条件运行 Llama-3.1-8B 模型时,端到端延迟减少了20% 以上,性能甚至可与一些热门的 LLM 服务框架媲美。

image.png

此外,本次更新的另一亮点是,PyTorch2.8为 Intel 离散 GPU 引入了 XCCL 分布式后端的实验性支持。这一功能为不同的训练模式提供了更多的灵活性,开发者能够在更广泛的硬件环境中发挥模型的潜力。

除了以上核心功能的增强,PyTorch2.8还包括一系列重要的改进。例如,SYCL 支持的引入使得 PyTorch 的 C++ 扩展 API 功能更加丰富,同时 XPU 设备也新增了对 A16W4模式的支持。此外,开发团队为 libtorch ABI 提供了稳定的接口,减少了在第三方 C++/CUDA 扩展中的兼容性问题。

针对 ROCm 的支持也得到了增强,增加了对 gfx950架构的支持,并结合 TorchInductor 和 AOTInductor,提供了多个内核的自动调优模板。此外,控制流操作的引入,如条件判断、循环等,使得模型的编译和导出变得更加高效。

PyTorch2.8的发布无疑为机器学习领域带来了更多可能性,也为开发者提供了更强大的工具,推动了大语言模型的应用和发展。

下载地址:https://github.com/pytorch/pytorch/releases/tag/v2.8.0