国内知名人工智能团队智谱今日正式宣布,面向部分企业客户推出全新的 GLM-5.1 高速版 API。这款代号为“GLM-5.1-highspeed”的模型一经发布便震撼业界,其输出速度成功达到了惊人的 400 tokens/s。
这一数据直接刷新了当前全球大模型厂商的 API 速度上限,展现出极强的技术统治力。在过去的人工智能行业认知中,模型的运行速度与体积往往不可兼得,高速度通常意味着需要牺牲模型的能力。
打破行业惯例兼顾旗舰性能
然而,GLM-5.1 高速版彻底打破了“快等于小”的行业惯例。该模型首次在国产大模型中实现了突破,成功将旗舰级的技术能力与极低的延迟体验同时带入到了实际生产环境中。
据悉,该模型由智谱 GLM 团队与 TileRT 团队联合打造。双方通过抛弃传统的动态调度,在推理引擎、调度系统以及底层基础设施三个层面进行了深度且彻底的系统级优化。
三大层面优化确保稳定输出
在技术细节上,研发团队不仅针对模型架构重写了核心推理路径以提升单卡吞吐,还通过动态批处理等手段降低了高并发场景下的延迟。同时,围绕基础设施的协同优化,确保了 400 TPS 成为稳定可用的生产级能力。
这款高速模型拥有极其广泛的应用前景,特别适用于对响应延迟要求严苛的场景。无论是 AI 编程、实时语音交互,还是高频的商业决策,该模型目前均已在智谱 MaaS 平台面向部分企业开放服务。
