正文

音频创作迎来新突破！Stability AI 发布 Stable Audio 3：长音频秒级生成

发布于AI新闻资讯

发布时间 :2026年5月27号 11:35

阅读 :1分钟

知名人工智能公司 Stability AI 近日正式发布了其最新一代音频大模型Stable Audio3，并同步开源了部分模型权重。作为一款专为音频生成与编辑设计的潜扩散模型，该系统不仅支持高品质的双声道立体声输出，更在生成速度上实现了质的飞跃。

本次发布的模型家族涵盖了从小到大多种规格，能够满足音乐创作和音效制作等多元化需求。值得一提的是，该模型支持可变长度的音频生成，并引入了基于内补成像技术的音频编辑功能，为创作者提供了前所未有的灵活性。

创新架构打破硬件限制

Stable Audio3在架构上由两大核心组件构成:一个被称为 SAME 的语义声学自编码器，以及一个高效的扩散变换器。其中，SAME 自编码器实现了高达4096倍的音频压缩率，这一突破性设计大幅缩短了潜在序列的长度。

得益于这一高效的压缩机制，即使是在普通的消费级硬件上，该模型也能够流畅地运行长周期、大篇幅的音频生成任务。这不仅显著降低了高品质音频创作的技术门槛，也让个人创作者在家中开展专业级音视频制作成为可能。

超高效率实现即时渲染

在 variable-length 技术的加持下，新模型的计算成本能够随着用户要求的音频时长动态缩放，彻底告别了以往固定长度带来的算力浪费。在高性能硬件的测试中，该模型仅需约0.62秒便可渲染出一段20秒的音频，而生成长达380秒的音乐也仅需1.31秒。

此外，通过创新的三阶段训练流程，Stable Audio3在推理阶段不再依赖传统的无分类器指导技术，从而实现了单步前向传播的极速体验。目前，面向大众开放的小型和中型模型权重已在 Hugging Face 平台上线，而性能更强悍的大型版本则将通过商业授权形式提供。

AI日报：GPT5.6系列模型发布 Codex消失;腾讯拟接盘Manus成最大股东；MiniMax创始人宣布零薪酬直至实现AGI

AI日报每日聚焦AI热点，呈现创新产品，助开发者把握技术趋势。本期报道：OpenAI升级Chrome扩展，ChatGPT可侧边栏常驻，支持阅读网页、操控标签页、读写本地文件及总结PDF，无需切换应用，仅限Plus与Pro用户使用。

Meta推出旗舰大模型Muse Spark 1.1，主打多代理自动化工作流，现已通过AI聊天服务及API开放公测。该模型由负责制定计划的主代理和按指令执行任务的子代理构成，项目启动时主代理自动生成执行方案。

三星电子正加速布局AI PC芯片，其自研加速处理器代号“GAIA”计划2027年量产。该芯片由系统LSI事业部主导，基于4nm工艺，核心围绕NPU设计，专注生成式AI任务加速。原型已送测联想、惠普等厂商，进入性能验证阶段。

MiniMax完成160亿港元（超20亿美元）融资，将投入AI基础设施、前沿模型研发与全球商业化扩张。本轮融资国际反响热烈，最终规模超出原计划的18亿美元。

摩根大通策略师戴维·莱博维茨指出，投资者对AI的态度正从盲目追捧转向理性甄别。随着AI成跨资产交易主题，华尔街必须学会分辨风险与回报。市场正细致区分产业链各环节，判断供给过剩与需求强劲的领域，告别单纯狂热。

智启未来，您的人工智能解决方案智库