知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音(TTS)大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音,还具备多语言对话生成、韵律自动调整和声音克隆等多种功能,堪称语音合成领域的一次重大突破。
Higgs Audio v2的强大之处在于其多模态能力,它不仅能够处理文本信息,还能理解和生成语音,完成复杂任务。例如,它可以写一首歌并用特定的声音演唱,同时还可以配上背景音乐,这在以前的 TTS 技术中是不可想象的。
该模型融合了多达1000万小时的语音数据进行训练,确保其在各种基准测试中的优异表现。根据 EmergentTTS-Eval 测试,Higgs Audio v2在 “情绪” 和 “问题” 两个类别中,胜率分别超过了 GPT-4o-mini-tts 高达75.7% 和55.7%。在传统的 TTS 测试中,该模型同样展现了超凡的性能,成为行业标杆。
技术上,Higgs Audio v2采用先进的数据处理方式,每秒25帧的语音信号通过离散化音频分词器转化为编号序列,从而精准捕捉语义与声学特征。同时,模型架构利用了预训练的大型语言模型,使其在理解语言和上下文方面具备了强大的能力。此外,该模型还具备上下文学习能力,能通过简单提示快速适应新的任务,实现零样本的语音克隆。
在应用场景上,Higgs Audio v2能够实现实时语音聊天,提供低延迟和情感表达的自然互动,非常适合用在虚拟主播和实时语音助手中。同时,音频内容创作方面,它能够生成自然对话和旁白,为有声读物、互动培训及动态故事讲述等提供强大支持。最后,语音克隆功能让它能够复制特定人物的声音,开启娱乐和创意领域的新可能性。
这款模型的代码已经全部开源,用户可以在 GitHub 和 Hugging Face 平台上找到,支持在本地安装,用户需准备 GPU 版的 PyTorch 或使用 Docker 进行简化安装。