Augie 让您使用自己的 AI 克隆声音制作视频

The Verge

发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月11号 22:51

Augie 是一个 AI 驱动的视频创作平台，它使用语音克隆技术让用户可以录制自己或他人的声音，并将其克隆以用于其他短视频。该平台适用于营销人员和社交媒体团队，可以快速向视频添加旁白、照片、文本和音乐，无需学习音频和视频编辑。Augie 在公开测试中，所有用户都可以使用语音克隆功能，未来可能会限制免费用户的视频长度和质量。该平台还与合作伙伴 ElevenLabs 合作，以识别 AI 生成的声音和视频。

Persona Engine:将虚拟角色带入现实的 AI 驱动工具

在快速发展的数字时代，虚拟角色与互动体验的融合正逐渐成为趋势。Persona Engine 应运而生，作为一款集成了 Live2D、** 大型语言模型（LLM）、自动语音识别（ASR）、文本转语音（TTS）** 和 ** 实时语音克隆(RVC)** 的全能工具包，为用户提供了创建生动、互动性强的数字角色的完美解决方案。这款引擎特别适合用于 VTubing、直播以及虚拟助手等应用，帮助用户在互动体验上突破传统界限。Persona Engine 使用户能够轻松实现富有表现力的实时动画，通过 Live2D 技术，虚拟角色可以以流畅的方式与观

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

日前，一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究，这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出，展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型（LLM）的强大能力，致力于实现高度准确且自然的语音合成，适用于研究和商业领域。Spark-TTS 的设计理念强调简洁与高效。该系统完全基于 Qwen2.5构建，摒弃了以往需要额外生成模型的复杂流程。与其他模型不同，Spark-TTS 直接从 LLM 预测的代码中重建音频

ElevenLabs 发布 Scribe 语音转文本模型，准确率创新高、英语达 96.7%

ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司，近日推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性，用户可以通过其官网进行体验。根据 ElevenLabs 的基准测试，Scribe 在将口语准确转换为文本方面，超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3，取得了前所未有的低错误率。该公司表示，Scribe 支持99种语言的高精度转录，其中包括在以前被忽视的语言，如塞尔维亚语、粤语和马拉雅拉姆语。ElevenLabs 的首席研究员 Fla

HYBE旗下AI 声音工具Supertone Play上线：10秒搞定声音克隆

近日，HYBE 旗下的人工智能语音公司 Supertone 宣布推出了一款名为 “Supertone Play” 的文本转语音工具，旨在生成高质量、富有表现力的音频内容。这款新工具目前支持英语、韩语和日语，预计在今年内将扩展至西班牙语和中文。Supertone Play 提供了150种声音角色，适用于多种内容创作需求，包括自然对话、专业播报新闻和有声读物，以及潮流驱动的搞笑声音。此外，它还具备语音克隆功能，用户可以在短短10秒钟内根据自己的声音创建个性化的声音角色，并能够调整不同的情感语调，以满足不

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音（TTS）模型 **Zonos-TTS**，该模型基于 **Apache2.0许可证**，完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能，还经过20万小时的英语语音数据训练，表现出卓越的性能。Zonos-TTS 提供了两种部署方式:支持本地部署和便捷的 API 服务。对于普通用户，ZyphraAI 提供每月免费生成 **100分钟** 音频的服务;专业版用户则可以选择 **300分钟/5美元** 的套餐，超出部分按每分钟 **0.02美元** 计费。特别值得一提的是，实时语音克隆功能完全免费，且支持高音频

AI语音独角兽ElevenLabs完成2.5亿美元C轮融资，估值突破30亿

人工智能语音公司ElevenLabs再次引发关注，该公司刚刚完成了一轮高达2.5亿美元的C轮融资，估值在30亿至33亿美元之间。本次融资由ICONIQ Growth领投，显示出市场对AI语音技术的强烈信心。仅在一年之前，ElevenLabs刚刚完成了一笔8000万美元的B轮融资，当时的估值仅为现在的三分之一，可见该公司发展之迅猛。ElevenLabs由Mati Staniszewski和Piotr Dabkowski于2022年创立，旨在解决配音质量低劣的问题。如今，该公司已成为AI语音领域的领导者，其核心技术包括语音克隆和配音工具。随着生成式人工智能的兴