Augie 是一个 AI 驱动的视频创作平台,它使用语音克隆技术让用户可以录制自己或他人的声音,并将其克隆以用于其他短视频。该平台适用于营销人员和社交媒体团队,可以快速向视频添加旁白、照片、文本和音乐,无需学习音频和视频编辑。Augie 在公开测试中,所有用户都可以使用语音克隆功能,未来可能会限制免费用户的视频长度和质量。该平台还与合作伙伴 ElevenLabs 合作,以识别 AI 生成的声音和视频。
Augie 让您使用自己的 AI 克隆声音制作视频

Augie 是一个 AI 驱动的视频创作平台,它使用语音克隆技术让用户可以录制自己或他人的声音,并将其克隆以用于其他短视频。该平台适用于营销人员和社交媒体团队,可以快速向视频添加旁白、照片、文本和音乐,无需学习音频和视频编辑。Augie 在公开测试中,所有用户都可以使用语音克隆功能,未来可能会限制免费用户的视频长度和质量。该平台还与合作伙伴 ElevenLabs 合作,以识别 AI 生成的声音和视频。
在快速发展的数字时代,虚拟角色与互动体验的融合正逐渐成为趋势。Persona Engine 应运而生,作为一款集成了 Live2D、** 大型语言模型(LLM)、 自动语音识别(ASR)、 文本转语音(TTS)** 和 ** 实时语音克隆(RVC)** 的全能工具包,为用户提供了创建生动、互动性强的数字角色的完美解决方案。这款引擎特别适合用于 VTubing、直播以及虚拟助手等应用,帮助用户在互动体验上突破传统界限。Persona Engine 使用户能够轻松实现富有表现力的实时动画,通过 Live2D 技术,虚拟角色可以以流畅的方式与观
日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。Spark-TTS 的设计理念强调简洁与高效。该系统完全基于 Qwen2.5构建,摒弃了以往需要额外生成模型的复杂流程。与其他模型不同,Spark-TTS 直接从 LLM 预测的代码中重建音频
ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司,近日推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。根据 ElevenLabs 的基准测试,Scribe 在将口语准确转换为文本方面,超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3,取得了前所未有的低错误率。该公司表示,Scribe 支持99种语言的高精度转录,其中包括在以前被忽视的语言,如塞尔维亚语、粤语和马拉雅拉姆语。ElevenLabs 的首席研究员 Fla
近日,HYBE 旗下的人工智能语音公司 Supertone 宣布推出了一款名为 “Supertone Play” 的文本转语音工具,旨在生成高质量、富有表现力的音频内容。这款新工具目前支持英语、韩语和日语,预计在今年内将扩展至西班牙语和中文。Supertone Play 提供了150种声音角色,适用于多种内容创作需求,包括自然对话、专业播报新闻和有声读物,以及潮流驱动的搞笑声音。此外,它还具备语音克隆功能,用户可以在短短10秒钟内根据自己的声音创建个性化的声音角色,并能够调整不同的情感语调,以满足不
ZyphraAI 近日发布了其最新的多语言文本到语音(TTS)模型 **Zonos-TTS**,该模型基于 **Apache2.0许可证**,完全开源且可商用。Zonos-TTS 不仅支持实时语音克隆功能,还经过20万小时的英语语音数据训练,表现出卓越的性能。Zonos-TTS 提供了两种部署方式:支持本地部署和便捷的 API 服务。对于普通用户,ZyphraAI 提供每月免费生成 **100分钟** 音频的服务;专业版用户则可以选择 **300分钟/5美元** 的套餐,超出部分按每分钟 **0.02美元** 计费。特别值得一提的是,实时语音克隆功能完全免费,且支持高音频
人工智能语音公司ElevenLabs再次引发关注,该公司刚刚完成了一轮高达2.5亿美元的C轮融资,估值在30亿至33亿美元之间。本次融资由ICONIQ Growth领投,显示出市场对AI语音技术的强烈信心。仅在一年之前,ElevenLabs刚刚完成了一笔8000万美元的B轮融资,当时的估值仅为现在的三分之一,可见该公司发展之迅猛。ElevenLabs由Mati Staniszewski和Piotr Dabkowski于2022年创立,旨在解决配音质量低劣的问题。如今,该公司已成为AI语音领域的领导者,其核心技术包括语音克隆和配音工具。随着生成式人工智能的兴