语音AI“一步到位”！阶跃开源 130B 统治级语音模型，实时对话+情感克隆，炸裂来袭

语音交互领域迎来里程碑式突破!国内AI公司阶跃（Step Audio）近日震撼开源了一款 1300亿参数的超大型语音模型，引发业界高度关注。这款被誉为“统治级”的强大模型，是业界首个集语音理解与生成控制于一体的产品级开源实时语音对话系统，其功能的全面性和技术的先进性令人惊叹，预示着语音AI技术发展或将“一步到位”迈向新高度。

这款开源模型最核心的亮点在于其 一体化设计 和 强大的控制能力。它不仅能够精准理解用户语音指令，还能高度灵活地控制语音生成过程，实现前所未有的个性化语音交互体验。

在 语言支持 方面，这款模型展现出惊人的多语言能力， 中文、英文、日语 流畅切换，轻松应对跨语言交流场景。更令人惊喜的是，它还深度支持方言，目前已覆盖 粤语、四川话 等主流方言，让语音交互更贴近生活，更具人情味。

除了语言，这款模型还能精细控制 语音情感，用户可以自由设定语音的 情感基调，例如 开心、悲伤 等，让AI的表达更富感染力。 语速和韵律风格 也可随心调整，满足不同场景下的表达需求。甚至更进一步，它还支持 RAP 和哼唱 等更具创造力的语音形式，为内容创作带来无限可能。

更令人震撼的是，这款模型还具备 语音克隆 功能，这意味着用户可以利用这项技术，创造出极具个性化的语音助手，甚至实现声音的“复刻”与“传承”。

阶跃此次开源如此强大的语音模型，无疑将极大地推动整个行业的技术进步和应用创新。它不仅大幅降低了语音AI技术的应用门槛，更预示着未来语音交互将变得更加智能、自然、个性化，真正融入人们的日常生活。

项目地址：https://github.com/stepfun-ai/Step-Audio/tree/main

Anthropic正为Claude聊天机器人开发语音功能人机交互或迎新变革

就在各家AI大模型竞相迭代之际，一家备受瞩目的人工智能初创公司Anthropic正悄然酝酿着一项重大升级——为旗下AI聊天机器人Claude赋予“说话”的能力。Anthropic首席产品官迈克・克里格（Mike Krieger）近日向英国《金融时报》透露，公司正积极探索一系列全新的用户体验，让用户能够直接通过语音与强大的Claude AI模型进行交流。克里格指出，随着Claude的应用场景不断拓展，尤其是在桌面端，语音交互有望成为一种更加自然和高效的用户界面。“我们正在深入研究桌面端的Claude如何进一步发展

谷歌推出适用于iPhone的AI应用程序并推出语音交互功能 Gemini Live

Google 正式在苹果 App Store 上线全新的 Gemini 应用，并推出语音交互功能 Gemini Live，这标志着智能语音助手领域的一次重大突破。与此同时，苹果计划将 OpenAI 的 ChatGPT 整合到 Siri 中的消息，也预示着这一领域的竞争正在加剧。作为 Google 在 2023 年推出的 Bard 的升级版本，Gemini 是 Google 对 OpenAI ChatGPT 的有力回应。这款应用不仅具备面试准备、旅行建议和创意头脑风暴等多样化功能，更通过 Gemini Live 实现了更自然的语音交互。值得注意的是，Android 用户已在今年 8 月获得了优先体验权。相比亚马

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

Mini-Omni是一款开源多模态大型语言模型，通过集成先进AI技术，实现了实时语音输入输出与"边思考边说话"功能，提供自然交互体验。其核心优势在于端到端实时语音处理，无需额外配置ASR或TTS模型，支持文本等多种模态输入与转换，实现无缝交互。Mini-Omni的独特之处在于其"Any Model Can Talk"功能，允许其他AI模型集成实时语音能力，扩展应用范围。在性能上，Mini-Omni表现出色，支持多种复杂任务，如语音识别、生成、推理等。技术实现融合了Qwen2、litGPT、whisper、snac等模型与工具，提供便捷的本地安装与交互式演示方式，支持AI技术的普及与创新。

语音AI“一步到位”！阶跃开源 130B 统治级语音模型，实时对话+情感克隆，炸裂来袭

相关推荐

OpenAI押注“语音优先”未来！整合多团队重造音频模型，首款AI音频硬件或明年问世

Pinterest 推出 AI 购物助手，助你挑选时尚穿搭

Anthropic正为Claude聊天机器人开发语音功能人机交互或迎新变革

谷歌推出适用于iPhone的AI应用程序并推出语音交互功能 Gemini Live

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

语音AI“一步到位”！阶跃开源 130B 统治级语音模型，实时对话+情感克隆，炸裂来袭

相关推荐

OpenAI押注“语音优先”未来！整合多团队重造音频模型，首款AI音频硬件或明年问世

​Pinterest 推出 AI 购物助手，助你挑选时尚穿搭

Anthropic正为Claude聊天机器人开发语音功能 人机交互或迎新变革

谷歌推出适用于iPhone的AI应用程序 并推出语音交互功能 Gemini Live

Mini-Omni：开启"边思考边说话"新时代的多模态AI模型

Pinterest 推出 AI 购物助手，助你挑选时尚穿搭

Anthropic正为Claude聊天机器人开发语音功能人机交互或迎新变革

谷歌推出适用于iPhone的AI应用程序并推出语音交互功能 Gemini Live