PlayDiffusion发布：开源扩散模型实现语音“局部修改”不留痕

Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion，这是一种基于扩散模型的创新性工具，专为语音局部修改而设计。不同于传统的文本转语音系统需对整段音频重生成，PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整，而其他未修改部分将保持完全一致。这种方式不仅极大提高了效率，也让音频编辑进入“所听即所得”的新阶段。

用户只需提供目标文本（例如将音频中的“Neo”改为“Morpheus”），模型便可精准识别需替换位置，并智能调整节奏、语调以及说话人的音色，实现几乎无痕的自然融合。PlayDiffusion 能够有效避免人工修改后的割裂感，听感上几乎无法察觉任何拼接痕迹。

得益于扩散模型架构带来的整体优化能力，在语音片段被大范围 mask（遮盖）的极端场景中，它也可作为一款非自回归的高性能 TTS(文本转语音)模型使用。相较传统 TTS 系统，PlayDiffusion 的推理速度提升可达50倍，并具备更强的全局一致性，适合需要高效率、高质量语音合成的应用场景。

这项技术的推出对于播客制作、AI 配音、内容纠错、剧本对话二次加工等场景意义重大。PlayDiffusion 不只是一个音频编辑工具，更是语音生成领域向“精确、灵活、自然”转型的重要信号。在语音AI日益普及的当下，它或将成为下一个播客、视频内容创作的必备利器。

GitHub:https://github.com/playht/PlayDiffusion

模型下载:https://huggingface.co/PlayHT/PlayDiffusion

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

StepFun AI发布开源项目Step-Audio-EditX，基于30亿参数音频语言模型，将语音编辑转化为类似文本标记的可控操作，突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互，相关论文已发布于arXiv平台（编号2511.03601）。

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

StepFun AI发布开源音频编辑模型Step-Audio-EditX，该3B参数模型将音频编辑转化为类似文本编辑的令牌操作，实现直接可控的语音编辑。它解决了当前零样本文本转语音系统在情感、风格等控制上的局限，使表达性语音编辑更简单精确。

语音AI的颠覆者！PlayAI：用声音重塑数字交互的边界

从一个简单的Chrome扩展，到如今估值超2000万美元的AI语音帝国，PlayAI正用声音技术重新定义人机交互的想象边界。创始人Hammad Syed和Mahmoud Felfel用代码和算法编织出一个充满可能性的声音世界。这不仅仅是一家语音技术公司，更是一个能将文字瞬间转化为栩栩如生声音的魔法工厂。PlayAI的核心魅力在于其惊人的声音克隆和生成能力。想象一下，只需几分钟，你就能拥有一个完全属于自己的AI声音助理，能以任何你想要的语调和风格讲述故事。PlayNote等产品更是将AI语音推向令人惊叹的极致。它

对标谷歌NotebookLM！语音生成模型PlayDialog：可生成对话播客、旁白

近日，Play AI 正式推出其最具雄心的产品 ——PlayDialog beta版本，能生成对话式的播客音频。这款端到端的 AI 语音模型，利用对话的历史上下文，能够调控语调、情感和语速，以实现更自然的语音合成，标志着人机对话的新高度。PlayDialog 特别适合于制作真实的对话体验，例如旁白、语音配音、合成播客等，也能在商业环境中提供沉浸式的一对一语音交流体验，效果类似谷歌的NotebookLM与此同时，Play AI 还推出了 PlayNote，这是一款可以将多种媒体文件（如 PDF、文本、视频等）转化为对话体验的

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换