
与过去需要通过 ASR(语音转文本)、LLM(大语言模型)、TTS(文本转语音)多个环节串联的架构不同,
此外,该模型在个性化控制方面表现卓越。通过“语音+文本”的双重引导,用户不仅能定义 AI 的角色背景,还能精确控制其音色和语调。AIbase 获悉,
研究:https://research.nvidia.com/labs/adlr/personaplex/
划重点:
🎙️ 全双工交互:
支持实时语音流处理,允许用户在 AI 说话时随时插话或重叠对话,实现极速响应。PersonaPlex-7B-v1 🧠 单模型架构: 舍弃了繁琐的插件式管道,采用单一
结构同步预测文本和语音标记,从底层提升对话自然度。Transformer 🎭 深度个性化: 支持高达200token 的系统提示词及特定的语音嵌入,可灵活定制 AI 的角色性格、业务知识及情感音色。
