语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款



语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款


OpenAI正整合团队重构音频AI系统,计划2026年推出音频优先设备,押注语音交互成为后屏幕时代核心。
Pinterest推出AI购物助手,周四起逐步上线。用户可通过语音对话获取个性化时尚搭配建议,助手基于用户收藏和当前图片推荐商品,并以语音简述结果。CEO称此举旨在提升互动体验,目前仅支持语音输入。
就在各家AI大模型竞相迭代之际,一家备受瞩目的人工智能初创公司Anthropic正悄然酝酿着一项重大升级——为旗下AI聊天机器人Claude赋予“说话”的能力。Anthropic首席产品官迈克・克里格(Mike Krieger)近日向英国《金融时报》透露,公司正积极探索一系列全新的用户体验,让用户能够直接通过语音与强大的Claude AI模型进行交流。克里格指出,随着Claude的应用场景不断拓展,尤其是在桌面端,语音交互有望成为一种更加自然和高效的用户界面。“我们正在深入研究桌面端的Claude如何进一步发展
Google 正式在苹果 App Store 上线全新的 Gemini 应用,并推出语音交互功能 Gemini Live,这标志着智能语音助手领域的一次重大突破。与此同时,苹果计划将 OpenAI 的 ChatGPT 整合到 Siri 中的消息,也预示着这一领域的竞争正在加剧。作为 Google 在 2023 年推出的 Bard 的升级版本,Gemini 是 Google 对 OpenAI ChatGPT 的有力回应。这款应用不仅具备面试准备、旅行建议和创意头脑风暴等多样化功能,更通过 Gemini Live 实现了更自然的语音交互。值得注意的是,Android 用户已在今年 8 月获得了优先体验权。相比亚马
Mini-Omni是一款开源多模态大型语言模型,通过集成先进AI技术,实现了实时语音输入输出与"边思考边说话"功能,提供自然交互体验。其核心优势在于端到端实时语音处理,无需额外配置ASR或TTS模型,支持文本等多种模态输入与转换,实现无缝交互。Mini-Omni的独特之处在于其"Any Model Can Talk"功能,允许其他AI模型集成实时语音能力,扩展应用范围。在性能上,Mini-Omni表现出色,支持多种复杂任务,如语音识别、生成、推理等。技术实现融合了Qwen2、litGPT、whisper、snac等模型与工具,提供便捷的本地安装与交互式演示方式,支持AI技术的普及与创新。