语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款



语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款


Pinterest推出AI购物助手,周四起逐步上线。用户可通过语音对话获取个性化时尚搭配建议,助手基于用户收藏和当前图片推荐商品,并以语音简述结果。CEO称此举旨在提升互动体验,目前仅支持语音输入。
就在各家AI大模型竞相迭代之际,一家备受瞩目的人工智能初创公司Anthropic正悄然酝酿着一项重大升级——为旗下AI聊天机器人Claude赋予“说话”的能力。Anthropic首席产品官迈克・克里格(Mike Krieger)近日向英国《金融时报》透露,公司正积极探索一系列全新的用户体验,让用户能够直接通过语音与强大的Claude AI模型进行交流。克里格指出,随着Claude的应用场景不断拓展,尤其是在桌面端,语音交互有望成为一种更加自然和高效的用户界面。“我们正在深入研究桌面端的Claude如何进一步发展
Google 正式在苹果 App Store 上线全新的 Gemini 应用,并推出语音交互功能 Gemini Live,这标志着智能语音助手领域的一次重大突破。与此同时,苹果计划将 OpenAI 的 ChatGPT 整合到 Siri 中的消息,也预示着这一领域的竞争正在加剧。作为 Google 在 2023 年推出的 Bard 的升级版本,Gemini 是 Google 对 OpenAI ChatGPT 的有力回应。这款应用不仅具备面试准备、旅行建议和创意头脑风暴等多样化功能,更通过 Gemini Live 实现了更自然的语音交互。值得注意的是,Android 用户已在今年 8 月获得了优先体验权。相比亚马
Mini-Omni是一款开源多模态大型语言模型,通过集成先进AI技术,实现了实时语音输入输出与"边思考边说话"功能,提供自然交互体验。其核心优势在于端到端实时语音处理,无需额外配置ASR或TTS模型,支持文本等多种模态输入与转换,实现无缝交互。Mini-Omni的独特之处在于其"Any Model Can Talk"功能,允许其他AI模型集成实时语音能力,扩展应用范围。在性能上,Mini-Omni表现出色,支持多种复杂任务,如语音识别、生成、推理等。技术实现融合了Qwen2、litGPT、whisper、snac等模型与工具,提供便捷的本地安装与交互式演示方式,支持AI技术的普及与创新。
知网近日推出新版AI学术研究助手手机版,旨在满足科研工作者在移动设备上的便捷学术需求。该助手集成问答式增强检索、灵感中心、语音交互和笔记问答四大功能,通过自然语言处理为用户提供全面专业答案,推荐选题、大纲、文献,并支持语音输入和播报。用户可通过语音与系统互动,获取相关资料,提高效率并享受便捷的检索体验。同时,用户笔记信息可以在手机端与PC端实时同步,提升使用便捷度。此工具的全面升级旨在进一步优化研究服务,为科研工作提供更多智能化支持。