亚马逊推出全新ASR系统,支持100多语言

近日,通义大模型发布CoGenAV,以音画同步理念创新语音识别技术,有效解决语音识别中噪声干扰的难题。 传统语音识别在噪声环境下表现欠佳,CoGenAV则另辟蹊径,通过学习audio-visual-text之间的时序对齐关系,构建出更鲁棒、更通用的语音表征框架,系统性提升语音识别任务(VSR/AVSR)、语音重建任务(AVSS/AVSE)以及语音同步任务(ASD)等多个Speech-Centric任务的表现力。
最近,SoundHound AI, Inc.(NASDAQ:SOUN)在人工智能领域获得了显著认可,特别是在 AIOps(人工智能运维)方面的表现。然而,尽管在技术上取得了一定的成就,市场对其未来的预期却出现了下调。这一消息引发了投资者的广泛关注。在当前的市场环境中,人工智能技术的应用愈发重要,SoundHound AI 凭借其创新的语音识别和自然语言处理技术,正逐渐在行业中崭露头角。该公司不仅在产品性能上不断进步,而且在推动企业运维智能化方面取得了一系列成就。其独特的 AI 系统能够帮助企业实时分析和
亚马逊近日推出了一款新型 AI 语音模型 ——Nova Sonic,旨在提升其语音助手 Alexa + 的性能。Nova Sonic 被设计用于本地处理语音并生成自然流畅的回复,标志着亚马逊在语音识别技术领域的又一次突破。Nova Sonic 采取了一种全新的整合方式,将语音理解和生成的能力统一到一个模型中。这一创新不仅简化了语音应用的开发过程,还能根据语音输入的声学背景(如语调和风格)来调整生成的语音响应,从而实现更加自然的对话。Nova Sonic 甚至能够理解人类对话中的细微之处,包括说话者的自然停
在刚刚结束的百度 AI DAY 上,百度文小言正式宣布了品牌焕新和功能升级的消息。此次升级不仅包括全新的视觉形象,更重要的是引入了多模型融合调度技术,这将极大增强其语音识别和图片问答的能力。文小言的多模型融合调度是本次升级的核心亮点。通过整合百度自研的文心 X1、文心4.5等模型,并引入了诸如 DeepSeek-R1和可灵等第三方优质模型,用户可以根据需求灵活选择使用最适合的模型。用户只需轻松点击 “自动模式”,系统就会智能选择最佳模型组合,显著提高响应速度与任务处
据tech星球消息,阿里通义实验室语音团队负责人鄢志杰已于 2 月 15 日正式离职,其职级为阿里原P序列体系中的P10 级别。鄢志杰是智能语音领域专家, 2003 年进入中科大语音实验室攻读博士,师从科大讯飞创始人王仁华教授。 2008 年获博士学位后,他在微软亚洲研究院语音组担任主管研究员至 2015 年,主要研究语音识别、语音合成等领域。学术上,他发表多篇顶级论文,拥有多项专利。图源备注:图片由AI生成,图片授权服务商Midjourney2015 年加入阿里巴巴后,鄢志杰曾担任IDST智能语音交互
一加13手机迎来了 ColorOS15.0.0.701版本的重大升级。这次更新的系统包大小约为1.33GB,除了诸多优化和修复,还引入了行业首发的 AIGC 合成语音识别功能,为用户的安全与便利提供了全新保障。此次更新中,桌面功能得到了显著改善,用户现在可以通过拖拽的方式轻松调整文件夹的大小至1×2或2×1的尺寸。同时,在桌面四列布局下,用户可以在 dock 栏中放置多达五个应用,使得手机的操作更加灵活方便。此外,通知和控制中心的动画流畅度也进行了优化,让用户的操作体验更加丝滑顺畅。在安