相关推荐
阿里通义推出 Qwen3-ASR-Toolkit,实现音视频转录新突破
阿里通义Qwen团队推出开源Python命令行工具Qwen3-ASR-Toolkit,支持便捷音视频转录。该工具突破Qwen3-ASR-Flash API的三分钟限制,实现小时级快速转录,为大规模音频处理提供有力支持。Qwen3-ASR-Flash是最新语音识别模型,基于海量多模态数据训练。
阿里巴巴推出革命性语音识别模型FunAudio-ASR,降噪效果惊人
近日,阿里巴巴通义实验室正式发布了其最新的端到端语音识别大模型 ——FunAudio-ASR。这个模型的最大亮点在于它的创新 “Context 模块”,让高噪声环境下的语音识别准确率得到了显著提升,幻觉率从78.5% 大幅降低至10.7%,降幅近乎70%。这一技术突破为语音识别行业树立了新的标杆,尤其适用于嘈杂的场合,如会议、公共场所等。FunAudio-ASR 模型在训练过程中使用了数千万小时的音频数据,并将大语言模型的语义理解能力融入其中,使其在远场、嘈杂和多说话人等复杂条件下的表现,已经超
OpenAI Evals新增原生音频输入和评估功能
近日,OpenAI 的 Evals 工具迎来了令人振奋的重大更新,新增了原生音频输入和评估功能。这一创新意味着开发者们在测试和优化语音识别与生成模型时,可以直接使用音频文件进行评估,而无需经过繁琐的文本转录过程。这一变化极大地简化了评估流程,使得音频应用的开发变得更加高效。在以往的评估过程中,开发者们往往需要先将音频内容转化为文本,这不仅费时费力,还可能影响评估结果的准确性。而现在,通过 Evals 的新功能,用户只需简单地上传音频文件,便可以在平台上直接进
钉钉携手通义实验室推出全新语音识别大模型 Fun-ASR
钉钉与通义实验室联合推出新一代语音识别大模型Fun-ASR,具备出色的语音转写能力。该模型支持十大行业专业术语识别,可定制企业专属模型,并能处理多语言和口音。基于上下文理解,实现精准语音识别。
通义推出CoGenAV多模态语音表征模型 可实现音画同步感知
近日,通义大模型发布CoGenAV,以音画同步理念创新语音识别技术,有效解决语音识别中噪声干扰的难题。 传统语音识别在噪声环境下表现欠佳,CoGenAV则另辟蹊径,通过学习audio-visual-text之间的时序对齐关系,构建出更鲁棒、更通用的语音表征框架,系统性提升语音识别任务(VSR/AVSR)、语音重建任务(AVSS/AVSE)以及语音同步任务(ASD)等多个Speech-Centric任务的表现力。
