阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。



阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。


多模态AI公司ElevenLabs推出集成式内容创作平台,融合图像生成、视频制作、声音合成、音乐创作和音效设计功能,实现从剧本到成品视频的一站式闭环生产,帮助创作者和营销人员告别多平台切换,高效完成商业视频制作。
百度世界大会发布文心大模型5.0,李彦宏将其定义为“原生全模态模型”,实现文本、图像、声音深度融合协同,突破传统多模态拼接方式,推动国产AI进入新纪元。
央视警示:日常照片在多模态AI面前正成为隐私泄露新黑洞。AI能轻易从旅行合照中识别住址、身份证号、家庭关系和行程轨迹,普通用户却毫无防备。随着技术普及,隐私风险急剧升高。
美团开源多模态大模型LongCat-Flash-Omni实现技术突破,在多项基准测试中超越闭源竞品,达到业界领先水平。该模型支持文本、语音、图像、视频的实时融合处理,具备近乎零延迟的交互能力,将本地化多模态AI应用推向新高度。
谷歌推出StreetReaderAI原型系统,帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型,实现多模态AI驱动的实时对话式街景体验,突破传统语音播报局限,提升无障碍城市探索自由度。