正文

阿里发布多模态推理模型QVQ-72B！视觉、语言能力双提升，复杂问题迎刃而解

发布于AI新闻资讯

发布时间 :2024年12月25号 13:56

阅读 :1分钟

阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型，该模型基于Qwen2-VL-72B构建，融合了强大的语言和视觉能力，能够处理更为复杂的推理和分析任务，标志着阿里巴巴在多模态AI领域取得了新的突破。

QVQ-72B在视觉推理、数学和科学问题上表现出了显著的提升，尤其是在多步推理任务中。这意味着该模型不仅能够理解文字信息，还能理解图像信息，并通过多步推理来解决复杂问题，这是传统AI模型难以企及的。

该模型的一大亮点是其在物理问题中结合文字和视觉信息推导因果关系的能力。例如，它可以根据物理场景的图片和相关的文字描述，推理出事件发生的因果关系，展现出更深层次的理解能力。

在数学推理任务（如代数、微积分）中，QVQ-72B通过分步推理显著减少了错误率。这表明该模型不仅能够进行简单的计算，还能进行复杂的数学推理，并提供清晰的解题步骤，为解决复杂的数学问题提供了新的工具。

此外，QVQ-72B在技术报告、复杂图表分析中提取关键信息的准确率和效率也较高。它能够快速准确地从复杂的文档和图表中提取出关键信息，为科研人员、分析师等专业人士提供了强大的辅助工具。

在图像识别方面，QVQ-72B能够精准识别图片中的细节，例如物体位置、颜色、空间关系，以及复杂情景。这意味着该模型可以应用于更广泛的场景，如智能监控、自动驾驶等。

总而言之，阿里巴巴推出的QVQ-72B多模态推理模型，凭借其强大的视觉、语言和推理能力，为解决复杂问题提供了新的思路和工具。它的出现，无疑将推动人工智能在各个领域的应用，为各行各业的智能化升级注入新的动力。

在线试玩:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

详细介绍:https://qwenlm.github.io/blog/qvq-72b-preview/

ElevenLabs炸裂级更新：图像、视频、音乐一站式生成

多模态AI公司ElevenLabs推出集成式内容创作平台，融合图像生成、视频制作、声音合成、音乐创作和音效设计功能，实现从剧本到成品视频的一站式闭环生产，帮助创作者和营销人员告别多平台切换，高效完成商业视频制作。

百度世界大会发布文心大模型5.0，李彦宏将其定义为“原生全模态模型”，实现文本、图像、声音深度融合协同，突破传统多模态拼接方式，推动国产AI进入新纪元。

央视警示：日常照片在多模态AI面前正成为隐私泄露新黑洞。AI能轻易从旅行合照中识别住址、身份证号、家庭关系和行程轨迹，普通用户却毫无防备。随着技术普及，隐私风险急剧升高。

美团开源多模态大模型LongCat-Flash-Omni实现技术突破，在多项基准测试中超越闭源竞品，达到业界领先水平。该模型支持文本、语音、图像、视频的实时融合处理，具备近乎零延迟的交互能力，将本地化多模态AI应用推向新高度。

谷歌推出StreetReaderAI原型系统，帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型，实现多模态AI驱动的实时对话式街景体验，突破传统语音播报局限，提升无障碍城市探索自由度。

智启未来，您的人工智能解决方案智库