正文

商汤开源 SenseNova-MARS：Agentic VLM 赋予 AI 独立“思考与行动”力

发布于AI新闻资讯

发布时间 :2026年1月30号 14:14

阅读 :1分钟

2026年1月30日，商汤科技正式开源了其首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型——SenseNova-MARS。该模型包含8B 和32B 两个版本，通过模拟“侦探破案”般的逻辑，实现了 AI 从单纯“理解”到自主“执行”的跨越。

性能飞跃:在多项榜单超越 GPT-5.2

在最新的行业基准测试中，SenseNova-MARS展现出了惊人的竞技状态:

搜索推理登顶:在 MMSearch（图文搜索核心评测）中以74.27分登顶，显著超过GPT-5.2的66.08分。

细节搜寻领跑:在 HR-MMSearch（高清细节搜索评测）中获得54.43分，拉开了与主流闭源模型的差距。

多维能力验证:在 FVQA、InfoSeek 等多个权威视觉理解榜单中，均取得了开源模型中的 SOTA（当前最佳）成绩。

核心黑科技:像人类一样协同工具

SenseNova-MARS的独特之处在于其“自主规划”能力，能够自动解决“细节识别 + 信息检索 + 逻辑推理”的复杂长链条任务:

图像细节裁剪:能聚焦占比不到5% 的微小细节（如赛车手服上的 Logo），并自动放大分析。

动态图文搜索:在识别物体或人物的瞬间，自动匹配全球范围内的相关信息，如设备型号或行业数据。

多跳深度推理:面对需要“先放大、再识别、最后查背景”的任务不再束手无策，具备极强的“工具使用直觉”。

训练秘籍:“因材施教”的双阶段演进

商汤研究团队通过两阶段训练，赋予了模型严密的逻辑链条:

第一阶段（打基础）:利用自动化数据合成引擎构建“高难度案例库”，让 AI 学习基本的多跳搜索逻辑，确保起步即面对真实复杂场景。

第二阶段（练实战）:引入 BN-GSPO 算法进行强化学习，像训练侦探一样，通过奖励机制平滑波动，让模型在处理各类问题时都能保持稳定进步。

拥抱开源:助力全球开发者

目前，商汤已将SenseNova-MARS的模型、代码及数据集全量开源。开发者可直接通过 Hugging Face 下载，共同探索具身智能与自主 Agent 的无限可能。

商汤重磅开源 SenseNova-MARS：开启多模态自主推理新篇章

商汤科技开源多模态自主推理模型SenseNova-MARS，提供8B和32B版本。该模型是首个Agentic VLM，融合动态视觉推理与图文搜索，能理解图像并自主推理，推动多模态大模型发展。

2026年1月30号 14:44

134.8k

全国首个 “云宇星空” 大模型发布，助力智能城市规划！

上海推出全国首个规划资源AI大模型“云宇星空”，拥有6000亿参数，整合遥感影像、三维实景等数据，旨在打造“AI城市规划师”。该模型采用“1个行业基座+6个垂类智能体”架构，覆盖规划资源与政府治理等领域。

2025年12月25号 10:47

167.6k

全国首个规划资源大模型“云宇星空”发布！6000亿参数，让城市规划“问不倒、调图快、识图准”

上海发布全国首个规划资源领域基础大模型“云宇星空”，以6000亿参数融合遥感、三维、图纸与政务数据，打造“AI城市规划师”，推动城市治理向科学化、精细化、智能化发展。

2025年12月24号 17:34

174.2k

商汤发布行业首个“多剧集生成智能体”Seko2.0，国产AI芯片首次打通多模态AIGC全链路

商汤科技发布Seko2.0，全球首个专注多集视频生成的AI智能体，实现从单片段到连续叙事的跨越。该系统能保持角色、场景、风格高度一致，在剧情连贯性、人物稳定性和视觉统一性上取得突破，为短剧、广告、教育等领域提供可规模化的AI内容生产方案，基于自研“日日新Seko”多模态大模型。

2025年12月15号 17:17

242.5k

商汤Seko 2.0上线：一句话生成100集连贯动画，AI动画剧制作成本降至「一杯奶茶钱」

商汤科技发布AI视频Agent「Seko2.0」，用户输入一句话即可一键生成最高100集剧情连贯、人物零崩坏的长篇动画短剧，制作成本极低。该产品采用多剧集记忆与全局一致性架构，确保角色形象、声音及世界观在百集内保持稳定，大幅降低AI动画制作门槛，现已开放测试。

2025年12月11号 14:06

763.6k

智启未来，您的人工智能解决方案智库