从早期的ImageNet分类到如今的扩散模型,计算机视觉在过去十年间一直致力于让机器“看清世界”。然而,当感知能力接近人类极限,单纯追求准确率的边际收益正在递减。在CVPR2026上,视觉智能的研究重点发生了深刻转向:视觉不再是终点,而是服务于推理、决策与交互的中介。

告别“盲目推理”:迈向自适应与隐式路径

长期以来,多模态模型默认通过“思维链”(CoT)展开逻辑推理。但最新研究指出,这种“每一次都推理”的做法往往低效。例如VideoAuto-R1框架提出了“按需推理”概念:对于简单感知任务直接作答,仅在复杂逻辑场景下触发推理。实验显示,这种方式在保持最优性能的同时,将平均输出长度缩减了3.3倍。

image.png

此外,推理媒介也在发生变化。以往模型高度依赖语言描述来处理空间关系,这在处理拼图或几何结构时显得捉襟见肘。新的趋势是让模型在“潜在空间”内直接完成隐式视觉推理,无需将其转化为线性文本,从而更自然地刻画复杂的视觉结构。

评测体系反思:打破“选择题”的虚假繁荣

目前的视觉语言模型评测多采用多项选择题(MCQA),但这可能系统性地高估了模型能力。研究发现,模型常通过排除法或选项偏差“投机取巧”,真实得分可能被虚高了约20个百分点。为此,业界开始推动“可验证开放问答”范式,迫使模型必须真正理解视觉内容而非依赖选项线索。

同时,评测场景正从单主体静态图像转向多智能体环境。VS-Bench等新基准的出现,要求模型不仅要看懂环境,还要在合作、竞争等复杂交互中具备策略推理和决策能力。这标志着视觉智能正从单纯的“理解者”向“决策者”进化。

image.png

基础设施升级:开源模型与真实数据补全

在模型形态上,开源界正迎来更彻底的透明度。Molmo2等模型不仅开放了权重,还完整公开了数据和训练流程。这类模型将能力从单图扩展至视频,并引入了精细的定位功能,实现了从“看懂”到“指出位置”的跨越。

支撑这些进步的是日益完善的数据基础设施。针对文本驱动的图像编辑任务,Pico-Banana-400K等大规模真实数据集的推出,填补了以往过度依赖合成数据的空白。该数据集支持多轮编辑和偏好对齐,为训练更具常识和逻辑的编辑模型提供了扎实底座。

总的来看,视觉智能正从单一感知演进为融合感知、认知与行动的一体化智能。这一过程并非简单的性能小修小补,而是推理机制、评测范式与数据供给的系统性重构。