1%的性能提升已成过去式？CVPR2026 揭示视觉智能正经历“范式重写”

从早期的ImageNet分类到如今的扩散模型，计算机视觉在过去十年间一直致力于让机器“看清世界”。然而，当感知能力接近人类极限，单纯追求准确率的边际收益正在递减。在CVPR2026上，视觉智能的研究重点发生了深刻转向:视觉不再是终点，而是服务于推理、决策与交互的中介。

长期以来，多模态模型默认通过“思维链”（CoT）展开逻辑推理。但最新研究指出，这种“每一次都推理”的做法往往低效。例如VideoAuto-R1框架提出了“按需推理”概念:对于简单感知任务直接作答，仅在复杂逻辑场景下触发推理。实验显示，这种方式在保持最优性能的同时，将平均输出长度缩减了3.3倍。

此外，推理媒介也在发生变化。以往模型高度依赖语言描述来处理空间关系，这在处理拼图或几何结构时显得捉襟见肘。新的趋势是让模型在“潜在空间”内直接完成隐式视觉推理，无需将其转化为线性文本，从而更自然地刻画复杂的视觉结构。

目前的视觉语言模型评测多采用多项选择题（MCQA），但这可能系统性地高估了模型能力。研究发现，模型常通过排除法或选项偏差“投机取巧”，真实得分可能被虚高了约20个百分点。为此，业界开始推动“可验证开放问答”范式，迫使模型必须真正理解视觉内容而非依赖选项线索。

同时，评测场景正从单主体静态图像转向多智能体环境。VS-Bench等新基准的出现，要求模型不仅要看懂环境，还要在合作、竞争等复杂交互中具备策略推理和决策能力。这标志着视觉智能正从单纯的“理解者”向“决策者”进化。

在模型形态上，开源界正迎来更彻底的透明度。Molmo2等模型不仅开放了权重，还完整公开了数据和训练流程。这类模型将能力从单图扩展至视频，并引入了精细的定位功能，实现了从“看懂”到“指出位置”的跨越。

支撑这些进步的是日益完善的数据基础设施。针对文本驱动的图像编辑任务，Pico-Banana-400K等大规模真实数据集的推出，填补了以往过度依赖合成数据的空白。该数据集支持多轮编辑和偏好对齐，为训练更具常识和逻辑的编辑模型提供了扎实底座。

总的来看，视觉智能正从单一感知演进为融合感知、认知与行动的一体化智能。这一过程并非简单的性能小修小补，而是推理机制、评测范式与数据供给的系统性重构。

英伟达推出新一代多模态模型，智能体效率提升九倍