王炸！中国AI再添“王牌军”！昆仑万维 Skywork R1V 多模态推理模型震撼开源！

昆仑万维今日正式宣布，他们打造的 Skywork R1V 多模态推理模型，正式开源了!这不仅是中国首个工业界开源的多模态推理模型，更标志着中国AI力量在多模态理解和推理领域，迈出了里程碑式的一步!即日起，模型权重和技术报告完全对外敞开怀抱!

想象一下，一个AI模型不仅能看懂图片，还能像人类一样进行逻辑推理，解决复杂的视觉难题——这不再是科幻电影里的场景，而是 Skywork R1V 正在实现的能力!这款模型就像一位“AI界的福尔摩斯”，它擅长抽丝剥茧，通过多步骤的逻辑分析，从海量视觉信息中挖掘出深层含义，最终给出精准答案。无论是破解视觉逻辑谜题，解答高难度的视觉数学题，还是分析图像中的科学现象，甚至是辅助医学影像的诊断推理，Skywork R1V 都能展现出惊人的实力。

要衡量一个AI模型的“智商”，数据最有说服力!在 Reasoning 推理能力方面，Skywork R1V 在权威的 MATH500和 AIME 基准测试中，分别斩获94.0和72.0的超高分!这意味着，无论是破解复杂的数学难题，还是进行严谨的逻辑推理，Skywork R1V 都能轻松胜任。更令人惊艳的是，它还将强大的推理能力成功“嫁接”到了视觉领域，在 MMMU 和 MathVista 等视觉推理基准测试中，分别取得了69和67.5的高分!这些硬核数据，直接证明了 Skywork R1V 拥有顶尖的逻辑推理和数学分析能力!

昆仑万维自豪地表示，Skywork R1V 模型背后，凝聚着三大关键技术创新:

首先是 文本推理能力的多模态高效迁移。昆仑万维团队独辟蹊径，巧妙地利用 Skywork-VL 的视觉投影器，无需耗费巨资重新训练语言模型和视觉编码器，就如同“乾坤大挪移”一般，将原本强大的文本推理能力，完美地迁移到了视觉任务之上，并且丝毫没有影响其原有的文本推理功力!

其次是 多模态混合式训练（Iterative SFT+GRPO）。这种训练方式就像是给模型喂了“混合营养餐”，通过迭代监督微调和 GRPO 强化学习的巧妙结合，分阶段、有策略地对齐视觉-文本表征，最终实现了跨模态任务的高效融合，模型的跨模态能力也因此突飞猛进!在 MMMU 和 MathVista 基准测试中，Skywork R1V 的表现甚至可以媲美更大规模的闭源模型!

最后是 自适应长度思维链蒸馏。昆仑万维团队创新性地提出了一种“智能刹车”机制，模型能够根据视觉-文本的复杂度，自适应地调整推理链的长度，避免“过度思考”，从而在保证推理精度的同时，大幅提升推理效率!再配合多阶段自蒸馏策略，模型的数据生成和推理质量更上一层楼，在复杂的多模态任务中表现更加游刃有余!

Skywork R1V 的开源，无疑将为中国乃至全球的AI研究者和开发者，提供一个强大的多模态推理“利器”。它的出现，不仅将加速多模态AI技术的创新和应用，更将推动AI技术在各行各业的深度融合，为我们开启一个更加智能、更加美好的未来!

昆仑万维开源Skywork-R1V 2.0版本视觉与文本推理能力提升

4月24日，昆仑万维宣布正式开源其多模态推理模型Skywork-R1V2.0（以下简称R1V2.0）。这一升级版本在视觉与文本推理能力上均实现了显著提升，特别是在高考理科难题的深度推理和通用任务场景中表现出色，堪称当前最均衡兼顾视觉与文本推理能力的开源多模态模型。

阶跃星辰发布全新多模态推理模型——Step-R1-V-Mini

阶跃星辰科技团队宣布正式推出全新的多模态推理模型 Step-R1-V-Mini。这一模型的发布标志着在多模态协同推理领域的新突破，为AI技术的进一步发展注入了新的活力。Step-R1-V-Mini支持图文输入和文字输出，具备良好的指令遵循能力和通用性，能够高精度感知图像并完成复杂的推理任务。

昆仑万维开源Skywork R1V视觉思维链推理模型

昆仑万维正式发布了全球首个工业界多模态推理模型 Skywork R1V（简称 “R1V”）。这款具有38亿参数的模型在性能上已接近知名闭源模型 DeepSeek-R1，甚至在多个基准测试中表现出色，横扫了一系列当前的最先进技术(SOTA)。昆仑万维选择开源 R1V，旨在推动技术的共享与进步，为全球 AI 开源社区注入新活力。R1V 以其卓越的多模态推理能力而闻名，能够无缝结合文本和视觉信息，展示出强大的智能。具体来看，R1V 在视觉问答任务中直接对标 Claude3.5Sonnet 和 GPT-4o 等闭源模型，并保持顶级文本推理

阿里通义千问Qwen开源视觉推理模型QVQ-72B-Preview

Qwen团队近日宣布开源其最新研发的多模态推理模型QVQ，标志着人工智能在视觉理解和复杂问题解决能力方面迈出了重要一步。该模型基于Qwen2-VL-72B构建，旨在通过结合语言和视觉信息，提升AI的推理能力。在MMMU评测中，QVQ取得了70.3的高分，并在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著的性能提升。

好莱坞创意人士反对开放 AI 和谷歌使用版权材料进行训练

近日，400多位好莱坞知名创意人士，包括著名导演罗恩・霍华德（Ron Howard）、奥斯卡获奖演员凯特・布兰切特(Cate Blanchett)、音乐传奇保罗・麦卡特尼(Paul McCartney)等，联合向白宫递交了一封信，明确反对开放 AI 和谷歌希望在版权材料上进行 AI 训练的请求。他们认为，美国在人工智能领域的全球领导地位不应以削弱创意产业为代价。图源备注：图片由AI生成，图片授权服务商Midjourney这封信指出，艺术和娱乐行业不仅提供了超过230万的就业机会，每年创造2290亿美元的工资，而且也是美国民主