正文

浙大校友与微软合作推出多模态模型LLaVA，挑战GPT-4V

发布于AI新闻资讯

发布时间 :2023年10月12号 9:26

阅读 :1分钟

浙大竺院的一位校友与微软研究院合作，推出了多模态模型LLaVA，挑战GPT-4V。LLaVA在11个测试数据集上表现出色，获得6k+星标。模型综合能力高，超过GPT-4V水平的85%。LLaVA的开源代码、模型和训练数据已经可供使用。

国产大模型新动向：MiniMax 启动「10x Team」计划，悬赏全球顶尖专家

MiniMax（稀宇科技）启动“10x Team”全球人才合作计划，旨在汇聚各行业顶尖专家，结合行业深度认知与前沿AI技术，推动大模型在垂直领域的应用，将生产力从通用扩展至专业场景，实现行业效率“十倍增长”，并开放多模态核心资源以验证行业认知价值。

MiniMax（稀宇科技）启动“10x Team”合作计划，旨在与各行业顶尖人才协作，将大模型从编程、内容创作拓展至工业软件、游戏引擎、芯片设计、金融等垂直领域，实现效率“十倍增长”。已与专家开展实质性合作，验证行业认知对模型进化的驱动作用。

TikTok 停止测试自动生成视频文字摘要的AI功能“AI概览”，该功能曾在美国等市场小范围测试数月，旨在提供视频背景信息和产品推荐。但因出现严重“幻觉”，如错误将头部创作者Charli D'Amelio的信息混淆，引发广泛关注。TikTok决定将研发转向特定领域。

计算机视觉正从“看清世界”转向“理解与交互”。随着感知能力接近人类极限，单纯追求准确率的边际收益递减。CVPR2026标志着研究重点转向：视觉成为推理、决策与交互的中介，告别“盲目推理”，迈向自适应与隐式路径，如多模态模型通过“思维链”展开逻辑。

英伟达发布开放式多模态模型Nemotron 3 Nano Omni，整合视频、音频、图像和文本推理能力，采用30B-A3B混合专家架构，集成视觉与音频编码器，无需额外感知模型，显著提升大规模推理效率，在复杂文本处理等领域表现出色。

智启未来，您的人工智能解决方案智库