性价比之王：微软开源 Phi-4-reasoning-vision-15B，主打轻量化多模态推理

微软近日正式开源了其最新研发的多模态推理模型 Phi-4-reasoning-vision-15B。该模型凭借15B 的参数规模，在保持轻量化的同时，实现了高性能与低成本的理想平衡，为资源受限环境下的复杂视觉任务提供了全新选择。

精细化数据驱动的“小钢炮”

不同于业内动辄消耗万亿级 token 的模型，Phi-4-reasoning-vision 仅使用了200B 多模态 token 进行训练。研发团队将数据质量置于首位，通过深度清洗开源数据、生成定向合成数据以及精密的领域数据配比（如增加数学数据可同步提升计算机操作能力），使其在科学推理和屏幕定位任务上表现优异。

创新的混合推理策略

该模型的一大亮点是采用了“混合推理路径”设计:

感知任务: 在处理图像描述、OCR 等简单任务时，模型默认采用直接作答模式，有效降低延迟。
推理任务: 在面对数学公式、科学图表等复杂逻辑时，模型会自动调用结构化的思维链（CoT）路径，确保答案的准确性。
用户还可以通过特定的引导词，手动切换这两种模式以适配不同场景。

得益于 SigLIP-2动态分辨率编码器的加入，该模型对高分辨率截图中的细小元素具有极强的感知力。这使其成为开发计算机操作助手（CUA）的理想选择，能够精准识别并操作网页或手机界面上的按钮与输入框。

目前，Phi-4-reasoning-vision-15B 已在多个开源平台发布。微软希望通过这款紧凑型模型，证明在多模态领域，“更小、更快”也能与“更强”并行，进一步推动空间智能与实时交互技术的普及。

微软推出全球最高精度的语音转写模型 MAI-Transcribe-1

微软发布全新语音转文字模型MAI-Transcribe-1，在25种语言上平均词错误率仅3.9%，成为全球最精准转写模型。该模型在FLEURS基准测试中表现优异，尤其在英语等11种核心语言上效果突出。这是微软MAI系列第三款产品，此前已推出语音合成和图像生成模型。

性价比之王：微软开源 Phi-4-reasoning-vision-15B，主打轻量化多模态推理

相关推荐

微软 Bing 团队开源 “Harrier” 多语言嵌入模型

Anthropic 招募微软高管，重塑 AI 基础设施以应对激增需求

微软引入高温超导技术：让数据中心电力传输“零损耗”

微软开启“AI 自主化”总攻：拟 2027 年问世最强自研模型

微软推出全球最高精度的语音转写模型 MAI-Transcribe-1

性价比之王：微软开源 Phi-4-reasoning-vision-15B，主打轻量化多模态推理

相关推荐

​微软 Bing 团队开源 “Harrier” 多语言嵌入模型

Anthropic 招募微软高管，重塑 AI 基础设施以应对激增需求

微软引入高温超导技术：让数据中心电力传输“零损耗”

微软开启“AI 自主化”总攻：拟 2027 年问世最强自研模型

​微软推出全球最高精度的语音转写模型 MAI-Transcribe-1

微软 Bing 团队开源 “Harrier” 多语言嵌入模型

微软推出全球最高精度的语音转写模型 MAI-Transcribe-1