昆仑万维开源多模态统一预训练模型 Skywork UniPic

7月30日，昆仑万维正式推出并开源了采用自回归路线的多模态统一预训练模型Skywork UniPic。该模型在单一架构中深度融合了图像理解、文本到图像生成及图像编辑三大核心能力，基于大规模高质量数据端到端预训练，展现了优异的通用性与可迁移性。

微信截图_20250730091348.png

模型采用MAR编码器与SigLIP2主干网络，突破了传统多模态模型依赖VQ或VAE编码器导致的语义信息保留不足的局限，实现了跨任务的深度协同。用户仅需输入提示词，即可同时完成图像理解、生成及风格转绘等复杂操作，例如生成特定场景的图片或对图像进行风格化编辑。

在性能方面，Skywork UniPic以1.5B参数规模实现了接近大型统一模型的效能。在指令遵循、复杂指令生图及图像编辑等基准测试中，该模型均达到行业领先水平，尤其在消费级显卡上即可流畅运行，显著降低了技术应用门槛。

模型的成功得益于精炼的数据构建体系、专用的Reward Model优化及渐进式多任务训练策略。通过高效能语料库与分层分辨率训练机制，Skywork UniPic兼顾了模型性能与训练效率，避免了传统方法中能力权衡的技术瓶颈。

此次开源是昆仑万维持续推动AI技术普惠的重要举措。此前，公司已开源多个领域的大模型，而Skywork UniPic的加入将进一步助力AI成为触手可及的创意工具。用户可通过指定链接获取模型权重、技术报告及代码仓库等核心资源。

模型权重:

https://huggingface.co/Skywork/Skywork-UniPic-1.5B

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

代码仓库:

https://github.com/SkyworkAI/UniPic

昆仑万维开源多模态统一预训练模型 Skywork UniPic，融合图片生成与理解能力

昆仑万维开源多模态模型Skywork UniPic，集成图像理解、生成与编辑三大功能。该1.5B参数的轻量级模型采用自回归架构，基于大规模数据端到端预训练，性能接近大型模型。其创新点在于统一处理多模态任务，支持图文理解、文本生成图像及风格转绘等操作。团队通过精细化数据构建和多阶段训练优化模型表现，在指令遵循等任务中展现优异能力。提供完整技术文档和代码，降低开发者使用门槛。

昆仑万维重磅推出 Skywork UniPic：多模态统一预训练模型开启 AI 新纪元！

昆仑万维发布开源多模态预训练模型Skywork UniPic，整合图像理解、文生图和图像编辑三大功能。该模型采用自回归训练方式，基于大规模高质量数据训练，具备良好的通用性和迁移能力。其开源特性便于开发者二次创新，可广泛应用于内容创作和行业场景。这是昆仑万维在AI领域的重要布局，将推动多模态技术发展和应用普及。

Anthropic计划融资30亿至50亿美元，估值将涨至1700亿美元

【140字概括】AI公司Anthropic拟融资30-50亿美元，估值或达1700亿美元，由Iconiq Capital领投。这家OpenAI前员工创立的企业3月刚完成35亿美元融资，估值615亿，7月年收入已从40亿增至50亿。面对OpenAI和xAI的竞争，其CEO坦言在资本密集型发展阶段难以理想化筛选资金来源。当前行业融资战白热化，OpenAI估值约3000亿，xAI寻求2000亿估值。

昆仑万维开源多模态统一预训练模型 Skywork UniPic，融合图片生成与理解能力

谷歌在在英国推出 AI 搜索模式，提升复杂问题解答体验

谷歌在英国推出AI搜索新模式，基于Gemini2.5模型支持复杂提问，可处理多部分问题。新功能采用查询扩展技术，将问题分解为子主题并行搜索，提供更精准回答。支持文字/语音/图像多种交互方式，用户可上传图片或语音提问。AI模式会评估回答可信度，低信度时转为传统搜索结果。该功能旨在提升搜索深度和效率，同时促进网站流量多元化。目前仍在优化中，谷歌鼓励用户反馈使用体验。

昆仑万维开源多模态统一预训练模型 Skywork UniPic

相关推荐