7月30日,昆仑万维正式推出并开源了采用自回归路线的多模态统一预训练模型Skywork UniPic。该模型在单一架构中深度融合了图像理解、文本到图像生成及图像编辑三大核心能力,基于大规模高质量数据端到端预训练,展现了优异的通用性与可迁移性。
模型采用MAR编码器与SigLIP2主干网络,突破了传统多模态模型依赖VQ或VAE编码器导致的语义信息保留不足的局限,实现了跨任务的深度协同。用户仅需输入提示词,即可同时完成图像理解、生成及风格转绘等复杂操作,例如生成特定场景的图片或对图像进行风格化编辑。
在性能方面,Skywork UniPic以1.5B参数规模实现了接近大型统一模型的效能。在指令遵循、复杂指令生图及图像编辑等基准测试中,该模型均达到行业领先水平,尤其在消费级显卡上即可流畅运行,显著降低了技术应用门槛。
模型的成功得益于精炼的数据构建体系、专用的Reward Model优化及渐进式多任务训练策略。通过高效能语料库与分层分辨率训练机制,Skywork UniPic兼顾了模型性能与训练效率,避免了传统方法中能力权衡的技术瓶颈。
此次开源是昆仑万维持续推动AI技术普惠的重要举措。此前,公司已开源多个领域的大模型,而Skywork UniPic的加入将进一步助力AI成为触手可及的创意工具。用户可通过指定链接获取模型权重、技术报告及代码仓库等核心资源。
模型权重:
https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告:
https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库:
https://github.com/SkyworkAI/UniPic