昆仑万维正式推出了自回归路线的「多模态统一预训练模型 Skywork UniPic」,并将其开源。这款模型在一个系统中集成了图像理解、文本生成图像(T2I)和图像编辑三大核心功能,标志着人工智能技术的进一步发展。

Skywork UniPic 的核心特点在于其基于大规模高质量数据进行端到端的预训练,展现出良好的通用性和可迁移性。该团队致力于推动开放合作和创新共享,用户可以通过提供的链接获取模型权重、技术报告和代码仓库,方便开发者和研究者进行进一步的探索和应用。

image.png

Skywork UniPic 借鉴了 GPT-4o 的自回归范式,通过结合图像理解、文本到图像生成和图像编辑任务,建立了一个真正统一的多模态模型架构。与传统的多模态模型不同,Skywork UniPic 采用了 MAR 编码器和 SigLIP2结构设计,这样的设计意图在于提升模型在理解、生成和编辑任务上的表现。

该模型的能力包括图文理解、图像生成和图像编辑。用户只需输入简单的提示词,Skywork UniPic 就能理解图像内容、生成新图像,甚至进行风格转绘等编辑操作。其使用简便性和强大功能,使得这款模型在开发者中备受关注。

Skywork UniPic 以其1.5B 的轻量级参数规模,实现了近乎大型模型的性能,强调了 “小而美” 的技术设计理念。在各类评估中,该模型表现出色,尤其是在指令遵循、复杂指令生成和图像编辑方面,展现了优异的执行能力。

为确保 Skywork UniPic 的高性能,团队还建立了精细化的数据构建和训练体系,通过使用精选的训练数据和创新的奖励模型,不断优化模型性能。通过多阶段的训练和渐进式任务引入,Skywork UniPic 不仅提升了模型的理解和生成能力,还有效地解决了多任务训练中存在的挑战。

Skywork UniPic 的发布为多模态人工智能模型的实用化应用提供了新的解决方案,极大地降低了技术门槛,鼓励更多开发者参与到这一领域的探索中来。

模型权重:

https://huggingface.co/Skywork/Skywork-UniPic-1.5B

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

代码仓库:

https://github.com/SkyworkAI/UniPic

划重点:

🌟 Skywork UniPic 是昆仑万维推出的开源多模态统一预训练模型,集成了图像理解、生成和编辑功能。  

💻 模型采用1.5B 的轻量级设计,性能接近大型模型,便于开发者使用。  

📊 通过精细化的数据构建和多阶段训练,Skywork UniPic 在各类评估中表现出色,推动了多模态人工智能的发展。