阿里巴巴今晚正式开源视频生成模型"通义万相Wan2.2",此次发布包含三款核心模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-IT2V-5B)模型,标志着视频生成技术迎来重大突破。

业界首创MoE架构,计算效率提升50%

通义万相2.2率先在视频生成扩散模型中引入MoE(Mixture of Experts)架构,有效解决了视频生成处理Token过长导致的计算资源消耗过大问题。其中文生视频和图生视频模型总参数量达27B,激活参数14B,均为业界首个使用MoE架构的视频生成模型。

该架构由高噪声专家模型和低噪专家模型组成,分别负责视频的整体布局和细节完善。在同参数规模下,可节省约50%的计算资源消耗,同时在复杂运动生成、人物交互、美学表达等维度上实现显著提升。

8b2342e55b84f6d6618666509c5f186.png

首创电影美学控制系统

Wan2.2的一大亮点是首创的"电影美学控制系统",在光影、色彩、构图、微表情等方面达到专业电影水平。用户通过输入"黄昏"、"柔光"、"边缘光"、"暖色调"、"中心构图"等关键词,模型可自动生成金色落日余晖的浪漫画面;而使用"冷色调"、"硬光"、"平衡图"、"低角度"的组合,则能生成接近科幻片的画面效果。

bc3ffbfed53292d1a262d390a07fa44.png

消费级显卡即可部署的5B统一模型

通义万相还开源了一款5B小尺寸的统一视频生成模型,单一模型同时支持文生视频和图生视频功能。该模型采用高压缩率3D VAE架构,时间与空间压缩比达到4×16×16,信息压缩率提升至64,均实现开源模型的最高水平。

该模型仅需22G显存(单张消费级显卡)即可在数分钟内生成5秒高清视频,是目前24帧每秒、720P像素级生成速度最快的基础模型,大幅降低了AI视频生成的技术门槛。

978f6ec7fb1884b9fc82c6f8d9108d5.png

多渠道开放使用

开发者可在GitHub、HuggingFace、魔搭社区下载模型和代码,企业可通过阿里云百炼调用模型API,普通用户还可在通义万相官网和通义APP直接体验。

自今年2月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频和全能编辑等多款模型,在开源社区的下载量已超500万次,为AI视频生成技术的普及和发展做出重要贡献。

 开源地址:

GitHub:https://github.com/Wan-Video/Wan2.2

HuggingFace:https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI