Stable Diffusion 3技术报告揭露Sora同款架构细节

量子位

发布于AI新闻资讯 · 1 分钟阅读 · 2024年3月6号 21:03

Stable Diffusion 3（SD3）技术报告详细介绍了SD3采用的多模态扩散Transformer架构MMDiT，通过对图像和文本表示使用单独两组权重的方式，提升了性能。报告还揭露了SD3引入了重新加权流技术，并进行了规模化研究展望未来的性能提升。此外，报告还提到了文本编码器的问题和建议。总体来说，SD3在技术方面的创新和性能表现给人留下了深刻印象。

阶跃星辰发布图像生成模型Step-1X-Medium 支持图生图等新功能

上海阶跃星辰智能科技有限公司近日宣布，其图像生成模型Step-1X系列迎来了重大升级，推出了性能更优的Step-1X-Medium版本。这一升级版本在多个方面实现了显著提升:基于MMDit架构，生成速度提高了30%以上;经过针对性训练，新版本在理解能力和图文一致性方面更强，生成的画面细节质感更加自然。

震撼来袭！Stability AI的SD3.5L新增三大 ControlNet功能生图能力再升级

Stability AI 正式发布了新版 Stable Diffusion3.5 Large，并新增了三种 ControlNet 功能，分别是Blur、Canny和Depth。这一更新为用户提供了更强大的图像生成能力，使得生成的图像更加丰富和多样化。根据 Stability AI 的介绍，这一模型的发布是基于其社区许可协议，允许用户在不商业化的前提下免费使用。无论是个人还是机构，都可以在科学研究等领域使用该模型，而无需支付费用。此外，对于年收入低于100万美元的小型企业和创作者，Stability AI 也允许其在商业用途上免费使用该模型。这种宽松的使用

免费开放商用！Stability AI推轻量级AI绘画利器 Stable Diffusion 3.5 Medium模型

Stability AI再次突破技术壁垒，推出全新Stable Diffusion3.5Medium模型。这款面向大众的AI绘画工具不仅完全免费开放商用，更重要的是实现了高性能与普及性的完美平衡。这款采用多模态扩散变换器（MMDiT-X）架构的模型，以25亿参数的精简设计，巧妙解决了普通用户的硬件门槛问题。仅需9.9GB显存，便能在大多数消费级显卡上流畅运行，真正实现了"人人可用"的愿景。在技术创新方面，该模型整合了三种预训练文本编码器，并引入QK标准化技术提升训练稳定性。特别值得一提的是，其前12个变换层

Genmo 重磅开源视频生成模型 Mochi 1：高画质、超流畅，家用电脑也能创作好莱坞级大片！

视频生成领域迎来重大突破!Genmo 公司重磅开源了其最新的视频生成模型 Mochi1，为视频生成领域树立了新的标杆。Mochi1采用创新的 Asymmetric Diffusion Transformer（AsymmDiT）架构，拥有高达100亿个参数，是迄今为止公开发布的最大视频生成模型。更重要的是，它完全从头开始训练，具有简单、可修改的架构特点，为开源社区的开发者提供了极大的便利。Mochi1的最大亮点在于其卓越的运动质量和对文本提示的精准遵循。它能够生成长达5.4秒、帧率高达30帧/秒的流畅视频，其时间连贯性和逼真的运动动

Stable Diffusion 3模型发布，架构细节大揭秘，对复现Sora有帮助？

["Stable Diffusion 3 模型发布","DiT（Diffusion Transformer）架构应用","Stable Diffusion 3 在质量上有显著改进","Stable Diffusion 3 优于其他文本到图像生成系统","Stable Diffusion 3 参数量从 800M 到 8B","SD3 架构基于 Sora 核心研发成员和纽约大学助理教授合作","MMDiT 架构优于 UViT 和 DiT","Stable Diffusion 3 采用 Rectified Flow（RF）公式","作者提出的重新加权 RF 变体性能持续提高","Stable Diffusion 3 模型进行了扩展研究","作者利用灵活的文本编码器进行改进","Stable Diffusion 3 与其他模型进行了性能比较"]

Stable Diffusion 3：超越现有文本到图像生成系统的最强文生图模型

["Stable Diffusion 3是一款最强的文生图模型","Stable Diffusion 3采用了MMDiT架构，展现出超越现有文本到图像生成系统的性能","Stable Diffusion 3在视觉美感、文本遵循和排版方面超越了其他先进模型","MMDiT架构结合了DiT和矩形流形式，通过独立的权重集合处理图像和语言表示","Stable Diffusion 3具有灵活性，能在不同硬件设备上快速生成图像，并提供多种模型规模选择","Stable Diffusion 3通过MMDiT架构、Prompt Following功能、Rectified Flow方法等技术实现了改进"]