Stable Diffusion 3(SD3)技术报告详细介绍了SD3采用的多模态扩散Transformer架构MMDiT,通过对图像和文本表示使用单独两组权重的方式,提升了性能。报告还揭露了SD3引入了重新加权流技术,并进行了规模化研究展望未来的性能提升。此外,报告还提到了文本编码器的问题和建议。总体来说,SD3在技术方面的创新和性能表现给人留下了深刻印象。
Stable Diffusion 3技术报告揭露Sora同款架构细节

Stable Diffusion 3(SD3)技术报告详细介绍了SD3采用的多模态扩散Transformer架构MMDiT,通过对图像和文本表示使用单独两组权重的方式,提升了性能。报告还揭露了SD3引入了重新加权流技术,并进行了规模化研究展望未来的性能提升。此外,报告还提到了文本编码器的问题和建议。总体来说,SD3在技术方面的创新和性能表现给人留下了深刻印象。
上海阶跃星辰智能科技有限公司近日宣布,其图像生成模型Step-1X系列迎来了重大升级,推出了性能更优的Step-1X-Medium版本。这一升级版本在多个方面实现了显著提升:基于MMDit架构,生成速度提高了30%以上;经过针对性训练,新版本在理解能力和图文一致性方面更强,生成的画面细节质感更加自然。
Stability AI 正式发布了新版 Stable Diffusion3.5 Large,并新增了三种 ControlNet 功能,分别是Blur、Canny和Depth。这一更新为用户提供了更强大的图像生成能力,使得生成的图像更加丰富和多样化。根据 Stability AI 的介绍,这一模型的发布是基于其社区许可协议,允许用户在不商业化的前提下免费使用。无论是个人还是机构,都可以在科学研究等领域使用该模型,而无需支付费用。此外,对于年收入低于100万美元的小型企业和创作者,Stability AI 也允许其在商业用途上免费使用该模型。这种宽松的使用
Stability AI再次突破技术壁垒,推出全新Stable Diffusion3.5Medium模型。这款面向大众的AI绘画工具不仅完全免费开放商用,更重要的是实现了高性能与普及性的完美平衡。这款采用多模态扩散变换器(MMDiT-X)架构的模型,以25亿参数的精简设计,巧妙解决了普通用户的硬件门槛问题。仅需9.9GB显存,便能在大多数消费级显卡上流畅运行,真正实现了"人人可用"的愿景。在技术创新方面,该模型整合了三种预训练文本编码器,并引入QK标准化技术提升训练稳定性。特别值得一提的是,其前12个变换层
视频生成领域迎来重大突破!Genmo 公司重磅开源了其最新的视频生成模型 Mochi1,为视频生成领域树立了新的标杆。Mochi1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。更重要的是,它完全从头开始训练,具有简单、可修改的架构特点,为开源社区的开发者提供了极大的便利。Mochi1的最大亮点在于其卓越的运动质量和对文本提示的精准遵循。它能够生成长达5.4秒、帧率高达30帧/秒的流畅视频,其时间连贯性和逼真的运动动
["Stable Diffusion 3 模型发布","DiT(Diffusion Transformer)架构应用","Stable Diffusion 3 在质量上有显著改进","Stable Diffusion 3 优于其他文本到图像生成系统","Stable Diffusion 3 参数量从 800M 到 8B","SD3 架构基于 Sora 核心研发成员和纽约大学助理教授合作","MMDiT 架构优于 UViT 和 DiT","Stable Diffusion 3 采用 Rectified Flow(RF)公式","作者提出的重新加权 RF 变体性能持续提高","Stable Diffusion 3 模型进行了扩展研究","作者利用灵活的文本编码器进行改进","Stable Diffusion 3 与其他模型进行了性能比较"]
["Stable Diffusion 3是一款最强的文生图模型","Stable Diffusion 3采用了MMDiT架构,展现出超越现有文本到图像生成系统的性能","Stable Diffusion 3在视觉美感、文本遵循和排版方面超越了其他先进模型","MMDiT架构结合了DiT和矩形流形式,通过独立的权重集合处理图像和语言表示","Stable Diffusion 3具有灵活性,能在不同硬件设备上快速生成图像,并提供多种模型规模选择","Stable Diffusion 3通过MMDiT架构、Prompt Following功能、Rectified Flow方法等技术实现了改进"]