3月18日,Midjourney正式发布其V8模型的早期版本。作为一次重大的架构更新,V8模型在Alpha网站上线后立即引发行业关注,其图像生成速度较前代提升约5倍。
此次更新引入了原生渲染2K分辨率图像的--hd模式,并新增旨在增强图像连贯性的--q4参数。技术层面,V8显著提升了对复杂、长文本指令的遵循能力,尤其在处理图像内嵌文本渲染时,通过引号识别机制实现了更高的准确率。
尽管性能大幅跃升,但Midjourney仍坚持1000%的纯扩散模型路径。在与谷歌Nano Banana及OpenAI GPT Image1.5等融入自回归(AR)组件的混合架构模型对比中,V8在处理极高逻辑要求的抽象指令(如特定角色位置颠倒)时仍存在局限。

为此,官方建议追求极致写实的用户配合--raw模式或风格参考功能使用。值得注意的是,性能的提升伴随着成本转嫁:在运行高清及高连贯性模式时,单次作业耗时与费用均达到标准模式的4倍,且首发阶段暂不支持非耗时的“放松模式”。
在当前AI绘画领域加速迈向自回归与扩散模型融合的背景下,Midjourney V8的发布标志着扩散模型在效率极限上的进一步突破。然而,高昂的算力溢价与复杂逻辑理解的瓶颈,也反映出纯扩散架构在面对日益增长的精确控制需求时所面临的挑战。
