人工智能初创公司 Ideogram 近日发布了备受瞩目的 Ideogram 4.0 开放权重文生图模型。根据权威排分数据及多项视觉测试,该模型目前已被业内公认为全球性能最强大的开源图像生成 AI。其核心规模达到了 9.3B( 93 亿)参数,采用了近期前沿开源模型主流的单流架构路线,实现了文本与图像标志(tokens)在同一个自注意力序列中的无缝融合。

排版排版,这才是真正的海报大师
在技术架构层面上,Ideogram 4.0 组合了先进的 Qwen3-VL-8B-Instruct 文本编码器、 34 层单流扩散 Transformer(DiT)以及 Euler 流匹配采样器。这种深度的架构创新,赋予了该模型在图像中精准绘制长文本的超强能力。相比传统生图模型常常出现的字母错乱、拼写错误等硬伤,新模型可以生成极为清晰、准确的文字,完美适用于视觉排版、封面设计和文字海报制作。
为了让图像中的元素布局更加合理,研发团队在训练过程中加入了对象和文本的边界框数据。再配合结构化的 JSON 字幕数据训练,Ideogram 4.0 展现出了对空间关系的强大理解力。用户现在可以通过提示词,极为精确地指定画面的整体版式、各个对象的位置以及文本的排版布局,彻底告别了以往生图靠“抽卡”的盲目性。

盲测打榜斩获全球第四
官方展示的样例证明,Ideogram 4.0 生成的图像质量极高,能够轻松驾驭复杂的人物、细腻的场景以及各类商业设计,为图片创作和社媒素材出图带来了极大的便利。在知名图形评估平台 DesignArena 的最新排名中,Ideogram 4.0 的表现甚至超越了 Nano Banana Pro,直接跃升至全球第四的位置。
值得一提的是,该榜单采用的是完全隐藏模型名称、由人类评审根据纯粹的视觉效果进行盲测打分。这种纯人工观感的评估机制具有极高的含金量和可信度,充分印证了 Ideogram 4.0 在开源生图领域无与伦比的领先优势。
