长期以来,人工智能领域存在一个技术痛点:让模型“理解图像”和“生成图像”往往难以兼得。通常,擅长分析图片的内容(视觉理解)的模型,在从头创作高质量图片(图像生成)时表现乏力,反之亦然。然而,苹果公司最新发表的研究论文推出了一款名为“Manzano”的多模态模型,试图彻底解决这一难题。

Manzano 的核心突破在于其创新的“双修”架构。研究人员指出,传统的视觉理解偏好连续的数据流,而图像生成则依赖离散的数据块,这导致模型在同时处理两项任务时容易产生冲突。为了实现近乎无损的融合,Manzano 引入了“混合视觉分词器”。它能同时生成连续和离散的视觉表示,再通过大语言模型预测图像语义,最后由扩散解码器完成像素级的精细渲染。

在实际测试中,Manzano 展现出了惊人的逻辑理解力。即使面对“一只鸟在大象下方飞翔”这种违背常规物理常识的复杂指令,它的表现也与 GPT-4o 等顶尖模型旗鼓相当。此外,该模型不仅能画画,还能处理深度估计、风格迁移和图像修复等多种复杂任务。
虽然 Manzano 目前仍处于研究阶段,但 AIbase 认为,这项底层技术的成熟预示着苹果未来的 AI 功能将更加强大。该技术极有可能被整合进苹果的“图乐园”(Image Playground)等工具中,为用户提供更智能、更具想象力的创作体验。
项目:https://machinelearning.apple.com/research/manzano
划重点:
👁️ 全能架构:
采用了创新的三段式架构,成功融合了“视觉理解”与“图像生成”功能,解决了传统模型难以兼顾两者的冲突。Manzano 🧠 逻辑领先: 在处理反直觉和复杂空间关系的指令时,Manzano 的逻辑准确性已达到行业顶尖水平,足以媲美
等主流模型。GPT-4o 🚀 潜力巨大: 该模型支持从3亿到300亿参数的灵活扩展,未来有望显著提升 iPhone 和 Mac 等端侧设备的 AI 绘图与修图能力。
