智谱 AI 近日发布了专门针对视觉编程打造的大模型 GLM-5V-Turbo。这款模型最大的突破在于它不仅能理解文字,还能直接“看懂”设计稿和网页截图。

通过原生多模态能力的融合,GLM-5V-Turbo 让 AI 编程告别了纯文本输入的局限。开发者只需上传一张草图或界面截图,模型就能自动生成可运行的前端代码。

image.png

视觉感知:从“读文档”到“看界面”

这款新模型拥有200k 的超长上下文窗口,能够处理极其复杂的代码库。它不仅能识别网页的布局,还能精准捕捉配色、组件层级以及细微的交互逻辑。

在实际测试中,GLM-5V-Turbo 在设计稿还原和视觉代码生成等任务上表现出色。这意味着从视觉稿到成品页面的转化效率将得到质的飞跃。

image.png

赋能智能体:让“龙虾”具备观察力

智谱旗下的 AutoClaw(龙虾)智能体在接入该模型后,获得了真正的视觉能力。它现在可以像人类一样浏览网页,甚至能解读复杂的 K 线图和券商研报图表。

目前,龙虾已上线“股票分析师”功能,支持四路数据源并行采集。它能在60秒内看懂市场走势并输出图文并茂的专业报告,极大拓宽了 AI 助手的任务边界。

智谱此举标志着 AI Agent 的感知链路正式从纯文本延伸到了视觉交互领域。当 AI 具备了“所见即所得”的能力,软件开发的门槛将进一步降低。

对于前端开发者而言,交互式编辑功能将成为强大的催化剂。用户可以通过简单的指令要求 AI 修改样式或增加弹窗,实现可视化、高效率的迭代开发。