知名 AI 编程辅助工具Cursor近日分享了一项内部测试发现:在处理超长程、自主性的编程任务时,OpenAI 最新GPT-5.2模型表现出比 Anthropic 的Claude Opus4.5更高的可靠性。为了验证模型能力,Cursor 团队尝试从零开始构建一个功能完备的Web 浏览器,涵盖了 HTML 解析、CSS 布局及自定义 JavaScript 虚拟机等复杂底层架构。

image.png

实测结果显示,GPT-5.2在这种需要数百万行代码、耗时数周的“长跑式”任务中,能够更精准地遵循复杂指令,并保持极高的专注度,有效避免了长程任务中常见的“目标漂移”问题。相比之下,Claude Opus4.5虽然在许多场景表现出色,但在处理此类极大规模工程时,往往更倾向于中途停止或寻找捷径,提前交出控制权。

目前,Cursor已在其平台上同步上线了GPT-5.2模型,旨在探索 AI 代理是否能独立完成通常需要人类团队花费数月才能完成的大型项目。除了浏览器实验,该模型还成功完成了包括 Windows7模拟器及超百万行代码的复杂迁移任务,展现了生成式 AI 在自主工程领域的巨大潜力。

划重点:

  • 🚀 长程任务优势: Cursor指出GPT-5.2在长时间、大规模的自主编程任务中,比Claude Opus4.5更能专注目标,不偷懒、不掉链子。

  • 🌐 硬核实测案例: 团队利用 AI 代理从零编写了 Rust 版本的浏览器内核,证明了模型在处理数百万行代码时的工程落地能力。

  • 🛠️ 效率大幅提升: 在特定任务中,AI 代理重写的渲染管线性能提升了25倍,且能自动添加平滑缩放和动态模糊等复杂视觉效果。