OpenAI正式发布ChatGPT Agent,这款全新AI工具标志着人工智能从对话助手向自主任务执行者的重大飞跃。ChatGPT Agent整合了此前OpenAI推出的Operator和Deep Research功能,能够通过虚拟浏览器、终端和API访问,自主完成复杂任务,为用户节省时间并提升效率。
核心功能:从对话到行动
ChatGPT Agent不再局限于文本对话,而是能够像人类一样在网络上浏览、点击、填写表单,甚至执行代码和调用API。它可以处理多样化的任务,例如为婚礼挑选符合预算和风格的服装、制定旅行行程、生成专业报表或创建幻灯片。OpenAI表示,该代理通过GPT-4o模型驱动,结合了Operator的网页交互能力和Deep Research的深度研究功能,打造出一个统一的智能系统。用户只需提供单一指令,Agent即可自主完成多步骤任务,大幅提升生产力。
性能表现:超越行业标杆
ChatGPT Agent在多项基准测试中展现出领先性能。在“Humanity’s Last Exam”测试中,其准确率达到41.6%,远超此前OpenAI o3模型的20.3%和Deep Research的26.6%。在投资银行建模任务中,Agent的平均准确率高达71.3%,在Excel和PowerPoint相关任务中也优于微软Co pilot等竞争对手。此外,其在BrowseComp和WebArena等网页导航任务中的表现分别为68.9%和65.4%,显示出强大的实用性。
安全与限制:用户掌控为核心
OpenAI强调,ChatGPT Agent在设计时注重安全性。在执行涉及密码或支付等“高后果”操作时,Agent会请求用户明确授权,并允许用户随时暂停、中断或接管任务。为防止恶意网站或提示注入攻击,OpenAI实施了严格的防护措施,包括限制敏感操作(如银行转账)和自动删除浏览数据。此外,Agent被归类为“高生物与化学”能力级别,触发了额外的安全保障。
可用性与未来规划
目前,ChatGPT Agent已向ChatGPT的Pro、Plus和Team用户开放,Pro用户可享受每月400次任务配额,而Plus和Team用户为40次,超出配额可购买额外任务额度。OpenAI计划在未来几周内向企业和教育用户扩展访问权限。然而,该功能暂未在欧盟和瑞士推出。OpenAI还透露,Agent可能是通向更强大模型(如传闻中的GPT-5)的基石,未来可能整合更多功能,如支付结算系统。
ChatGPT Agent的发布正值AI行业竞争白热化之际。微软的Co pilot、谷歌的Gemini以及xAI的Grok都在争夺数字生产力接口的主导地位。OpenAI通过Agent的推出,不仅巩固了其在生成式AI领域的领先地位,还向传统搜索和办公软件发起了挑战。业内人士认为,ChatGPT Agent可能重新定义用户与网络和生产力工具的交互方式,成为AI驱动自动化的新标杆。
AIbase认为ChatGPT Agent的推出是OpenAI从对话AI向全面自动化迈出的关键一步。尽管其执行复杂任务可能需要15-30分钟,但相比人工操作已显著提效。未来,随着技术的优化和功能扩展,ChatGPT Agent有望成为企业和个人用户的得力助手。然而,其数据隐私和安全问题仍需持续关注。AIbase将持续跟踪这一产品的后续发展,为读者带来最新洞察。
官方博客:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/