谷歌周四发布了基于最先进基础模型Gemini3Pro的"重新构想"版Gemini Deep Research研究代理。这款新型智能体不仅保留了生成研究报告的核心功能,更重要的是通过全新交互API,首次允许开发者将谷歌的SATA模型研究功能嵌入到自己的应用程序中,为开发者在智能体AI时代提供更大控制权。

功能升级与广泛应用
这款智能代理能够整合海量信息并处理提示信息中的大量上下文数据。据谷歌透露,客户使用该工具执行的任务范围广泛,从企业尽职调查到药物毒性安全研究均有涉及,展现了其在专业领域的实用价值。
谷歌还宣布,即将把这款深度研究代理集成到旗下多项核心服务中,包括谷歌搜索、谷歌财经、Gemini应用以及广受欢迎的NotebookLM。这一举措标志着谷歌正在推进一个由AI代理代替人类执行搜索任务的未来愿景。

技术突破:对抗AI幻觉
谷歌强调,Deep Research受益于Gemini3Pro作为其"最真实"模型的地位。该模型经过专门训练,可在执行复杂任务时最大限度地减少幻觉现象。AI幻觉——即大语言模型随意编造信息——对于需要在几分钟、几小时甚至更长时间内做出许多自主决策的长时间运行深度推理任务而言,是一个尤为关键的问题。即使只有一个幻觉性的选择,也可能导致整个输出结果无效。
基准测试表现
为证明技术进展,谷歌创建了名为DeepSearchQA的新基准测试并已开源,专门测试智能体在复杂多步骤信息检索任务中的表现。谷歌还测试了"人类最后考试深度研究"(Humanity's Last Exam)这一检验通用知识的基准测试,以及基于浏览器的智能体任务基准测试BrowserComp。
测试结果显示,谷歌的新智能体在自研基准测试和Humanity基准测试中击败了竞争对手。不过OpenAI的ChatGPT5Pro表现令人惊喜,在所有测试项目中紧随其后,并在BrowserComp测试中略胜一筹。

市场竞争白热化
但这些对比几乎立刻过时。就在同一天,OpenAI发布了备受期待的GPT5.2(代号Garlic)。OpenAI表示,其最新模型在一系列典型基准测试中均优于竞争对手,尤其是谷歌,包括OpenAI自研的基准测试。
此次公告最引人注目之处在于其发布时机。谷歌深知全世界都在翘首期盼Garlic的发布,于是也同步发布了这项AI新消息,凸显了科技巨头间在AI领域的激烈竞争态势。
