Google 日前宣布对 Gemini API 中的文件搜索功能进行重大升级,旨在为开发者提供更完善的多模态检索增强生成(RAG)能力。此次更新不仅打破了传统文本检索的局限,更将 AI 的理解维度扩展到了图像与复杂文档的深度整合,标志着企业级 AI 应用在信息检索准确性上迈出了关键一步。
技术层面上,新版文件搜索功能基于 Gemini Embedding2模型构建。与以往单纯依靠文本向量搜索不同,升级后的系统具备统一的多模态嵌入能力,能够同时识别和处理 PDF、文档以及各类图片中的视觉信息。这意味着开发者无需再耗费精力搭建复杂的向量数据库或文档切分系统,即可在 Gemini API 内部实现从数据上传到信息检索的完整 RAG 工作流。

在实际应用场景中,这一进步解决了传统 RAG 系统难以处理非文本内容的痛点。以往,文档中的图表、设计图或产品截图往往成为 AI 的“盲区”,导致回答缺失关键上下文。而现在,Gemini API 能够原生理解这些视觉元素。例如,当企业上传包含技术架构图或销售趋势表的 PDF 时,AI 可以结合图表数据与文字描述给出精准推论,极大提升了客服机器人和文档分析系统的实用性。
为了进一步优化大规模知识库的管理效率,Google 还引入了自定义元数据过滤功能。开发者可以根据部门、时间、分类等维度为文件添加标签,在检索时通过预设条件过滤无关信息,从而确保 AI 输出的回答更加聚焦。
此外,针对用户最关心的信息溯源问题,Gemini API 现已支持页面级引用。AI 在生成答案时,会明确标注信息源自文档的具体页码,而非仅仅指向整个文件。这种透明度的提升,不仅方便用户快速核实内容准确性,也为深度阅读提供了便利。
目前,这项增强版文件搜索功能已向全球开发者开放。用户可以通过 Google AI Studio 或 Google Cloud 平台接入,体验多模态 RAG 带来的开发便利与效率提升。
