近日,IBM 研究人员推出了一款名为 CUGA 的开源 AI 助手,旨在自动化复杂的企业工作流程,并能完成超过一半的任务。CUGA 代表 “可配置通用代理”,该软件通过多代理编排、API 集成和代码生成等功能,力求帮助知识工作者更高效地处理日常或复杂的工作。

根据 IBM 研究团队的描述,CUGA 的设计目标是让知识工作者能够安全、可靠地配置和调整该代理,以满足他们的工作需求。虽然市场上对于 AI 代理的安全性和可靠性存有疑虑,但 IBM 依然看好自动化的前景,并致力于提升工作效率。

CUGA 在 WebArena 和 AppWorld 基准测试中取得了61.7% 的网页任务完成率和48.2% 的 API 任务完成率。这些得分虽然不算高,但在当前 AI 代理技术中已算是顶尖表现。IBM 并未使用自己的企业专用测试标准 WebAgentBench 来评估 CUGA,这引发了一些关注。

通过对比其他 AI 代理的表现,CUGA 的得分显示出 AI 技术的进步。例如,其他代理在类似测试中平均完成率仅为24.4%。IBM 的研究团队指出,企业工作流程通常涉及多项政策的同时适用,因此 CUGA 需要具备更强的政策合规能力。

CUGA 的结构设计上,首先通过对用户意图的分析来理解输入的任务,然后将任务分解为多个子任务,并进行动态的重新规划。这样,CUGA 能将特定子任务分配给专业代理处理,从而确保结果尽可能符合企业的政策。

该系统还与 Langflow 低代码平台兼容,并支持多种开源模型的集成。尽管 CUGA 在实际应用中可能还存在一些小问题,比如偶尔无法正常退出运行循环,但 IBM 强调,用户在使用 AI 代理软件时应保持合理的期望。

划重点:  

🌟 CUGA 是一款开源 AI 助手,旨在自动化复杂的企业工作流程。  

📊 CUGA 在基准测试中取得61.7% 的任务完成率,显示出 AI 代理技术的进步。  

🔧 CUGA 支持动态任务分解和多种开源模型,有望提高工作效率。