近日,英伟达与香港大学的研究人员联合发布了名为 “Orchestrator” 的新模型,该模型拥有8亿个参数,能够协调不同的工具和大型语言模型(LLM)来解决复杂问题。在他们的实验中,Orchestrator 在工具使用基准测试中以更低的成本实现了更高的准确性,并且能够根据用户的偏好智能选择合适的工具。

image.png

Orchestrator 的训练通过一种名为 ToolOrchestra 的新强化学习框架进行,旨在培养小型模型作为智能协调者。该方法的核心思想是,由一个轻量级的 “协调者” 管理多种专业模型和工具,能够比单一的庞大 AI 系统更高效地解决问题。

当前,大多数大型语言模型工具使用的方式是将基本工具(如网络搜索或计算器)与强大的模型结合在一起。研究人员认为,实际上人类在推理时会调用各种超越自身智能的资源,因此 LLMs 也应该能够与多种工具进行交互。为此,他们提出了一种从单一模型系统转变为由多个模型构成的复合系统,协调者分析复杂任务,分解成子任务,并按需调用适当的工具。

通过 ToolOrchestra 框架,研究团队训练了 Orchestrator 模型,并对其在三个挑战性基准上的表现进行了评估。与几种大型通用模型进行比较后,Orchestrator 在处理博士级问题的基准 “HLE” 上展现了显著优势,且计算成本远低于其他方法。尤其在调用工具时,Orchestrator 能有效安排不同工具的使用,使得在保持高效的同时减少了高成本模型的调用。

研究者表示,经过强化学习训练的 Orchestrator 展现出了很强的通用推理能力,能够灵活适应新挑战。对于企业应用而言,Orchestrator 能够很好地适应未见过的模型和定价结构,这为依赖多种 AI 模型的企业提供了更加经济和灵活的解决方案。

项目:https://research.nvidia.com/labs/lpr/ToolOrchestra/

划重点:

🌟 Orchestrator 是一个8亿参数的模型,能够智能协调多种工具,提升 AI 的推理能力。

💡 ToolOrchestra 框架使用强化学习训练小模型,以更高效的方式管理复杂任务。

🚀 Orchestrator 在多个基准测试中表现优异,显著降低计算成本,并适应多种企业需求。