近日,谷歌研究院、谷歌 DeepMind 与麻省理工学院联合发布了一项研究,挑战了 “更多智能体意味着更好结果” 的传统观点。研究团队通过180项控制实验,探讨了多智能体系统在不同任务中的表现,结果显示性能波动极大,有的任务提升达到81%,而有的任务则下降了70%。

研究表明,任务的类型对多智能体系统的效果有显著影响。在一些并行任务中,例如金融分析,采用集中式的多智能体协调能够显著提升性能。不同的智能体能够独立分析销售趋势、成本结构和市场数据,然后将结果汇总,最终实现了近81% 的性能提升。

然而,在一些需要顺序进行的任务中,如 Minecraft 的规划任务,多智能体的设置反而会使性能下降39% 到70%。这是因为每个制作动作都会影响到后续动作所依赖的库存状态,任务之间的顺序依赖性使得信息在智能体之间传递时可能会丢失或被分割。

研究发现,影响多智能体系统性能的主要因素有三个:首先,任务涉及的工具越多,像网络搜索或编码等任务就越容易受到多智能体系统的负面影响。其次,当单个智能体的成功率超过45% 时,添加更多智能体通常会导致收益递减或负收益,协调成本会抵消增益。最后,错误的累积在多智能体环境中会加速,缺乏信息共享的情况下,错误会比单个智能体环境中快17倍。

划重点:

🌟 多智能体系统在并行任务中表现优异,但在顺序任务中却会显著降低效率。

🤖 当单个智能体的成功率超过45% 时,采用多智能体系统可能并不划算。

🔧 任务涉及的工具越多,多智能体系统的协调成本就越高,影响性能。