在人工智能领域的飞速发展中,编程智能体正逐渐成为开发者的重要助手。近日,AI 大模型公司 MiniMax 宣布推出一项全新的开源基准测试 ——OctoCodingBench,旨在评估编程智能体在代码仓库环境中对指令的遵循能力。这一基准测试的推出,将为智能体的评估和优化提供新的方向。

那么,为什么需要 OctoCodingBench 呢?目前的许多基准测试,例如 SWE-bench,主要关注智能体完成任务的能力,忽略了一个至关重要的方面:智能体在执行任务的过程中是否遵循了规定的规则。实际上,在真实的编程场景中,智能体不仅要生成正确的代码,还必须遵守一系列系统级行为约束、项目编码规范和工具使用协议。这些规则确保了代码的规范性与安全性,避免了在开发过程中的不必要错误。

image.png

OctoCodingBench 通过测试智能体对七种不同指令来源的遵循程度,提供了一个多维度的评估框架。这七种指令来源包括系统提示、系统提醒、用户查询、项目级约束、技能、记忆和工具架构。这种全面的评估方式能够更好地反映智能体的实际能力。

值得注意的是,OctoCodingBench 采用二元检查清单的评分机制,对每一项检查进行客观评定。这种方法使得评估结果更为准确,能够有效地区分任务完成率和规则遵循率。此外,OctoCodingBench 还支持多个脚手架环境,如 Claude Code、Kilo 和 Droid,这些都是实际生产环境中使用的工具。

image.png

发布的 OctoCodingBench 数据集包含72个精选实例,涵盖自然语言用户查询和系统提示等多种情境,同时还提供了2,422个评估检查项,帮助开发者全面了解智能体的表现。所有测试环境都可以通过公开的 Docker 镜像进行访问,极大地方便了开发者的使用与测试。

通过 OctoCodingBench,MiniMax 不仅为编程智能体的开发和评估设定了新标准,也推动了 AI 在软件开发领域的进一步应用。

地址:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench