今日,美团 LongCat 团队正式发布并开源了最新的 AI 模型 ——LongCat-Flash-Thinking-2601。该模型作为 LongCat-Flash-Thinking 系列的升级版,在智能体搜索、工具调用及推理等多项核心评测基准上,已达到当前开源模型的最高水平(SOTA)。

QQ20260116-135826.png

LongCat-Flash-Thinking-2601的核心优势在于其卓越的工具调用能力。这一能力使得模型在面对依赖工具的复杂任务时表现出色,显著降低了真实场景中对新工具适配的训练成本。此外,该模型的 “重思考模式” 首次以开源形式提供在线免费体验,用户可在 https://longcat.ai 网站上进行尝试。在这一模式下,模型模拟了人类深思熟虑的过程,将思考分为并行思考和总结归纳两个阶段,确保思维的全面性和决策的可靠性。

经过严谨的评估,LongCat-Flash-Thinking-2601在编程、数学推理、智能体工具调用及搜索能力等多项指标上均表现优异。在编程能力方面,该模型在 LCB 评测中获得82.8分,位居同类模型前列;数学推理方面,在 AIME-25评测中获得满分100分,进一步巩固了其在该领域的领先地位。

QQ20260116-135848.png

为了评估模型的泛化能力,LongCat 团队还提出了一种全新的评测方法,利用自动化任务合成流程,支持用户基于关键词随机生成复杂任务,并评估模型在此类环境中的表现。实验表明,LongCat-Flash-Thinking-2601在多项随机生成的任务中均保持领先表现,印证了其强大的泛化能力。

在训练过程中,LongCat 团队采用了 “环境扩展 + 多环境强化学习” 的策略,为模型提供了多样化的高强度训练环境,显著提升了其在复杂场景下的适应能力。此外,团队还对训练数据进行了噪声注入,以增强模型的稳健性,使其在面对 API 调用失败或数据缺失等复杂情况下仍能高效完成任务。

为了降低开发者的使用门槛,美团 LongCat 团队同时开放了模型的权重、推理代码及在线体验能力,鼓励开发者积极参与这一开源项目。开发者可通过 GitHub、Hugging Face 和 ModelScope 等平台获取资源,并在 https://longcat.ai 进行在线体验。