在大模型向垂直专业领域进军的征途中,
3月21日,

在衡量模型逻辑推理能力的顶级基准测试中,
刷新纪录: 在 MiniF2F-Test 测试中取得了 97.1% 的惊人成绩,仅需72次推理尝试。
攻克难题: 在 PutnamBench 任务中成功解决了41.5% 的问题,上述两项数据均刷新了全球 SOTA(当前最佳)水平。
为了让大模型真正拥有“数学家”般的严谨,
消除幻觉: 引入了基于 AST(抽象语法树)的多阶段严格验证流程,并整合 Lean4形式化语言,从根源上杜绝了 AI 在逻辑推演中的“胡言乱语”。
训练算法进化: 针对 MoE 模型长程任务训练不稳的顽疾,美团引入了自研的 HisPO 算法,并配合定理一致性检测机制,有效防止了模型在强化学习阶段出现“投机取巧”的奖励黑客行为。
高效架构:5600亿的总参数量确保了模型深厚的知识底蕴,而
目前,
随着
