中国大模型在国际顶尖竞技场上再次刷新了纪录。3月20日,
凭借这一强势表现,

作为由国际开源研究机构 LMSYS 组织的第三方评测平台,
数学能力: 排名全球第五,展现了极强的逻辑推理底蕴。
综合性能: 在无风格控制的绝对胜率比拼中位列全球第六。
专家级处理: 在复杂文本处理能力方面同样跻身全球前十。

据
目前,该模型已作为预览版开放,

中国大模型在国际顶尖竞技场上再次刷新了纪录。3月20日,
凭借这一强势表现,

作为由国际开源研究机构 LMSYS 组织的第三方评测平台,
数学能力: 排名全球第五,展现了极强的逻辑推理底蕴。
综合性能: 在无风格控制的绝对胜率比拼中位列全球第六。
专家级处理: 在复杂文本处理能力方面同样跻身全球前十。

据
目前,该模型已作为预览版开放,
欧洲Mistral AI发布全能型大模型Mistral Small4,首次在单一模型中融合旗舰级推理、多模态理解和强大编程能力,让开发者无需在不同垂直模型间选择,实现“全都要”。
阿里巴巴千问Qwen3.5-Max-Preview模型在LMArena盲测榜单中表现突出,以1464分刷新国产模型纪录,并在多项评测中超越GPT5.4、Claude4.5及Grok4.1等海外顶尖模型,标志着中国自研大模型正式跻身全球第一梯队。
字节跳动AI助手豆包于2026年3月启动AI电商功能灰度测试,将大模型深度融入电商交易。该功能主打“一句话购物”,利用自然语言理解能力,用户仅需模糊表达需求,系统即可精准匹配商品、提供建议并直达下单,大幅简化购物流程。截至2025年底,豆包月活用户已达2.26亿。
阿里千问大模型家族发布旗舰预览版Qwen3.5-Max-Preview,在全球权威评测平台LM Arena中刷新纪录,综合得分1464分。该模型在LMSYS匿名盲测中表现强劲,全球总排名第五,为中国大模型最高;其数学能力位列全球第五,展现出专家级文本处理水平。
日本乐天集团发布号称国内最强自研大模型,但开源社区发现其底层架构文件指向中国团队开发模型,引发套壳争议。