正文

“百模大战”家家第一,大模型“跑分”作弊何时休?

aibase

发布于AI新闻资讯

发布时间 :2023年11月29号 9:08

阅读 :1分钟

文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。

相关推荐

字节豆包灰测网约车服务，AI Agent加速重构服务入口

6月22日，字节跳动豆包在北京、杭州开启网约车功能灰度测试，标志着大模型从虚拟对话延伸至实体服务，成为大厂重构本地生活流量入口的关键布局。用户无需跳转第三方，只需在对话框口述需求，大模型即可精准识别起点等信息，打造全新自然语言交互出行体验。

2026年6月22号 15:21

中兴通讯与腾讯达成战略合作，AI云电脑将搭载原生Work Buddy

中兴通讯与腾讯达成深度战略合作，将推出搭载腾讯原生AI助手Work Buddy的AI云电脑产品。这一“软硬一体化”融合消息引发资本市场强烈反应，6月4日中兴通讯AH股双双大涨，A股涨超5%，H股最高涨近8%，市场对双方联合拓展AI应用生态信心十足。

2026年6月4号 11:11

中国移动发布MoMA平台：开启AI“水电煤”时代，Token成本降幅达30%

2026移动云大会上，中国移动发布MoMA模型服务平台，推动大模型从实验室走向千行百业，实现AI“随处可用”。平台核心优势是聚合能力，通过统一API网关，用户一次接入即可调用包括自研“九天”基座大模型在内的300余款主流模型，实现“拎包入住”。

2026年5月11号 9:58

爆火的DeepSeek-V4 背后：北大开源框架One-Eval如何终结AI测评“噩梦”？

DeepSeek-V4发布仅10小时，北京大学DCAI团队便通过最新开源的One-Eval评测框架，快速生成全量自动化评测报告。传统大模型评测流程繁琐，需耗费大量精力在搭建测试管道上，而One-Eval显著提升了效率，标志着行业进入新阶段。

2026年4月28号 10:30

字节跳动启动前沿技术人才校招，面向全球博士生开放多个AI方向

字节跳动启动校园招聘，面向全球博士生开放全职与实习岗位，优先考虑有顶会论文、专利、竞赛获奖或重大项目经历的技术人才。

2026年4月17号 14:24

AIBase

智启未来，您的人工智能解决方案智库

© 2026AIBase 备案号：闽ICP备08105208号-24