文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关推荐
中国移动发布MoMA平台:开启AI“水电煤”时代,Token成本降幅达30%
2026移动云大会上,中国移动发布MoMA模型服务平台,推动大模型从实验室走向千行百业,实现AI“随处可用”。平台核心优势是聚合能力,通过统一API网关,用户一次接入即可调用包括自研“九天”基座大模型在内的300余款主流模型,实现“拎包入住”。
2026年5月11号 9:58
194.8k
爆火的DeepSeek-V4 背后:北大开源框架One-Eval如何终结AI测评“噩梦”?
DeepSeek-V4发布仅10小时,北京大学DCAI团队便通过最新开源的One-Eval评测框架,快速生成全量自动化评测报告。传统大模型评测流程繁琐,需耗费大量精力在搭建测试管道上,而One-Eval显著提升了效率,标志着行业进入新阶段。
2026年4月28号 10:30
178.1k
字节跳动启动前沿技术人才校招,面向全球博士生开放多个AI方向
字节跳动启动校园招聘,面向全球博士生开放全职与实习岗位,优先考虑有顶会论文、专利、竞赛获奖或重大项目经历的技术人才。
2026年4月17号 14:24
446.0k
阿里通义千问 App 独家冠名四大卫视春晚,AI 智能体首登艺术舞台
阿里通义千问App继投入30亿元启动“春节请客计划”后,再获东方卫视、浙江卫视、江苏卫视及河南卫视四大马年春晚独家冠名权。与以往不同,通义千问将深度参与节目内容创作,作为“AI演员”融入表演,利用AI视频生成、图像识别和实时问答等尖端技术,为观众呈现科技感十足的春晚体验。
2026年2月3号 11:35
186.4k
腾讯升级自研基础模型腾讯混元 并部署到内部产品
["腾讯扩展了广告人工智能模型的参数,提高定向和归因准确性。","腾讯升级自研基础模型腾讯混元并部署到内部产品。","腾讯云通过升级 MaaS 能力,在多个产品中应用大模型。","腾讯混元在广告、游戏、内容等领域发挥作用。","腾讯云推动大模型在各行业应用落地。"]
2023年11月16号 8:41
152.6k
