SuperCLUE 发布了中文大模型 8 月榜单,其中包括总排行榜、OPEN 多轮开放问题排行榜、OPT 三大能力客观题排行榜、十大基础能力排行榜和开源排行榜。评测选取了 16 个通用大语言模型,并使用了 3337 道全新的测试题。此次评测发现,国内大模型在中文任务上的表现与 GPT3.5 的差距在持续缩小。
8 月榜单!SuperCLUE 中文大模型评测基准最新排名发布

SuperCLUE 发布了中文大模型 8 月榜单,其中包括总排行榜、OPEN 多轮开放问题排行榜、OPT 三大能力客观题排行榜、十大基础能力排行榜和开源排行榜。评测选取了 16 个通用大语言模型,并使用了 3337 道全新的测试题。此次评测发现,国内大模型在中文任务上的表现与 GPT3.5 的差距在持续缩小。
百度在2024世界大会上首次亮相其最新AI硬件产品——小度AI眼镜。这款被称为"全球首款搭载中文大模型的原生AI眼镜"的产品,展现了百度在可穿戴设备领域的创新实力。从硬件规格来看,小度AI眼镜在轻量化设计上取得突破,整机重量仅45克,确保佩戴舒适度。配备16MP超广角摄像头,集成AI防抖算法,可实现稳定的第一视角拍摄。在续航方面,官方数据显示待机时间可达56小时,支持超过5小时的持续聆听模式,同时具备30分钟快充能力。声学系统采用四麦克风阵列设计,配合开放式防漏音扬
北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。
["智源研究院发布了名为 TACO 的代码生成训练数据集,旨在为代码生成模型提供更具挑战性的训练数据和评测基准。","TACO 在数据规模、质量和评测方案上具有优势,包括更大规模的训练集和测试集,多样化的解题答案,以及细粒度的标签。","实验结果显示,当前流行的代码生成模型在 TACO 评测中与 GPT-4 存在显著差异,说明该领域仍有提升空间。","TACO 不仅是一个挑战性的测试方法,还可用作改进模型性能的训练数据,促进代码生成领域的发展。"]
["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类,包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]
["Quora 旗下的人工智能对话机器人平台 Poe 进行了升级,新增 Mac 应用程序和支持多个机器人同时对话的能力。","Poe 还计划推出企业层,协助公司管理员工使用该平台。","Poe 平台提供多样的机器人和自定义回答风格的功能,用户体验更加丰富多元。"]
["ConverSight 宣布获得 900 万美元的 A 轮融资。","ConverSight 利用生成式 AI 为企业提供更好、更快的数据分析。","新资金将用于推动上市工作和扩展产品,包括 “MarketSpace”。"]