OpenAI宣布明天美国西部时间早上8点将开启新的发布直播,并称请开发人员(以及那些想成为开发人员的人)的人收看。

MiniMax Audio推出的Speech-02系列语音模型席卷全球,强势登顶Artificial Analysis Speech Arena和Hugging Face TTS Arena两大权威榜单,力压ElevenLabs、OpenAI等国际顶尖竞争对手。这款模型以超高语音逼真度和多语言支持惊艳业界,成为AI语音技术的全新标杆。AIbase综合最新动态,深入解析Speech-02的技术亮点及其对行业的深远影响。双榜夺冠:客观与主观兼优Speech-02系列包括Speech-02-HD和Speech-02-Turbo两款模型,分别针对高保真和实时应用场景优化。在Artificial Analysis Speech Arena的ELO评分中,Speech-02-HD以卓越的语音质量
在近日的一场人工智能活动上,OpenAI 首席执行官 Sam Altman 分享了关于 ChatGPT 未来发展的激动人心的愿景。他提到,理想中的 ChatGPT 将能够记录用户生活中的每一个瞬间,从而提供更个性化的服务。当被问及如何让 ChatGPT 更加贴近用户时,Altman 表示希望开发出一个小型推理模型,能够整合人们的生活经历与背景信息。他设想的这个模型,能够包含用户一生中的对话记录、阅读过的书籍、发送的邮件和浏览过的信息等。这种模型不仅仅是存储信息,更重要的是能够对这些信息进行高效的推理
埃隆・马斯克创办的人工智能初创公司 xAI 近期因其聊天机器人 Grok 在南非 “白人种族灭绝” 话题上产生争议性回应而备受关注。对此,xAI 正在努力解决此问题,并表示已接到指示采取行动。根据报道,Grok 的一些回应不仅与该话题相关,还在回复不相关查询时主动提及,导致用户的不满和强烈反对。为了解释这一异常行为,xAI 进行了内部调查,并于近日在社交媒体平台 X 上发布了最新进展。该公司表示,Grok 的系统提示符被未经授权的人员修改,这违反了公司的内部政策和核心价值观。
腾讯正式发布其最新的混元图像2.0模型(Hunyuan Image2.0),标志着 AI 图像生成技术迈入 “毫秒级” 响应时代。新模型在速度上有了显著提升,相比于前代产品,混元图像2.0的参数量提高了一个数量级,结合了高效的图像编解码器和全新的扩散架构,能够在同类商业产品通常需要5到10秒的推理速度下,实现毫秒级的快速响应。用户在生成图像时,可以一边输入文本或进行语音指令,一边获得实时图像输出,极大地改变了传统的 “抽卡 - 等待 - 抽卡” 模式,提升了用户的交互体验。超写实的
Hugging Face推出的SmolVLM多模态模型迎来重大突破:通过WebGPU技术,SmolVLM现可在浏览器中实现实时网络摄像头图像识别,无需服务器支持,全部计算在用户设备上完成。这一创新不仅提升了隐私保护,还极大降低了AI应用的部署门槛。AIbase综合最新动态,深入解析SmolVLM的本地化实时演示及其对AI生态的影响。技术核心:WebGPU赋能本地化AI推理SmolVLM是一款超轻量多模态模型,参数规模从256M到500M,专为边缘设备优化。其最新演示利用WebGPU,一种现代浏览器GPU加速标准,让模型直接在浏览器中运行图