李沐团队发布 Higgs Audio v2，开创语音合成新纪元

知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音（TTS）大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音，还具备多语言对话生成、韵律自动调整和声音克隆等多种功能，堪称语音合成领域的一次重大突破。

Higgs Audio v2的强大之处在于其多模态能力，它不仅能够处理文本信息，还能理解和生成语音，完成复杂任务。例如，它可以写一首歌并用特定的声音演唱，同时还可以配上背景音乐，这在以前的 TTS 技术中是不可想象的。

该模型融合了多达1000万小时的语音数据进行训练，确保其在各种基准测试中的优异表现。根据 EmergentTTS-Eval 测试，Higgs Audio v2在 “情绪” 和 “问题” 两个类别中，胜率分别超过了 GPT-4o-mini-tts 高达75.7% 和55.7%。在传统的 TTS 测试中，该模型同样展现了超凡的性能，成为行业标杆。

技术上，Higgs Audio v2采用先进的数据处理方式，每秒25帧的语音信号通过离散化音频分词器转化为编号序列，从而精准捕捉语义与声学特征。同时，模型架构利用了预训练的大型语言模型，使其在理解语言和上下文方面具备了强大的能力。此外，该模型还具备上下文学习能力，能通过简单提示快速适应新的任务，实现零样本的语音克隆。

在应用场景上，Higgs Audio v2能够实现实时语音聊天，提供低延迟和情感表达的自然互动，非常适合用在虚拟主播和实时语音助手中。同时，音频内容创作方面，它能够生成自然对话和旁白，为有声读物、互动培训及动态故事讲述等提供强大支持。最后，语音克隆功能让它能够复制特定人物的声音，开启娱乐和创意领域的新可能性。

这款模型的代码已经全部开源，用户可以在 GitHub 和 Hugging Face 平台上找到，支持在本地安装，用户需准备 GPU 版的 PyTorch 或使用 Docker 进行简化安装。

谷歌推出 Aeneas 模型：为古代文本解读开辟新路径

谷歌DeepMind团队推出首个专为古代铭文设计的AI工具"Aeneas"，能快速分析拉丁铭文相似性并填补文本空白。该模型整合17.6万条古罗马铭文数据，支持多模态输入，可判断铭文地理来源并恢复残缺文本。测试显示，23位历史学家借助Aeneas显著提升工作效率，在铭文恢复、鉴定和断代方面取得更好成果。这一工具未来还可扩展应用于其他古代文字研究。

国家安全部发布警示案例，科研人员因违规使用 AI 工具泄密

国家安全部公布多起涉密信息泄露案例：1）涉密单位人员小田因闲聊泄密被处分；2）科研人员小李违规使用AI工具上传核心数据导致泄密；3）新入职干部小蒋在朋友圈炫耀涉密文件被处理。安全部特别提醒：严禁在非涉密环境使用AI处理敏感信息，应从正规渠道下载应用软件，杜绝信息安全隐患。

Sora2浮出水面:OpenAI 欲在生成式AI视频领域重夺C位

OpenAI正秘密开发Sora视频生成模型的升级版Sora2，服务器代码中已出现相关引用。此前发布的Sora虽热度下降，但近期被微软整合进Bing Video Creator重获关注。与此同时，谷歌Veo3已向大学生免费开放，普通用户也可通过Google Cloud体验。两大科技巨头在生成式AI视频领域的竞争日趋白热化，Sora2的发布或将重塑行业格局和内容创作方式。

挑战AI极限！首届K奖编程大赛揭晓，顶尖模型成绩惨淡！

首届K奖AI编程挑战赛结果令人意外：巴西程序员仅答对7.5%问题即获5万美元奖金。该赛事由Databricks联合创始人发起，采用严格"无污染"测试机制，使用GitHub最新问题评估AI编程能力。与SWE-Bench测试75%的高分形成鲜明对比，暴露出当前AI模型的局限性。主办方设立100万美元悬赏，激励开源模型突破90%正确率。赛事引发行业对AI评估标准的反思，专家认为此类挑战对解决AI评估难题至关重要。

瑞典AI编程独角兽Lovable狂飙突进！8个月营收破亿美元，230万用户见证编程革命

瑞典AI编程公司Lovable创下惊人纪录：成立仅8个月即实现年经常性收入1亿美元，成为欧洲罕见"半人马"企业。这家专注"氛围编程"的创新公司以45人团队服务230万用户，人均创收超200万美元。其AI驱动开发工具已创建1000万项目，获Klarna等企业青睐。CEO主动降级150万美元收入以优化用户体验，新推商业版瞄准企业市场。这一案例展现了AI如何重塑软件开发，也标志着欧洲科技创新的新高度。