今年春节开始,全网开始流行跳“铁山靠”的小猫咪。背后的技术是阿里巴巴通义实验室发布的AI动画项目AnimateAnyone,只需一张静态图片结合骨骼动画,即可生成人物动画视频。这款AI项目与其他有何不同?
相关推荐
阿里巴巴开源 Z-Image 图像模型:支持中英双语文字渲染
阿里巴巴开源Z-Image图像生成模型,仅6B参数实现高效生成与编辑,视觉质量接近20B级别商业模型。该模型采用单流DiT架构,生成速度快、资源占用低,有望推动AI图像工具普及消费级应用。
阿里巴巴推出革命性语音识别模型FunAudio-ASR,降噪效果惊人
近日,阿里巴巴通义实验室正式发布了其最新的端到端语音识别大模型 ——FunAudio-ASR。这个模型的最大亮点在于它的创新 “Context 模块”,让高噪声环境下的语音识别准确率得到了显著提升,幻觉率从78.5% 大幅降低至10.7%,降幅近乎70%。这一技术突破为语音识别行业树立了新的标杆,尤其适用于嘈杂的场合,如会议、公共场所等。FunAudio-ASR 模型在训练过程中使用了数千万小时的音频数据,并将大语言模型的语义理解能力融入其中,使其在远场、嘈杂和多说话人等复杂条件下的表现,已经超
阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源
阿里巴巴旗下的通义实验室在Hugging Face和GitHub平台正式开源了其最新的Wan2.1-FLF2V-14B首尾帧生视频模型。这一模型以其支持高清视频生成和灵活的首尾帧控制功能引发业界热议,为AI驱动的视频创作提供了全新可能。Wan2.1-FLF2V-14B:首尾帧驱动的视频生成新标杆Wan2.1-FLF2V-14B是阿里通义万相系列的最新力作,基于数据驱动训练和**DiT(Diffusion Transformer)**架构,专为首尾帧视频生成设计。据社交媒体平台上的讨论,该模型只需用户提供两张图片作为首帧和尾帧,即可生成一段长约5秒、720p分辨率的
阿里通义实验室开源视觉文档RAG系统ViDoRAG,准确率达79.4%
近日,阿里巴巴通义实验室宣布开源其最新研发成果——ViDoRAG,这是一款专为视觉文档理解设计的检索增强生成(RAG)系统。ViDoRAG在GPT-4o模型上的测试显示,其准确率达到了令人瞩目的79.4%,相较传统RAG系统提升了10%以上。这一突破标志着视觉文档处理领域迈出了重要一步,为人工智能在复杂文档理解上的应用提供了新的可能性。多智能体框架赋能视觉文档理解ViDoRAG并非传统的单一模型,而是采用了创新的多智能体框架设计。据介绍,该系统结合了动态迭代推理代理(Dynamic Iterative Reason
英伟达CFO反驳"AI泡沫"论:新芯片用于新增算力,领先优势"绝对没有"缩小
英伟达高管回应AI泡沫论,称全球AI基础设施转型仍处早期,公司优势稳固。强调新芯片主要用于新增数据中心算力,而非替换现有设备,显示需求持续增长。
