正文

AI动画项目AnimaAnyone，让你家猫咪跳舞啦！

发布于AI新闻资讯

发布时间 :2024年3月6号 16:03

阅读 :1分钟

今年春节开始，全网开始流行跳“铁山靠”的小猫咪。背后的技术是阿里巴巴通义实验室发布的AI动画项目AnimateAnyone，只需一张静态图片结合骨骼动画，即可生成人物动画视频。这款AI项目与其他有何不同？

阿里巴巴通义实验室推出 MAI-UI：超越同行的基础 GUI 智能代理家族

阿里巴巴通义实验室发布MAI-UI多模态GUI智能代理家族，整合人机交互、工具使用与云端协作，在通用及移动GUI导航方面表现领先，超越多个同行模型。该系统基于Qwen3VL构建，提供多种规模模型，支持自然语言指令处理。

2025年12月31号 9:24

295.1k

阿里巴巴开源 Z-Image 图像模型：支持中英双语文字渲染

阿里巴巴开源Z-Image图像生成模型，仅6B参数实现高效生成与编辑，视觉质量接近20B级别商业模型。该模型采用单流DiT架构，生成速度快、资源占用低，有望推动AI图像工具普及消费级应用。

2025年11月27号 14:27

564.2k

阿里巴巴推出革命性语音识别模型FunAudio-ASR，降噪效果惊人

近日，阿里巴巴通义实验室正式发布了其最新的端到端语音识别大模型 ——FunAudio-ASR。这个模型的最大亮点在于它的创新 “Context 模块”，让高噪声环境下的语音识别准确率得到了显著提升，幻觉率从78.5% 大幅降低至10.7%，降幅近乎70%。这一技术突破为语音识别行业树立了新的标杆，尤其适用于嘈杂的场合，如会议、公共场所等。FunAudio-ASR 模型在训练过程中使用了数千万小时的音频数据，并将大语言模型的语义理解能力融入其中，使其在远场、嘈杂和多说话人等复杂条件下的表现，已经超

2025年9月16号 18:00

255.8k

阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源

阿里巴巴旗下的通义实验室在Hugging Face和GitHub平台正式开源了其最新的Wan2.1-FLF2V-14B首尾帧生视频模型。这一模型以其支持高清视频生成和灵活的首尾帧控制功能引发业界热议，为AI驱动的视频创作提供了全新可能。Wan2.1-FLF2V-14B:首尾帧驱动的视频生成新标杆Wan2.1-FLF2V-14B是阿里通义万相系列的最新力作，基于数据驱动训练和**DiT（Diffusion Transformer）**架构，专为首尾帧视频生成设计。据社交媒体平台上的讨论，该模型只需用户提供两张图片作为首帧和尾帧，即可生成一段长约5秒、720p分辨率的

2025年4月18号 10:52

274.6k

阿里通义实验室开源视觉文档RAG系统ViDoRAG，准确率达79.4%

近日，阿里巴巴通义实验室宣布开源其最新研发成果——ViDoRAG，这是一款专为视觉文档理解设计的检索增强生成（RAG）系统。ViDoRAG在GPT-4o模型上的测试显示，其准确率达到了令人瞩目的79.4%，相较传统RAG系统提升了10%以上。这一突破标志着视觉文档处理领域迈出了重要一步，为人工智能在复杂文档理解上的应用提供了新的可能性。多智能体框架赋能视觉文档理解ViDoRAG并非传统的单一模型，而是采用了创新的多智能体框架设计。据介绍，该系统结合了动态迭代推理代理（Dynamic Iterative Reason

2025年3月3号 16:29

387.8k

智启未来，您的人工智能解决方案智库

简体中文