近日,美团旗下的 LongCat 团队宣布开源其最新的视频生成模型 ——LongCat-Video-Avatar,标志着虚拟人技术的又一次重要突破。该模型在长视频生成领域表现优异,具有多项核心功能,吸引了广泛的开发者关注。

LongCat-Video-Avatar 基于此前的 LongCat-Video 模型,延续了 “一个模型支持多任务” 的设计理念,原生支持音频文本转视频(AT2V)、音频文本图像转视频(ATI2V)及视频续写等功能。相较于前代产品 InfiniteTalk,该模型在动作拟真度、视频稳定性和身份一致性上实现了显著提升,致力于为开发者提供更高效、实用的创作解决方案。

QQ20251219-105318.png

该模型的核心创新之一是采用了名为 Cross-Chunk Latent Stitching 的训练策略,能够有效解决长视频生成中的视觉质量退化问题。通过在隐空间内进行特征替换,LongCat-Video-Avatar 不仅消除了由反复解码引起的画质损失,还显著提高了生成效率。

此外,为了保持长视频中的角色一致性,LongCat-Video-Avatar 还引入了带位置编码的参考帧注入模式和 Reference Skip Attention 机制。这一创新使得生成过程中的身份语义保持稳定,同时避免了常见的动作重复和僵化问题。

根据在 HDTF、CelebV-HQ、EMTD 和 EvalTalker 等权威公开数据集上的评测,LongCat-Video-Avatar 在多个核心指标上达到了 SOTA 水平,尤其是在唇音同步精度和一致性指标上表现优异。同时,通过大规模的人工评测,该模型在自然度与真实感方面也获得了良好反馈,展现了强大的应用潜力。

QQ20251219-105325.png

LongCat 团队表示,LongCat-Video-Avatar 是其在数字人生成技术上的又一次迭代,旨在解决开发者在长视频生成中面临的实际问题。该团队始终坚持开源理念,期望通过社区的共同参与与反馈不断优化和迭代这一技术。

此次 LongCat-Video-Avatar 的发布不仅为虚拟人技术的应用提供了更为广阔的可能性,也为创作者们在数字内容创作上开辟了新的路径。开发者们可通过 GitHub 和 Hugging Face 等平台获取该模型,开始探索 “千人千面” 的数字世界。

项目地址:

GitHub:

https://github.com/meituan-longcat/LongCat-Video

Hugging Face: 

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

Project:

https://meigen-ai.github.io/LongCat-Video-Avatar/