近日,谷歌 DeepMind 团队与布朗大学合作,开发了一项名为 “力提示”(force prompting)的新技术。这项技术能够在没有3D 模型和物理引擎的情况下,生成逼真的运动效果,标志着人工智能视频生成领域的一大突破。
使用这项技术,用户只需简单地指定力的方向和强度,就可以操控 AI 生成的视频内容。力提示技术可以应用于全局力(例如:整体风力)和局部力(如:特定点的敲击)两种情况。输入的力量以矢量场的形式进入系统,随后被转换为自然流畅的运动,极大地提高了视频生成的真实感和动态表现。
研究团队基于 CogVideoX-5B-IV 视频模型,并加入 ControlNet 模块来处理物理控制数据。整个信号通过 Transformer 架构生成视频,每段视频由49帧组成,而训练过程只用了4台 Nvidia A100GPU,训练时间仅为一天。
值得注意的是,训练数据完全来源于合成,包括1.5万段不同风力下旗帜飘动的视频和1.2万段滚动球体、1.1万段花朵受冲击反应的视频。这些丰富的合成数据让模型能够在生成过程中,利用文本描述中的 “风” 或 “气泡” 等物理术语,自动建立正确的力与运动关系。
虽然训练数据的量相对有限,但模型展示出了强大的泛化能力,能够适应新物体、材质和场景,甚至掌握了一些简单的物理规则,比如在相同力量下,轻物体移动的距离远于重物。
用户测试显示,力提示技术在运动匹配度和真实感方面优于仅依赖文本或运动路径控制的基准模型,并且在质量上超越了基于真实物理模拟的 PhysDreamer。不过,在复杂场景中仍然存在一些不足之处,例如烟雾有时无法正确受到风力的影响,人体手臂的运动偶尔显得像布料般轻盈。
DeepMind 的首席执行官 Demis Hassabis 表示,下一代 AI 视频模型(如 Veo3)正逐步理解物理规则,不再局限于文本或图像处理,而是开始表征世界的物理结构。这被认为是迈向更通用 AI 的重要一步,未来的 AI 有望通过经验学习,在模拟环境中不断优化和提升能力。
项目页:https://force-prompting.github.io/
划重点:
🌟 新技术 “力提示” 可生成真实运动视频,无需3D 模型或物理引擎。
⚙️ 用户通过简单的力的方向和强度操作,实现自然流畅的运动表现。
📈 模型展现出强大的泛化能力,能够适应新场景和物体。