Meta 最近推出的 V-JEPA2模型标志着人工智能领域的一项重大突破,特别是在机器人技术的应用上。尽管大型语言模型(LLMs)在文本处理方面表现出色,但它们在动态现实环境中的物理 “常识” 方面仍显不足,这限制了它们在制造和物流等领域的应用。因此,V-JEPA2的出现为解决这一问题提供了新的思路。
V-JEPA2通过从视频和物理交互中学习,构建了一个 “世界模型”。这种模型使得 AI 应用能够在多变的环境中进行预测和规划,为更智能的机器人和先进的自动化打下了基础。与传统模型相比,V-JEPA2采用了视频联合嵌入预测架构,其核心在于理解场景中的事物,预测行为变化,以及规划达到特定目标的行动序列。
该模型的训练分为两个阶段。第一阶段,V-JEPA2通过观看超过一百万小时的无标签视频,自我学习物理规律,构建基础知识。第二阶段,则是通过62小时的机器人操作视频和相应控制指令进行细化训练,确保模型能将具体动作与物理结果联系起来。得益于这种两阶段的训练,V-JEPA2具备了 “零 - shot” 机器人规划能力,能够在全新的环境中操控从未见过的物体。
具体来说,当机器人被赋予一个目标图像时,它会利用 V-JEPA2模型进行内部模拟,评估一系列可能的下一步动作,并选择最优的执行,从而完成任务。这种方法在处理不熟悉的物体时,其成功率可达65% 到80%。
V-JEPA2的应用前景广阔,尤其是在物流和制造业中。它允许机器人在产品和仓库布局发生变化时,快速适应,无需大量重新编程。这对于正在探索在工厂和组装线中部署人形机器人的企业而言,意义重大。此外,V-JEPA2也可以推动高度逼真的数字孪生技术,帮助企业在物理准确的虚拟环境中模拟新流程或训练其他 AI。
Meta 希望通过发布 V-JEPA2模型及其训练代码,推动社区共同进步,实现其长远目标,即开发出能够像人类一样理解世界、规划和执行不熟悉任务的 AI 系统。
项目:https://ai.meta.com/vjepa/
划重点:
🔍 V-JEPA2模型通过观察视频和物理交互,构建 “世界模型”,提升机器人在动态环境中的操作能力。
🤖 该模型支持 “零 - shot” 机器人规划,允许机器人在全新环境中操控陌生物体,无需额外训练。
📈 V-JEPA2的应用前景广泛,能够提高物流和制造业中机器人的适应性,减少重编程需求。