蚂蚁集团旗下的具身智能公司灵波科技近日宣布,正式开源其具身大模型LingBot-VLA。该模型不仅在多项权威基准测试中表现卓越,更同步开放了完整的后训练代码库,旨在降低具身智能领域的研发门槛。

性能表现:多平台泛化与精准操控

LingBot-VLA在真实环境与仿真场景中均展现了强大的准确性和泛化能力:

真实场景测评:在上海交通大学的 GM-100评测基准中,LingBot-VLA在三个不同机器人平台上实现了15.7% 的跨本体泛化平均成功率,超越了 Pi0.5的13.0%。

空间感知增强:在引入深度信息后,其平均成功率进一步提升至17.3%。

仿真环境领跑:在 RoboTwin2.0仿真评测中,面对光照、杂物等随机干扰,其操作成功率比 Pi0.5高出9.92%。

技术核心:高效的后训练工具链

LingBot-VLA的优势不仅在于性能,更在于其出色的训练效率与迁移能力:

低成本迁移:得益于大规模预训练,该模型能以更少的数据量在下游任务中达到超越主流模型的性能。

高吞吐训练:团队构建的高效工具链在8卡 GPU 配置下,单卡每秒可处理261个样本,训练效率是 StarVLA、OpenPI 等主流框架的1.5至2.8倍。

开源内容:全套资源一键获取

灵波科技此次开源力度极大,提供了从权重到工具的全链路支持:

模型权重:已在Hugging Face和魔搭社区 (ModelScope)同步上线。

代码库:GitHub 仓库已开放包含数据处理、高效微调及自动化评估在内的全套代码。

数据集与报告:同步提供了GM-100数据集以及详尽的技术报告。

LingBot-VLA的全面开源,为机器人开发者提供了一个真正实用、高效且低成本的 VLA 模型选择,有望加速具身智能技术从实验室走向大规模真实应用。