我国科技企业生数科技携手清华大学25日发布具身基座模型Vidar。这一模型能够用更少的数据,使虚拟世界中的“视频指令”变成真实世界的“执行操作”,真正实现机器人的“指哪打哪”。
“仅用20分钟的机器人真机数据,即可快速泛化到机器人,所需数据量约为行业均值的千分之一,显著降低了机器人对数据的需求门槛。”生数科技创始人兼首席科学家朱军介绍,模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持高性能的同时,展现出显著的少样本学习优势。
Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。“行业主流的视觉-语言-动作模型高度依赖大量优质数据,并且这些数据往往只适配特定的机器人本体及其采集的特定任务集,然而数据收集费时费力且成本高昂。”朱军说。
而Vidar的核心突破在于其通过解构具身任务的执行范式,充分利用“大量通用视频-中等规模具身视频数据-少量机器人训练特定数据”构成的三级“数据金字塔”,以实现“更少数据、更高效能”。
为使模型更加“见多识广”“见机行事”——实现多类型机器人操作的密切配合、灵活适应更多样的物理环境,研发团队还创新性地研发出一种全新的具身预训练方法,进一步增强对物理世界控制的精准度。
为突破现有具身智能数据被任务“过度捆绑”、规模难以做大的瓶颈,团队创新构建了高精度预测逆动力学模型,实现了低成本、高效率、高精度的机器人动作预测。
“我们希望以多模态大模型推动数字世界与物理世界的深度融合与协同进化。”朱军说,一方面,我们通过打造新一代数字内容创作引擎,使AI成为人类创意的延伸;另一方面,我们通过高效训练具身视频基座模型,实现虚拟与现实的深度互动。
声明:本网转发此文,旨在为读者提供更多资讯信息,所渉内容不构成投资、建议消费。文章内容如有疑问,请与有关方核实,文章观点非本网站观点,仅供读者参考。
存储“老将”磁带还能再战:2022年出货量增长0
,对于大数据存储公司来说,磁带存储从未消失过,据专业磁带公司LT...
小米全球导航卫星系统定位测量专利公布:避免不同终
感谢IT之家网友肖战割割的线索投递!,北京小米移动软件有限公司“...
美国宇航局发现日本HAKUTO-RMission
,日本首个商业登月于今年4月宣布失败,美国宇航局的月球轨道飞行器...
机械革命推出新款蛟龙16S笔记本:R77840H
,机械革命今日推出新款蛟龙16S笔记本,配备AMD最新R7784...
农发行剑阁县支行扎实开展“美好生活·民法典相伴”
今年5月是第三个ldquo;民法典宣传月rdquo;,为进一步加...
大唐兴源物业:8小时连夜抢修作业守护大厦设备安全
5月21日早上6时,随着抢修总指挥的一声令下,银河财智中心按时恢...