仅需千分之一数据量！国产视频模型即可实现物理操作

发布时间：2025-07-26 20:07 内容来源：新华网-北京阅读量：8847

我国科技企业生数科技携手清华大学25日发布具身基座模型Vidar。这一模型能够用更少的数据，使虚拟世界中的“视频指令”变成真实世界的“执行操作”，真正实现机器人的“指哪打哪”。

“仅用20分钟的机器人真机数据，即可快速泛化到机器人，所需数据量约为行业均值的千分之一，显著降低了机器人对数据的需求门槛。”生数科技创始人兼首席科学家朱军介绍，模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架，在保持高性能的同时，展现出显著的少样本学习优势。

Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。“行业主流的视觉-语言-动作模型高度依赖大量优质数据，并且这些数据往往只适配特定的机器人本体及其采集的特定任务集，然而数据收集费时费力且成本高昂。”朱军说。

而Vidar的核心突破在于其通过解构具身任务的执行范式，充分利用“大量通用视频-中等规模具身视频数据-少量机器人训练特定数据”构成的三级“数据金字塔”，以实现“更少数据、更高效能”。

为使模型更加“见多识广”“见机行事”——实现多类型机器人操作的密切配合、灵活适应更多样的物理环境，研发团队还创新性地研发出一种全新的具身预训练方法，进一步增强对物理世界控制的精准度。

为突破现有具身智能数据被任务“过度捆绑”、规模难以做大的瓶颈，团队创新构建了高精度预测逆动力学模型，实现了低成本、高效率、高精度的机器人动作预测。

“我们希望以多模态大模型推动数字世界与物理世界的深度融合与协同进化。”朱军说，一方面，我们通过打造新一代数字内容创作引擎，使AI成为人类创意的延伸；另一方面，我们通过高效训练具身视频基座模型，实现虚拟与现实的深度互动。

声明：本网转发此文，旨在为读者提供更多资讯信息，所渉内容不构成投资、建议消费。文章内容如有疑问，请与有关方核实，文章观点非本网站观点，仅供读者参考。