蚂蚁灵波科技开源世界模型LingBot-World,长时生成稳定交互能力直逼谷歌Genie3

   发布时间:2026-01-30 03:05 作者:赵磊

蚂蚁灵波科技近日宣布推出并开源其自主研发的世界模型LingBot-World,这一框架专为交互式环境模拟设计,通过高保真、可控且逻辑一致的模拟能力,为生成式AI与具身智能的融合提供了新的技术路径。该模型在视频生成稳定性、动态交互响应及长时序一致性等核心指标上达到行业领先水平,部分能力已接近谷歌Genie 3的表现。

针对视频生成领域长期存在的“长时漂移”难题,LingBot-World通过多阶段训练架构与并行计算优化,实现了近10分钟的连续稳定输出。在极端测试中,即使镜头移开60秒后返回,模型仍能保持场景中物体结构与空间关系的完整性。例如,在高动态交通场景中,车辆形态与道路布局在长时间交互后依然保持精准对应;城市建筑群在昼夜交替模拟中,门窗结构与外墙纹理均未出现扭曲或消失现象。这种突破为复杂任务训练提供了可靠的数字仿真环境。

交互性能方面,该模型支持16 FPS的实时生成吞吐量,端到端响应延迟控制在1秒以内。用户可通过键盘、鼠标或文本指令直接操控虚拟角色与相机视角,系统能即时反馈天气变化、风格迁移等环境调整,同时确保所有操作不破坏场景的几何一致性。在虚幻引擎合成的纯净数据训练下,模型甚至能理解“推开窗户会引入自然光”这类物理因果关系,使交互行为更具真实感。

为解决交互数据稀缺问题,研发团队采用混合采集策略:一方面从海量网络视频中筛选多样化场景,另一方面通过游戏引擎与合成管线生成无UI干扰的高质量数据。这种数据构建方式使模型具备强大的零样本泛化能力——仅需输入单张城市街景照片或游戏截图,即可自动生成对应的可交互视频流,无需针对特定场景重新训练。在机器人导航测试中,模型成功模拟了从繁华商业区到老旧居民区的连续路径规划,展现了跨场景适应能力。

在具身智能应用层面,LingBot-World通过数字孪生技术构建了低成本试错空间。智能体可在虚拟环境中预演抓取、搬运等物理操作,系统会精准模拟物体受力变形、碰撞反馈等物理效应。更关键的是,模型支持光照条件、物体摆放位置等参数的动态调整,这种场景多样化生成能力显著提升了算法在真实世界中的迁移效率。例如,在仓储机器人训练中,通过随机改变货架布局与光照强度,模型帮助算法快速适应不同仓库环境。

随着LingBot-World的开源,开发者可通过Hugging Face、魔搭社区及GitHub获取完整代码库与技术文档。该模型的推出标志着蚂蚁在具身智能领域完成重要布局,其“基础模型-通用应用-实体交互”的技术栈正逐步清晰。通过将物理感知能力注入数字世界,这项技术有望推动机器人学习、自动驾驶仿真等产业进入开放场景适应的新阶段。

 
 
更多>同类内容
全站最新
热门内容