在机器人技术领域,如何弥合语义理解与运动执行之间的鸿沟,一直是制约行业发展的核心难题。近日,智元推出的新一代VLA基座模型Genie Operator-2(GO-2)通过创新架构设计,为这一难题提供了新的技术路径。该模型引入"动作思维链"与"异步双系统"两大核心架构,试图让机器人从"边想边做"转向"先想后做"的稳定执行模式。
传统机器人系统采用分层架构:高层模型负责语义推理,中间模块拆解任务,底层系统生成控制信号。这种设计在简单任务中表现尚可,但在多步骤、长时序场景下暴露出明显缺陷——语言符号到控制信号的转换过程中,语义信息被离散化处理,导致动作执行缺乏全局连贯性。智元研究团队发现,当机器人执行"取水杯"这类任务时,虽然能规划出理论最优路径,但实际动作常因微小误差累积而偏离目标,最终导致任务失败。
GO-2的创新之处在于重构了决策链路。其"动作思维链"架构直接在动作空间进行推理,模型接收任务后首先生成高层动作序列,将任务拆解为包含时序关系、阶段划分的结构化方案。这种设计使执行系统接收到的不是临时生成的控制指令,而是具备全局连贯性的行动框架。实验数据显示,该架构使机器人动作偏差修正效率提升40%,在复杂任务中的目标漂移率降低65%。
为应对动态环境挑战,GO-2采用"异步双系统"架构将规划与执行解耦。慢系统负责生成稳定动作方向,通过逐步展开的方式保持整体行为结构;快系统则以高频响应实时调整控制信号,处理位置误差、接触变化等突发状况。这种设计突破了传统一次性规划的局限,使机器人能在执行过程中持续对齐规划目标。研究团队特别开发的带噪声强制教学机制,通过在训练中模拟规划不完美场景,使系统具备更强的环境适应能力。
在具身智能基准测试中,GO-2展现出显著优势。在LIBERO Benchmark的Spatial、Object、Goal与Long四类任务中,该模型平均成功率达到98.5%,特别是在需要多步骤协调的长时序任务中,其表现优于现有主流模型23个百分点。更值得关注的是,GO-2通过将部署过程纳入能力训练体系,使模型在真实环境中持续优化——系统运行时间越长,积累的反馈数据越多,模型性能随之提升,形成"部署-反馈-优化"的良性循环。
这项突破标志着机器人技术从实验室走向实际应用迈出关键一步。智元团队指出,未来模型能力的评估将不再局限于测试集表现,实际部署深度和持续学习能力将成为重要指标。随着GO-2架构在工业搬运、服务机器人等场景的落地验证,机器人技术有望突破"知行不一"的瓶颈,真正实现复杂环境下的稳定自主作业。






















