阿里巴巴近日正式推出千问具身智能大模型Qwen-Robot系列,标志着国内大模型技术向机器人硬件场景的延伸迈出关键一步。该系列包含操作、移动与世界模型三大核心组件,首次构建起完整的具身智能模型体系,为机器人实现"边走、边看、边思考"提供了通用技术底座。
在第三方真机评测中,Qwen-Robot系列展现出显著优势。RoboChallenge Table30 v1评测覆盖30项真实场景任务,横跨4个机器人平台,其操作模型的两个版本凭借拧水龙头、双臂倒薯条等复杂操作包揽榜单前两名。值得关注的是,该模型完全基于开源数据训练,突破了行业对私有数据采集的依赖,为技术普惠化提供了新范式。
当前具身智能行业正面临商业化临界点,机器人如何在陌生环境中稳定执行复杂指令成为关键挑战。Qwen-Robot系列通过技术创新破解这一难题:其操作模型Qwen-RobotManip采用80维统一动作表征体系,将不同硬件平台的操作指令转化为通用"肢体语言",使模型掌握基础物理规律而非机械记忆动作序列。这种设计使模型在新硬件部署时仅需少量交互反馈即可快速适配,迁移成本降低60%以上。
在视觉-语言-动作(VLA)融合方面,该模型突破传统依赖绝对坐标的计算模式,转而通过摄像头画面中的相对位置直接生成操作指令。这种相对感知机制使机器人面对环境变化时响应速度提升40%,在RoboChallenge评测中完成超过38000小时的语料预训练,验证了其鲁棒性与泛化能力。
移动导航领域,Qwen-RobotNav模型通过任务自适应观察机制破解记忆策略僵化难题。该模型可动态调整记忆容量,在语言指令导航、目标搜索等五大任务中实现无缝切换。其通用接口设计支持直接调用上层模型,成为业内少数原生兼容多种智能体框架的解决方案。实测显示,搭载该系统的宇树Go2四足机器人能自主完成"寻找丢失行李箱"等复杂导航任务,视觉推理与路径规划同步进行。
作为系列第三大组件,Qwen-RobotWorld世界模型基于物理规律认知构建,具备动作轨迹预演能力。该模型通过生成虚拟视频数据缓解行业数据短缺问题,同时可在真实操作前模拟推演动作效果,使操作精度提升25%。三大模型通过统一语言指令实现协同运转,形成从环境感知到动作执行的完整闭环。
行业专家指出,Qwen-Robot系列的推出反映了国内科技企业在具身智能领域的加速布局。其创新架构不仅降低机器人开发门槛,更为不同形态设备进入家庭、工业等真实场景提供了技术保障。随着开源生态的完善,该体系有望推动具身智能技术向更广泛领域渗透。




















