导航巨头高德,竟在具身智能领域掀起了一场风暴。当人们还在疑惑一个国民级导航应用为何与机器人、机器狗产生关联时,高德已带着首个面向AGI的全栈具身技术体系ABot惊艳亮相,且成绩斐然,跻身全球第一梯队。
在大多数行业玩家还在专注于单点突破时,高德率先实现了数据、模型、Agent从下到上的全面打通。其世界模型在国际挑战赛中表现卓越,分数超越谷歌、英伟达,ABot体系更是横扫具身智能全球15项SOTA。这一成绩引发了众人的好奇:一个做导航的,究竟凭什么能在具身智能赛道脱颖而出?
深入探究发现,高德的成功并非仅仅依赖“数据多”。在其ABot全栈具身技术体系中,最底层虽是数据,但高德构建了一个“物理优先、动作可控、闭环进化”的机器人世界操作系统,实现了从“视觉渲染范式”向“可微分物理引擎范式”的根本性转变。当其他模型还在生成看似真实的视频时,高德的ABot - World已能输出符合物理规律的动态变化过程,不仅能说明“发生了什么”,还能解释“为什么发生”以及“如果这样做会发生什么”,这也是它成为全球唯一三项指标(物理合规性/动作可控性/零样本泛化)全面SOTA的关键原因。
面对“如何让机器人理解真实物理世界”这一难题,高德没有选择传统的“采集→标注→训练”路径,而是另辟蹊径,选择“重建物理世界”。传统方法成本高、效率低、覆盖窄,而高德推出的可交互世界模型ABot - World,旨在构建一个可交互、可推演、可进化的机器人世界操作系统。它与数据合成、数据仿真看似思路相似,实则底层逻辑不同。合成仿真类似“照猫画虎”,追求模拟尽可能逼近真实;而高德基于现成的真实世界数据,将场景还原后供机器人使用,精准度更高。毕竟,高德在精密重建与理解物理世界方面本就具备优势,每天处理大量来自卫星、街景车、众包设备的数据,将其转化为数字世界。
ABot - World采用双引擎驱动架构,即ABot - 3DGS和ABot - PhysWorld。ABot - 3DGS作为物理世界的“数字孪生工厂”,以高德积累的厘米级城市、道路、室内空间数据及真实轨迹数据为基础,结合前沿的3DGS技术,构建可编程的数字孪生空间。在这里,数据不受采集条件限制,任意视角、光照、遮挡状态均可生成,机器人形态也能灵活切换。更重要的是,它能系统性补齐长尾交互场景,通过大规模组合与仿真,提前构造极端情况和突发干扰,将覆盖率提升至99%。而且,这里的“空间”带有物理属性,每个物体都被赋予质量、摩擦系数等参数,构成可计算、可干预的物理环境。例如,调整物体质量或地面摩擦系数,机器人抓取时的力度和轨迹会相应改变。ABot - 3DGS不再是简单的数据增强工具,而是主动创造了一个比现实更丰富、更可控、更物理一致的“训练宇宙”。
高德积累的真实时空数据转化为“机器人能用的训练材料”,经历了“一翻译二重建三Run”的过程。“一翻译”是将数据转成机器能读懂的“多模态Clip”,如骑车经过路口时,高德记录的不仅是图像,还包括路口的空间位置、红绿灯状态、行为以及周围环境等信息,打包成千万级的Clip。“二重建”是ABot - 3DGS将路口、街道、商场等地方重建为万级规模的3D真实场景,这些场景因自带物理规则和空间逻辑而“活”起来。“三Run”是将机器人放入场景中,批量生成千万级训练轨迹数据。
解决“懂物理”这一行业难题,则依靠ABot - PhysWorld。它基于14B参数的DiT主干构建,是物理思维引擎,回答机器人“如果我这样动,接下来会发生什么”的核心问题。在数据层面,高德精选300万条真实操作视频,用VLM + LLM双阶段标注,构建四层级物理语义结构(意图→动作→轨迹→物理关系),为因果推理奠定基础。训练层面,摒弃传统MLE(像素相似度优化),引入“物理判别机制”,通过Proposer module和Scorer module将优化目标从“像素相似度”转向“物理一致性”,用Diffusion - DPO强化合规行为。输出层面,ABot - PhysWorld的每一帧不仅是像素,更是包含质量、接触力场、惯性张量的可微分物理状态快照,支持“动作条件化推演”与“零样本泛化”。
将两个引擎结合,ABot - World内部形成了持续增强的“数据 - 模型”飞轮。ABot - 3DGS不断生成高质量训练材料,ABot - PhysWorld不断提升对真实世界的理解。而且,ABot - World具备自我修正能力,支持完整的VLA闭环(预测→执行→反馈→自我修正)。例如,机器人根据推演抓杯子失败,误差信号会回传给ABot - PhysWorld,模型自动调整参数,下次预测更精准。这种“自生长、自修正、自适应”的能力,让机器人能在真实环境中持续进化。
高德能跑到具身赛道前列,并非偶然。这是从给“人”导航到给“机器人”构建物理世界操作系统的升维。高德的护城河不仅是“数据多”,还有地图时代积累的空间理解、地图构建、实时更新能力,尤其是业界领先的POI(兴趣点)数据库和路网语义信息。高德提供的数据带“语义”,如“这里是星巴克的入口”“前方是人行横道”等,而行业里大多数机器人的导航训练仅用几何坐标和视觉特征。带语义的数据让机器人理解“规则”和“常识”,更容易应用到真实世界中。在北京亦庄机器人半马活动中,高德的四足机器狗已能帮助盲人朋友精准导航。
如今,高德决定将ABot - World开源,为开发者提供统一的、物理合规的、可进化的机器人世界模型操作系统。这一举措将缓解行业数据不够、仿真不够真的问题,推动生态围绕这一底座快速收敛并加速爆发。高德一边铺好底座,一边带动生态发展,在具身赛道占据了核心位置。




















