在具身智能赛道,2026年成为关键转折点,不少企业开始调整战略方向,从人形机器人转向轮式或从物流场景转向家庭应用。然而,灵初智能却凭借独特定位与坚定路线,成为行业中的“笃定派”。这家成立仅一年半的公司,已累计融资超20亿元,国家队资本密集入场,估值在一年内增长六七倍。摩根士丹利发布的《Humanoid Horizons: Money Meets Machines》报告中,灵初智能被列为“中国-人形机器人价值链”中“Brain(大脑)”板块的核心成员。
灵初智能的“笃定”源于创始人兼CEO王启斌的判断。他曾在黑莓、Sonos、云迹科技和京东等企业任职,从智能手机到智能音箱,再到移动机器人,最终在2024年创立灵初智能。王启斌认为,机器人是面向未来的十年长赛道,而操作能力才是核心价值。他指出:“移动只是入场券,操作才是皇冠上的明珠。”这一理念贯穿灵初智能的发展路径,公司从成立之初便聚焦轮式底盘加双臂的通用灵巧操作,而非追逐人形机器人潮流。
在技术路线选择上,灵初智能展现了前瞻性。2024年,行业普遍追捧人形机器人时,灵初智能通过分析移动能力与操作能力的综合维度,定位“移动+双手操作”方向。王启斌解释,机器人若无法通过手完成最终操作,仅依赖移动能力无法满足客户需求。这一判断源于他在云迹和京东的实践经验:从酒店走廊到城市道路,机器人虽能运输物品,但无法完成“做到”的任务闭环。因此,灵初智能选择轮式加双臂的形态,强调操作价值远高于移动能力。
数据是具身智能发展的关键。灵初智能去年展示了打麻将、商超打包等长程任务,成功率显著。今年4月,公司转向世界模型技术路线,发布Psi-R2策略模型和Psi-W0动作条件型世界模型。Psi-W0在训练中加入约30%的失败样本,使模型不仅学习成功轨迹,还理解失败原因。王启斌透露,灵初智能基于10万小时人类数据预训练的World Action Model(WAM)已成为行业共识性技术路线。这些数据通过自研穿戴式多模态数据手套采集,涵盖视觉、触觉和关节角信息,精度达亚毫米级,远超纯视频数据的动态操作能力。
灵初智能的“小全栈”模式也引发关注。公司虽定位为通用灵巧操作模型公司,却选择自主设计整机并开发全栈软件。王启斌坦言,这一选择是被市场“逼”出来的。购买现成整机时,他发现底层软件不开放,控制方式对强化学习不友好,难以实现系统最优。他强调,具身模型与语言模型不同,后者运行在标准化服务器上,而前者需直接操控物理世界,面临巨大的物理动态鸿沟。因此,灵初智能通过定制硬件并找代工生产,同时全栈自研软件,确保模型与硬件的深度耦合。
在场景选择上,灵初智能避开家庭和工业流水线,聚焦物流、零售和服务等中间态场景。王启斌认为,家庭场景泛化性要求高但节拍可慢,工业场景节拍快但泛化性弱,而中间态场景在泛化性和节拍上更为平衡。对于智驾背景企业切入具身赛道的现象,他提醒,具身比智驾复杂得多,物理交互的复杂度远超结构化环境中的移动智能。他建议,企业应先找到窄切口深耕,而非追求通用平台。
灵初智能的下一步计划包括六七月份发布基于更大规模人类数据的模型,支持更长程、更泛化的任务;年底实现类似π0.7的语言操控能力,使机器人能通过自然语言完成复杂任务,并在未见场景中涌现技能组合。王启斌透露,公司今年目标是采集百万小时级人类数据,为通用操作能力的涌现奠定基础。





















