AI大模型与机器人双向奔赴：大模型助力机器人进化，机器人反哺AI升级-汽车-沃资讯

对于许多看着《星球大战》系列电影长大的人来说，现实世界中缺乏像C-3PO这样具备常识、能够协助家务和工作的人形机器人，始终是一种遗憾。不过，随着人工智能技术的快速发展，这种科幻场景或许正在逐步成为现实。斯坦福大学机器学习与机器人学研究者Alexander Khazatsky表示，如果人类成为最后一代未能见证这种技术突破的人，他并不会感到意外。

从OpenAI到Google DeepMind，几乎所有掌握人工智能核心技术的大型科技公司，都在尝试将支持聊天机器人的多功能学习算法引入机器人领域。这种做法的目的是让机器人具备常识性知识，从而能够处理更多样化的任务。许多专家认为，机器人技术可能即将迎来重大变革。英伟达机器人技术营销经理Gerard Andrews指出，当前正处于机器人技术发展的关键节点。

与此同时，机器人技术的进步也为人工智能的发展提供了新的可能性。研究人员希望通过在人工智能训练中引入具身体验，推动通用人工智能（AGI）的实现，即让人工智能具备在各种任务中展现人类认知能力的潜力。meta人工智能研究员Akshara Rai认为，真正的智能最终必须体现在物理世界的互动能力上。

尽管许多研究人员对人工智能与机器人结合的前景感到兴奋，但他们也提醒，目前一些令人印象深刻的演示往往来自急于吸引关注的公司，距离实际应用仍有很长的路要走。麻省理工学院机器人专家Rodney Brooks指出，从演示到实际部署需要克服诸多障碍。

当前，机器人技术的发展面临多重挑战，包括收集足够的高质量数据、处理易损坏的硬件以及确保安全性。新加坡国立大学人机互动专家Harold Soh表示，虽然探索机器人基础模型是值得的，但他对这种策略能否引发机器人革命持保留态度。

传统上，机器人系统包括从制造业的机械臂到救援任务的自动驾驶汽车和无人机，大多被设计用于执行特定任务或在特定环境中工作。MassRobotics联合创始人Joyce Sidopoulos提到，即使像波士顿动力制造的Atlas机器人，也是通过预先映射环境并选择内置模板中的动作来完成任务的。

对于大多数人工智能研究人员来说，他们的目标是开发出更自主、适应性更强的机器人。这些机器人可能从能够“取放”工厂产品的机械臂开始，最终发展为能够陪伴和支持老年人的人形机器人。Sidopoulos指出，这种技术的潜在应用领域非常广泛。

人类形态虽然复杂且并非针对所有物理任务优化，但其优势在于完全适应人类构建的世界。人形机器人应能像人类一样与物理世界互动。然而，控制人形机器人极其困难，即使是看似简单的任务，如开门，也需要机器人理解不同门机械装置的工作原理、施加适当的力度以及在操作过程中保持平衡。

目前，一种新兴的方法是使用与图像生成器和聊天机器人相同的人工智能基础模型来控制机器人。这些模型通过神经网络从大量通用数据中学习，并在训练数据的元素之间建立关联。机器人基础模型同样通过互联网上的文本和图像进行训练，获取有关物体性质及其背景的信息，同时从机器人操作实例中学习。

Google DeepMind开发的机器人基础模型Robotic Transformer 2（RT-2）可以操作移动机械臂。RT-2通过互联网和机器人操作视频进行训练，能够执行超出其训练范围的操作。例如，当被要求将饮料罐移到Taylor Swift的照片上时，RT-2成功完成了任务，尽管Swift的照片并未出现在其训练数据中。

Google DeepMind研究员Keerthana Gopalakrishnan表示，这种能力使机器人能够利用互联网知识减少对物理数据的需求。然而，要完全理解动作的基本原理及其后果，机器人仍需从大量物理数据中学习，而目前这类数据的匮乏限制了机器人的进步。

为解决数据不足的问题，研究人员尝试通过数据池化来扩大数据集。Khazatsky和他的团队创建了DROID2，这是一个包含约350小时机械臂视频数据的开源数据集。这些数据记录了多种环境下的视觉信息，有助于机器人完成未见过的任务。由数十个学术实验室组成的合作小组也在收集各种机器人形态的数据，开发出的基础模型RT-X在实际任务中表现优于单一机器人架构训练的模型。

Covariant公司自2018年开始收集全球仓库中30种不同机械臂的数据，其基础模型RFM-1不仅收集视频数据，还包括传感器读数，如举起的重量或施加的力。这种数据有助于机器人执行更复杂的任务，如操纵柔软物体。Covariant建立了一个包含数千亿个token的专有数据库，规模与训练GPT-3的数据相当。

另一种获取大型动作数据库的方法是关注人形机器人形态，利用互联网上大量人类视频进行学习。英伟达的Project GR00T基础模型正在观看大量人类执行任务的视频。然而，Gopalakrishnan指出，虽然模仿人类潜力巨大，但人类视频缺乏机器人视频中的上下文和指令数据，增加了学习难度。

研究人员还提出通过模拟环境获取无限物理数据。许多团队正在构建3D虚拟现实环境，其物理原理与真实世界相似，用于训练机器人大脑。模拟器可以生成大量数据，让机器人和人类在无风险的情况下进行虚拟互动。然而，开发高质量模拟器是一项艰巨任务，制作多样化模拟环境几乎与收集多样化数据一样困难。

meta和英伟达分别建立了复杂的仿真世界Habitat和Isaac Lab，机器人在这些环境中可以快速获得相当于多年的经验，并在现实世界中成功应用所学知识。Rai认为，模拟是机器人技术中一个强大却被低估的工具，其发展势头令人欣喜。

尽管许多研究人员对基础模型推动通用机器人开发持乐观态度，但实际制造机器人的人提醒，硬件同样是一个挑战。Chen指出，硬件在不断进步，但部署这些机器人远比想象中困难。机器人基础模型主要依赖视觉数据，可能缺乏触觉或本体感觉等其他类型的感官数据，而这些数据对于人形机器人在世界中高效工作至关重要。

将基础模型应用于现实世界还面临安全性挑战。大型语言模型已被证明会产生错误和有偏见的信息，甚至可能被诱骗执行程序禁止的任务。让人工智能系统拥有身体，可能将这些错误和威胁带入物理世界。Gopalakrishnan表示，机器人领域需要借鉴人工智能安全领域的研究成果，并在模型学习中添加规则，如避免与人或动物互动的任务。

尽管存在风险，利用人工智能改进机器人以及利用机器人改进人工智能的趋势愈发明显。Gopalakrishnan认为，将人工智能大脑与实体机器人连接可以改善基础模型的空间推理能力。Rai提到，meta是追求“只有当智能体能够与物理世界互动时，才能产生真正的智能”这一假设的机构之一。现实世界的互动可能让人工智能超越学习模式和预测，真正理解世界并做出正确推理。

对于机器人技术的未来，Brooks认为，机器人将不断改进并应用于新领域，但其最终用途可能远不如人形机器人取代人类劳动那样吸引人。然而，也有人认为，开发一种能够做晚饭、跑腿和叠衣服的实用安全的人形机器人是可能的，只是需要投入大量资金和时间。Khazatsky表示，他相信有人会实现这一目标，只是需要付出巨大的努力。