HPT:正在革新机器人技术的“通用大脑”

介绍

像《杰森一家》中标志性的罗西那样的多任务机器人,一直是机器人技术领域的长期愿景。然而,训练通用机器人仍然是一项重大挑战。传统上,工程师们在受控环境中收集特定于机器人和任务的数据,这一过程不仅成本高昂、耗时,而且还限制了机器人在训练期间适应新任务或意外环境的能力。

从大规模语言模型中汲取灵感

麻省理工学院的研究人员从 GPT-4 等大规模语言模型中汲取灵感,提出了一种克服这些挑战的新方法。这些模型使用大量多样化数据进行预训练,然后使用少量特定于任务的数据进行微调。得益于预训练期间获得的海量知识,这种策略使模型能够适应各种任务并在其上表现出色。

在机器人技术中,数据高度异构,从摄像机图像到监测机械臂位置和速度的本体感受信号,不一而足。此外,每个机器人都具有独特的机械特性,例如机械臂、夹持器和传感器的数量各不相同。数据收集的环境也千差万别。为了解决这种异构性,需要一种架构,能够将这些不同类型的数据统一为机器人可理解的格式。

异构预训练 Transformer(HPT)架构

麻省理工学院的研究团队开发了一种名为异构预训练Transformers(HPT)的新架构,该架构将来自多个模态和领域的数据统一起来。该架构的核心是一种称为Transformer的机器学习模型,它与大型语言模型的基础相同。

研究人员将视觉和本体感觉数据(c对姿势、运动、身体各个部位和平衡变化的意识,以及对运动和关节位置的感觉) 将其转化为一种通用的输入类型,称为“token”,以供 Transformer 处理。每个输入都用相同数量的 token 表示,这使得模型能够统一地处理来自不同来源的信息。然后,Transformer 将所有输入映射到一个共享空间,随着处理和学习更多数据,逐渐成长为一个庞大的预训练模型。Transformer 的规模越大,性能就越好。

HPT的优势和性能

这种方法的主要优势之一是用户只需提供少量关于机器人设计、配置和预期任务的数据。HPT 将预训练期间获得的知识迁移到新任务的学习中。这使得训练过程更快、更便宜,因为它所需的特定任务数据更少。

经测试,与每次从头开始训练相比,HPT 在模拟和实际任务中均将机器人性能提升了 20% 以上。即使任务与训练前数据截然不同,HPT 仍然表现出显著的提升。这表明 HPT 拥有卓越的泛化能力,这对于需要在不可预测的环境中运行或执行之前未编程任务的机器人至关重要。

面临的挑战

创建 HPT 的最大挑战之一是构建预训练 Transformer 所需的海量数据集。这包括 52 个数据集,涵盖四个类别,超过 200.000 万条机器人轨迹,其中包括人类演示和模拟的视频。此外,研究人员还需要开发一种有效的方法,将来自各种传感器的原始本体感受信号转换为 Transformer 可以处理的数据。

“本体感觉对于实现许多右手动作至关重要,”该研究的主要作者王立瑞解释道。“由于我们的架构中令牌的数量始终相同,因此我们同样重视本体感觉和视觉。”

HPT 助力机器人技术的未来

未来,研究人员计划研究数据多样性如何进一步提升 HPT 的性能。他们还希望增强 HPT,使其能够处理未标记数据,效仿 GPT-4 等大规模语言模型。这可能会催生一个机器人能够不断从新经验中学习的系统,而无需人工干预来标记数据。

“我们的梦想是拥有一个通用的机器人大脑,无需任何训练,即可下载并在机器人上使用,”王说。“虽然我们仍处于早期阶段,但我们会继续努力,并希望可扩展性能够像大型语言模型一样,为机器人政策带来突破。”

结论

麻省理工学院的这项研究代表了在高效、适应性强的通用机器人研发领域取得的重大进展。通过将大量异构数据整合到统一的架构中,研究人员为能够学习各种任务的机器人铺平了道路,而无需针对每种新情况进行大量训练。这种方法有望彻底改变机器人技术,开发出能够适应陌生环境和任务的多功能机器人,让我们更接近《杰森一家》中罗西那样的机器人的愿景。

参考文献

这项工作由亚马逊大波士顿科技计划和丰田研究所部分资助。该研究成果已在神经信息处理系统会议上发表,完整论文《利用异构预训练 Transformers 扩展本体感受视觉学习》可供阅读。

https://liruiw.github.io/hpt/

Compartilhar