transformer在机器人中的应用-滕达博士

2023-08-28

       机器人若想摆脱“机器”属性,势必要借助AI算法。AI算法可以用于机器人的感知、决策和控制等诸多方面。比如在感知方面,可以用来进行视觉、语音、力觉等多种传感器的数据处理和分析;在决策方面增强机器人路径规划、运动规划、任务规划等多方面的能力;在控制方面为运动控制、力控制、位置控制等多种控制算法提供解决思路。近期AI圈最火的莫过于ChatGPT。

      ChatGPT的横空出世,将AI带到了每个人的面前,展现出大模型、大数据、大算力极其强大的自然语言处理能力,而其背后的强大支撑是GPT-3.5架构。该架构使用了Transformer神经网络架构,并结合了引入新技术RLHF (Reinforcement Learning with Human Feedback,即基于人类反馈的强化学习),激发了众多学者对于transformer这一网络框架的学习热情。本文在这样的背景下,研究transformer模型在机器人领域的应用,以探索和发掘更多的可能。

       本次论文搜集在知网以及IEEE展开,一方面调查了中文文献的情况,对国内研究情况进行整体把握;另一方面调查了机器人顶级会议IROS、ICRA、RSS近三年利用了transformer框架的研究成果,对机器人领域对transformer的前沿应用。调查发现,结合机器人与transformer的文献非常少,仅搜索到一篇。而近三年的顶级会议总共发现 篇,ICRA2020、ICRA2021、ICRA2022相关论文数量分别是1、2、16,IROS2020、IROS2021、IROS2022相关论文数量1、6、15,可以看到前沿研究人员对于transformer框架的使用呈现一种上升的趋势,预测今年很大程度会涌现更多充满创意和技术美的研究。但是在RSS近三年收录的文章中并未出现transformer的身影,不过也可以理解,相较于前两个会议每年收录千篇论文,RSS每年仅收录100篇左右,发表难度之大可想而知,更多的创意性探索必会先在前者小试牛刀。值得注意的是,在这些顶会论文中,中国学者也参与了很多,说明国内研究并不像中文文献表现出的稀少,相反是充满活力的。

       Transformer模型[]是一种用于序列到序列(seq2seq)学习的模型,由Google在2017年提出。它在机器翻译、语音识别、文本摘要等任务中表现出色。其核心是自注意力机制(self-attention mechanism),它可以在不引入循环或卷积的情况下,直接对整个序列进行建模。这种机制可以使得模型更加高效,同时也能够捕捉到序列中的长距离依赖关系。Transformer模型由编码器和解码器两部分组成,其中编码器用于将输入序列编码成一个固定长度的向量,解码器则用于根据编码器的输出和上一个时间步的输出,生成下一个时间步的输出。Transformer模型相较于传统的循环神经网络模型,具有以下优点:并行计算能力强、长序列处理能力强、模型效果好、可解释性强。并行计算能力强则大大提高了计算效率;不存在传统的循环神经网络模型梯度消失和梯度爆炸的问题,利用自注意力机制可以直接捕捉到序列中任意两个位置之间的依赖关系,因此可以更好地处理长序列;在机器翻译、文本摘要、对话生成等任务中取得了很好的效果,甚至超过了传统的循环神经网络模型;其自注意力机制使得模型可以直接关注输入序列中的不同位置,因此可以更好地解释模型的预测结果。这些有点使得      transformer模型从最初的文本翻译任务逐渐扩展到了NLP、计算机视觉等诸多领域,在机器人领域中也有了诸多尝试。机器人领域是跨学科的,吸收了计算机科学、电子工程、机械工程和其他领域的知识和技术,在与这些学科重叠的同时又提出了新的技术要求,因而机器人的研究方向广且复杂,transformer模型的应用也多种多样。下文基于搜集到的论文对其中部分领域的应用进行展示。

       Transformer模型在机器人领域的应用首先是与自然语言处理相关的应用,这些应用使得机器人能够更好地与人类进行交互。其中包括对话生成、情感分析、语音识别等,可以用于生成自然流畅的对话,提高机器人的交互体验;用于分析用户的情感倾向,从而更好地理解用户的需求;用于识别用户的语音指令,从而实现更加智能化的交互。为了提高家庭服务机器人的通信技能,需要借助大量的训练数据集来训练网络模型,但通常情况下数据集是不够大的。Motonari Kambara[Case Relation Transformer]等人为了解决这种数据集不够的问题,提出了案例关系transformer模型(the Case Relation Transformer,CRT),这是一种跨模态语言生成模型,它可以生成一个包括目标对象和目标终点的抓取指令语句。CRT主要由三个模块组成:案例关系块、transformer编码器和transformer解码器,编码器-解码器的作用是整合图像中物体的视觉特征和几何特征。

       因此,我们提出了案例关系变换器(CRT),计算机视觉、自然语言处理和机器人技术的学科相互交叉产生了多种新生领域。计算机视觉与机器人技术的交集是视觉导航领域。Zachary Seymour[MaAST]等人在DRL模型中加入了场景语义和一种新的结构化的注意力机制,提出了注意力-语义映射transformer模型(Map Attention with Semantic Transformers,MaAST),将重要的场景语义,如可遍历的路径、未探索的区域和观察到的场景对象——以及原始的视觉流,如RGB、深度和语义分割掩码——编码为语义知情的、自上而下的以自我为中心的地图表示。Rui Fukushima[Object Memory]等人面对的应用场景是面向目标的导航任务,具体是指agent基于对对象和场景的长期观察,在三维室内环境中导航以到达目标对象。文中提出了对象记忆transformer模型(Object Memory Transformer,OMT),该模型的两个关键组成部分是:能够存储长期的场景和对象语义的物体场景记忆,和能够关注先前观察到的场景和对象序列中显著对象的transformer结构。这种机制允许代理在室内环境中有效导航,而无需事先对环境的事先了解。文中还提到,仅仅使用长期的历史记录并不能帮助提高性能,需要将它们与时间编码相结合。

       计算机视觉、自然语言处理和机器人技术的多学科交叉为机器人研究开辟了新领域:视觉语言导航。这种研究工作的最终目标是开发自主机器人,它能够自然地感知、理解和执行周围世界中的行动,同时仍然能够理解人类语言,这是与最终用户互动的基础。Marcella Cornia[SMArT]等人受transformer模型启发,提出了一种用于图像字幕任务的浅层、记忆感知的transformer框架SMArT,并以家用机器人为例证明了SMArT对模拟场景的适用性。其中,浅层是指仅使用了两组编码器-解码器,极大提高了运算速度;记忆感知则强调他们的自注意力被赋予了记忆向量,因而增加了记忆感知图像编码层。

       自然语言指导的导航特别适合与用户自然交互的家庭服务机器人。这个任务涉及到预测一个给定自然语言导航指令的导致指定目的地的一系列动作。因此,这项任务需要理解指令。

       为了解决这个问题,Aly Magassouba[CrossMap T]提出了交叉地图转换网络,它对语言和视觉特征进行编码,以按顺序生成一条路径。我们,交叉地图转换器是绑定到一个基于变压器的扬声器,以生成导航指令。这两个网络具有共同的潜在特征,通过双反向翻译模型相互增强:生成的路径转换为指令,生成的指令转换为路径。

       计算机视觉与机器人结合,可以为机器人的控制提供视觉反馈。Rishabh Jangir[Look Closer]等人针对高精度操作任务场景,改变了以往的单一静态第三人称相机的设置,而是选择让机器人从第三人称摄像机和安装在机器人手腕上的自我中心摄像机接收视觉反馈,虽然第三人称相机是静态的,但后者与机器人夹持器一起移动,为机器人提供了类似于人类动眼肌系统的主动视觉能力。为有效融合来自两个摄像机的视觉信息,文中使用了有交叉注意力机制的transformer模型以模拟从一个视图到另一个视角的空间注意(反之亦然),并将学习到的特征作为RL策略的输入。

       三维场景理解技术能够使机器人理解现实世界场景的几何、语义和认知特性,从而帮助机器人进行决策,其中的关键技术是3D点云语义分割。Xiaoxue Chen[PQ-Transformer]等人提出了一种基于端到端的、基于注意力的体系结构,开创性地对三维物体边界框和三维房间布局进行联合预测,其中transformer解码器的作用是处理具有上下文感知点云特征的建议特征。

       机器人抓取姿态检测是机器人领域的基础研究,但抓取方法的性能仍远远落后于实际应用。由于感知不精确、点云缺陷、物体模糊性遮挡等原因,抓握姿态检测成为了一项具有挑战性的任务。Zhixuan Liu[]等人借助transformer模型处理长序列的优秀能力提出了一种单级7自由度抓取姿态检测模型,用以提取物体轮廓、物体间相对位置和几何相似性等信息丰富的长距离上下文,通过获取整个场景的多尺度形状感知来增强点特征,通过直接对远程相关性进行建模,了解物体的轮廓,以避免碰撞,并能够应用类比推理的长距离几何结构。

       transformer模型在模仿学习方面已经有了应用。首先对模拟学习进行简单的介绍。模仿学习(Imitation Learning)也被称为基于演示的学习(Learning By Demonstration)或者学徒学习(Apprenticeship Learning)。它是而以人类动作为参考,通过学习人类动作、以往任务动作等经验数据,得出新的、有一定泛化能力的动作策略,可以在很大程度上解决机器人在与环境交互过程中奖励函数难以确定的问题。模仿学习分为三个步骤:经验数据采集、动作学习、执行新动作,而transformer模型正是在“动作学习”这一步发挥作用。胡平[1]等人在其论文中就在数据增强后使用Transformer网络来学习新的动作策略数据,解决了机器人模仿学习示教样本数据少、学习得到的动作策略泛化能力弱等问题。Heecheol Kim[ dual-arm robot manipulation]等人也描述了基于transformer的双臂机器人的深度模拟学习。论文中借助transformer模型的自注意力机制,通过计算输入元素之间的相关性并关注重要特征以减少干扰,对于双机械臂引起的状态维数的增加进一步带来的注意力分散问题以及神经网络的性能下降提供了解决方案。

       人体运动预测是实现人机交互的关键步骤,transformer模型在该领域显示出巨大潜力,有了不错的应用。然而随着序列长度的增加,也出现了模态坍塌和二次计算复杂度的问题。Hua[Towards Efficient 3D]等人在其论文中进行了深入,提出了一种新的基于时空可变形transformer的对抗网络用于三维人体运动预测。文中的注意力机制将transformer模型中常用的点积运算转变为基于核的线性自注意函数,大大降低计算复杂度,从而更有效地预测运动动力学并显著降低计算和记忆成本。

       其实在transformer原文中就可以看到,它的提出替代了NLP领域中卷积神经网络和LSTM网络,因而他的扩展应用也大多都是顺着CNN这条线索进行的。对于transformer在机器人领域的深入,首先可以是发挥其“看家本领”,赋予机器人理解自然语言的能力,在人机交互的过程中让机器人不止是机器人,其次则可以考虑从当前工作中使用到的CNN网络入手,探索替换带来的性能提升甚至是新技术。还可以看到部分研究者借助transformer框架来尝试解决当前机器人领域常用的DQN方法存在的问题,深入的方向自然也可以是这样。由于自注意力机制,transformer模型已经被证明对涉及长序列的任务非常有帮助。