Google用自动强化学习方法训练远程跑腿机器人

Google AI团队最近发布了通过自动强化学习技术,训练远程跑腿机器人导航的成果,将强化学习搜索奖励和神经网络架构的过程自动化,使机器人能够在长距离的范围中导航,Google指出,在美国就有300万人因为行动不便而无法离开家,具有远距导航功能的服务型机器人能够改善行动不便的生活限制,像是帮忙购买生活用品、药品和领包裹,过去的研究已经展示深度强化学习能够有效地将传感器收集的数据转化为行动,例如,让机器人学会抓取物品,或是控制机器人的活动,不过,深度学习程序通常缺乏对大量实际物理空间的理解,因此,在长距离的导航任务中,无法脱离人类的协助,也无法轻松地适应新的环境。

在Google AI研究团队近期发布的3篇有关机器人导航的论文中,Google集成深度强化学习技术和长范围的规划,来研究能够适应新环境的自动化机器人系统,首先Google训练局部规划程序(local planners)学会基本的导航任务,也就是在短距离的范围中,穿越在障碍物中,且不能撞到障碍物,局部规划程序将光学雷达传感器收集到的数据,像是线性和角速度(angular velocity)信息,输出至机器人控制系统,同时,Google也用自动强化学习(AutoRL)训练了另一个局部规划程序,AutoRL是一个能够自动搜索强化学习奖励和神经网络架构的方法,虽然机器人的限制只有10~15米,但是局部规划程序在转移到真正的机器人和全新的环境时,适应表现相当好,有鉴于该结果,Google用局部规划程序作为大空间导航系统的模块,接着,创建以节点表示位置的地图,当局部规程序能够可靠地模仿真实机器人的活动时,节点之间才会用线链接。

Google在第一篇研究机器人导航的论文中,在小型且静态的环境其中训练了局部规划程序,通过一般的深度强化学习算法来训练机器人导航,像是深度确认性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),但是这个方法还是有许多挑战,例如,研究人员必须不断重复手动调整奖励机制和制定神经网络架构,来达到导航程序的目标,但是这些调整都没有明确的最佳试验,再加上深度确认性策略梯度算法是不稳定的学习方法,通常会出现灾难性遗忘(catastrophic forgetfulness)问题。

为了克服这些挑战,Google将强化学习训练自动化,利用大规模超参数优化方法,开发了能够自动搜索奖励机制和神经网络架构的AutoRL,AutoRL的运行分为两个部分:奖励机制搜索和神经网络架构探索,在奖励机制搜索的阶段中,AutoRL会训练一群DDPG程序,每一个程序都有不同的奖励机制,用来优化局部规划程序的最中目标,也就是到达目的地,在这个阶段的最后,Google会选出一个能够让局部规划程序到达目的地最多次的奖励机制,而在搜索的神经网络架构的阶段则是用选出的奖励机制和优化神经网络层,针对奖励机制不断进行优化。

不过,这样迭代的过程也意味着AutoRL有样本效率(sample efficient)的问题,训练一个规划程序需要500万个样本,而AutoRL训练10个100个程序的版本就需要50亿个样本,等于要花32年的时间才能完成训练,而好处就是AutoRL将手动训练的过程自动化,且DDPG程序也不会出现灾难性遗忘问题,更重要的是,利用AutoRL训练的机器人导航系统能够适应新环境,与其他导航方式相比,AutoRL方式的导航成功率多了26%。

为了能够将这些导航策略应用在长距离的导航任务中,Google集成AutoRL策略和采样式规划(sampling-based planning)算法,采样式规划算法是利用估算机器人运动方式,来处理远程导航任务,举例来说,随机路径规划算法(probabilistic roadmaps,PRMs)在路线图中搜索有效路径,来构建机器人运动的路线图。 Google团队首先针对每个机器人,在一般仿真的环境训练了一套局部规划策略,接着,再根据局部规划策略,为布署环境创建PRMs模型,Google称之为PRM-RL,为了构建PRM -RL,Google用蒙特卡罗仿真方法,将路径规划程序能够可靠且一致地导航经过的采样节点链接起来。