凭借Google新算法,机器人自学走路平均只需3.5小时

在机器人领域,让机器人保持站立并平稳运动一直是棘手挑战,因为这需要超高的专业知识和设计功力。尽管一些传统机器人能在人工控制的情况下站立和运动,但活动范围充满各种局限性。

为了解决这个问题,Google近日和乔治亚理工学院及加州大学伯克利分校的研究人员联合发布论文,详细介绍如何成功构建通过AI自学走路的机器人。他们给这台四足小机器人取了可爱的代号“Rainbow Dash”。

根据世界纪录,婴儿从爬行到学会走路的最快速度是6个月,根据论文测试数据,Rainbow Dash平均只需约3.5小时学习向前、向后和左右转弯等运动──在坚硬平坦的地面,机器人学走路需1.5小时,记忆海绵材质的床垫约要5.5小时,镂空地毯约要4.5小时。

(Source:论文)

具体来说,机器人使用深度强化学习,即结合深度学习和强化学习两种不同类型的AI技术。通过深度学习,系统可处理和评估来自身处环境的原始输入数据;通过强化学习,算法可反复试验,以学习如何执行任务,并根据完成程度获得奖励和惩罚。也就是说,通过上述方式,机器人便可在不了解的环境做到自动控制。

以往此类实验,研究人员最初都会让机器人通过模拟学习真实世界环境。在仿真环境,机器人的虚拟体首先与虚拟环境交互,然后算法接收虚拟数据,直到系统有能力“应对自如”,搭载系统的物理形态机器人才会放到现实环境实验。这种方法有助于避免试错过程损害机器人及环境。

不过,环境虽然容易建模,但通常耗时长,且现实充满各种意想不到的情况,因此,在模拟环境训练机器人的意义有限。毕竟,此类研究的最终目标都是让机器人为现实场景做好准备。

Google和乔治亚理工学院及加州大学伯克利分校研究人员并没有守旧,实验一开始就在真实环境训练Rainbow Dash,这样一来,机器人不仅很能适应所处环境,也能适应相似环境。

尽管Rainbow Dash能独立运动,并不代表研究人员可撒手不管。在陌生环境学走一开始,研究人员仍需手动干预Rainbow Dash上百次。为了解决问题,研究人员限定机器人运动的环境,让其一次性训练多重动作。

Rainbow Dash自学走路之后,研究人员可通过连接控制手柄操控机器人做出理想的运动轨迹,将机器人控制在设置环境内。此外,机器人识别出环境边界后,也会自动往回走。在特定环境之外,机器人可能会一直摔倒导致机器损坏,那时就需要另一个算法帮助机器人站起来。

Google负责人Jan Tan告诉媒体,这项研究花费约一年才完成。他说:

我们有兴趣让机器人在各种复杂的现实世界环境运动。不过,要设计出能灵活处理多样性和复杂性的运动控制器十分困难。

接下来,研究人员希望算法能适用不同种类机器人,或适用多个机器人在同环境同时学习。研究人员相信,破解机器人的运动能力将是解锁更多实用机器人的关键──人类用腿走路,如果机器人不会用腿,就不能在人类世界行走。

然而,让机器人在人类世界行走是至关重要的课题,因它们可代替人类探索地球不同地形或未探索过的地区,如太空,但由于机器人依赖上方的动作捕捉系统以确定位置,暂时还不能直接在现实世界使用。