DeepMind训练AI踢足球

在2016的围棋人机大战后,Google姐妹公司DeepMind科学家开发的新AI系统,可学习人类动作,学习成为一组虚拟足球队。

DeepMind在科学期刊《Science Robotics》公布一篇论文,披露该公司的NPMP(neural probabilistic motor primitive)模型如何从人或动物动作中学习复杂技能,并以代理程序或实体机器人,将技能体现出来,像是踢足球。

DeepMind科学家指出,足球向来是体现智能(embodied intelligence)研究的一大挑战,因为足球是结合个人技能及团队合作的运动。DeepMind使用NPMP模型为基础引导学习足球的动作技能。

NPMP(neural probabilistic motor primitive,NPMP)是一组通用运动控制AI模型,能将立即的运动意图转化为低端控制信号。NPMP是在脱机环境下训练,或是模仿传感器搜集到人或动物的资料(称为运动捕捉motion capture/MoCap资料),通过增强式学习(reinforcement learning)训练。

图片来源/DeepMind

这个模型包含两部分,一是编码器(encoder),其功用是把未来动作轨迹压缩进运动意图。第二个部分为低端控制器。低端控制器能依代理程序目前状态及现有运动意图,产生下个动作。

低端控制器能被包成一个可插拔式的运动控制模块,可重复利用以便学习新技能,并由经过优化的高端控制器直接输出运动的意图。DeepMind指出,这可以让探索过程更有效率,并限缩最后的解决方案。

利用NPMP,DeepMind的“球员”(即代理程序)从学习追球的技能开始逐渐学会如何合作。DeepMind过去一项项目中,两组互相竞争的团队出现合作行为。在最新项目中,NPMP也出现同样行为,不同的是,这个场景需要更高端的运动控制能力。

DeepMind的代理程序学到的技能包括灵敏的移动、传球及分工合作。“球员”们展现出灵敏的高频运动控制,及掺杂预期队友行为的长期决策,形成足球的团体战。

AI模型学习以手臂和对象互动是另一个控制挑战。研究团队以少量搬箱子的动作捕捉资料,包括第一人视角及少数反馈信号,即可训练NPMP的代理程序将一个箱子由一地搬到另一地。另外也能训练代理程序接、抛球、或是执行在迷宫中搜集目标物的任务。

这个NPMP模型还能用来控制真正的机器人。DeepMind利用人类及狗的动作捕捉资料训练NPMP技能及控制器,然后分别部署到真正的人形机器人(OP3)及四脚机器人(ANYmal B),这让用户可以通过控制杆控制机器人,或者以自然动作将球运到目的地。他们证实,NPMP可以既有生物动作资料为基础训练,学习高度规律化、自然及可重复使用的动作技能,再由真正的机器人体现出来。