DeepMind训练AI踢足球

在2016的围棋人机大战后，Google姐妹公司DeepMind科学家开发的新AI系统，可学习人类动作，学习成为一组虚拟足球队。

DeepMind在科学期刊《Science Robotics》公布一篇论文，披露该公司的NPMP（neural probabilistic motor primitive）模型如何从人或动物动作中学习复杂技能，并以代理程序或实体机器人，将技能体现出来，像是踢足球。

DeepMind科学家指出，足球向来是体现智能（embodied intelligence）研究的一大挑战，因为足球是结合个人技能及团队合作的运动。DeepMind使用NPMP模型为基础引导学习足球的动作技能。

NPMP（neural probabilistic motor primitive，NPMP）是一组通用运动控制AI模型，能将立即的运动意图转化为低端控制信号。NPMP是在脱机环境下训练，或是模仿传感器搜集到人或动物的资料（称为运动捕捉motion capture/MoCap资料），通过增强式学习（reinforcement learning）训练。

图片来源／DeepMind

这个模型包含两部分，一是编码器（encoder），其功用是把未来动作轨迹压缩进运动意图。第二个部分为低端控制器。低端控制器能依代理程序目前状态及现有运动意图，产生下个动作。

低端控制器能被包成一个可插拔式的运动控制模块，可重复利用以便学习新技能，并由经过优化的高端控制器直接输出运动的意图。DeepMind指出，这可以让探索过程更有效率，并限缩最后的解决方案。

利用NPMP，DeepMind的“球员”（即代理程序）从学习追球的技能开始逐渐学会如何合作。DeepMind过去一项项目中，两组互相竞争的团队出现合作行为。在最新项目中，NPMP也出现同样行为，不同的是，这个场景需要更高端的运动控制能力。

DeepMind的代理程序学到的技能包括灵敏的移动、传球及分工合作。“球员”们展现出灵敏的高频运动控制，及掺杂预期队友行为的长期决策，形成足球的团体战。

AI模型学习以手臂和对象互动是另一个控制挑战。研究团队以少量搬箱子的动作捕捉资料，包括第一人视角及少数反馈信号，即可训练NPMP的代理程序将一个箱子由一地搬到另一地。另外也能训练代理程序接、抛球、或是执行在迷宫中搜集目标物的任务。

这个NPMP模型还能用来控制真正的机器人。DeepMind利用人类及狗的动作捕捉资料训练NPMP技能及控制器，然后分别部署到真正的人形机器人（OP3）及四脚机器人（ANYmal B），这让用户可以通过控制杆控制机器人，或者以自然动作将球运到目的地。他们证实，NPMP可以既有生物动作资料为基础训练，学习高度规律化、自然及可重复使用的动作技能，再由真正的机器人体现出来。