AlphaGo之父黄士杰披露DeepMind通用AI布局,最终目标要协助人类解决全球暖化难题

“我们的目标,是要打造通用AI,来协助人类解决世界上的难题,”DeepMind资深工程师、AlphaGo之父黄士杰双眼炯炯有神地说。他去年12月底来台演讲时,分享了自己与DeepMind的观点,更指出“AI也许会提供我们从未想过的方法,帮助我们解决全球暖化、能源不足等问题。”

而DeepMind押宝通用AI的新进展,就是去年11月底发布的MuZero,采强化学习,成功挑战AI难以致胜的雅达利(Atari)游戏,一举在57种雅达利游戏中达到SOTA等级,更在国际象棋、日本将棋和围棋等复杂的棋盘游戏中,超越前代精通这三种棋艺的AlphaZero。

其中的关键,就是MuZero可从游戏中,自行找出规则。进一步来说,MuZero算法结合了树状搜索架构和学习模型,当它接收到棋盘图片或雅达利游戏屏幕截屏后,便不断地更新迭代,来决定下一步的策略、价值函数,以及即时奖励。MuZero正是利用这个方法,摸索出“精准的规则,”DeepMind在论文中写道。

黄士杰比喻,“MuZero就好比会做梦的AlphaGo。”有别于需要真实棋谱数据的AlphaGo,MuZero不需输入任何真实棋谱,就可自行构建棋盘。这个方法,不需要每走一步就执行一次仿真器(Simulator),也因此“加速了类神经网络的学习速度。”在黄士杰看来,MuZero打开了一扇窗,让AlphaGo的方法可运用到更多决策领域,是迈向通用AI的里程碑。

DeepMind布局通用AI,从学习人类经验的AlphaGo迈出第一步

DeepMind对通用AI的布局,还可从围棋说起。2012年,黄士杰受邀加入DeepMind,2年后,Google并购DeepMind,决定发展围棋AI,来挑战计算机尚未突破的领域。

这套围棋AI,就是家喻户晓的AlphaGo。AlphaGo以黄士杰多年前开发的单机版围棋程序Erica为基础,为了打造媲美人类专家的围棋AI,DeepMind决定采用新方法,也就是模仿人类思考的深度学习类神经网络,来改造线性模型的Erica。

于是,AlphaGo项目负责人David Silver,要求黄士杰以C++重写Erica,先打造一套基本模型,再来测试类神经网络。后来,Google Brain的深度学习专家Chris Maddison和llya Sutskever也加入AlphaGo团队,一起研发这套围棋AI。

团队首先利用人类棋谱来训练AlphaGo的策略网络(Policy Network),也就是下棋的策略,再利用价值网络(Value Network)来判断局势、预测赢家。这一点,再加上强化学习,让AlphaGo不断自我对奕、自我学习。

后来,2016年,AI专用硬件如TPU逐渐成熟,大幅提高AlphaGo的胜率。经过无数次反复训练,AlphaGo先是赢过欧洲围棋冠军樊麾,登上《自然》期刊,又陆续赢过世界围棋冠军李世石、柯洁,成功向世人证明了AI的潜力。

AI再演进,AlphaZero不需人类经验就能精通三种棋艺

AlphaGo打败世界围棋冠军后,团队乘着这股气势,展开另一项项目,打造出不需要海量训练数据,就能自我训练、学习规则的AI模型AlphaGo Zero。AlphaGo Zero能从零开始,不需人为干预,也不需要真实棋谱数据,就可自学下围棋、摸索出关键知识,而且,经过3天自我对奕490万次,就以100比0完胜打败李世石的AlphaGo。

而在短短48天后,团队进一步开发出能下围棋、日本将棋和西洋棋的AlphaZero。AlphaZero维持了AlphaGo Zero的特性,一样结合蒙地卡罗树搜索方法、能从零开始自我学习,但不同的是,在开发过程中,团队使用了5千个第一代TPU来产生游戏,再利用64个第二代TPU来训练类神经网络。

结果,在24小时内,通过自我学习的AlphaZero,就打败了三种棋类的计算机程序冠军,也就是Stockfish、elmo,以及3天版本的AlphaGo Zero。而记载对战结果的AlphaZero论文,更登上《科学》封面。

AlphaStar靠模仿学习面对新关卡,挑战更高难度的即时策略游戏星际争霸II

不只在棋类上下功夫,DeepMind也将领域扩大到更有挑战性的电玩游戏,也就是即时策略游戏星际争霸II,来验证强化学习的能力。这次,强化学习依然是主角,但不同的是,“我们开发的AlphaStar采用学习人类知识的模仿学习(Imitation Learning),”来解决在环境变量非常大的情况下,AI花费大量时间尝试解法的问题。

黄士杰解释,AlphaStar在开发的前半年,完全采自我对战方式来学习,但是,这个做法“出现了探索(Exploration)问题。”举例来说,当AI代理人要在游戏画面中选择正确的点,会花大量时间来尝试所有的可能;假设“屏幕分辨率是50×50,画面中就包含了2,500个点,而AI就会花大量时间,来尝试这2,500个点,”由于选择空间太大,造成学习障碍。

因此,团队决定让AlphaStar向人类学习,采用模仿学习,让AI代理人学习人类玩游戏(Replay),比如打造建筑物的次序等。黄士杰指出,这就好比AlphaGo,以策略网络来学习人类棋谱一样,而模仿学习,让结构比AlphaGo复杂学多的AlphaStar,“大幅进步。”

AlphaStar的另一个特点,就是优化的搜索架构。黄士杰指出,有别于AlphaGo,有套专门的搜索架构来辅助找出致胜策略,AlphaStar直接将搜索架构嵌入类神经网络中,融为一体。也因此,团队花了许多时间来微调、优化搜索架构,从行动延迟(Action deplays)开始,历经指标网络(Pointer network)、Transformer,最后找出胜率最高的Scattered connections(如下图)。

不只如此,“AlphaStar还有多重AI代理人的特色,通过这些代理人,来找出主要代理人的弱点,协助改进。”黄士杰解释,由于星际争霸II为即时策略游戏,当地图黑暗的情况下,AI代理人只能通过对手的反应,来拟定策略,有如博弈论中的Nash均衡概念。因此,为了强化策略拟定,AlphaStar在训练过程中,引进了Exploiter类型的AI代理人,目标是要赢过主要代理人,找出缺点,协助主要代理人改进。

后来,AlphaStar在一场美国电竞赛中,以4:1赢过世界冠军,更在2019年10月,打败Battle.net平台上99.8%的星际争霸II活跃玩家,更在人族、神族和虫族达到宗师等级。这个成果,也让AlphaStar论文登上《自然》期刊,更铺垫后来MuZero的基础。

坚持己爱,保持开放的心

话锋一转,黄士杰指出,自己能有今日的成就,还归功于坚持己爱。他从小热爱围棋,即使在台湾师范大学攻读博士时,也是围棋社的一员,更与同学开发棋类计算机程序,坚持每年到海外参加计算机奥林匹亚竞赛(Computer Olympiad)。

而黄士杰好学的心态,让他在海外参赛的过程中,打下了国际链结基础。“我英文不是很好,但我喜欢问问题,”他指出,自己参加国际比赛时,喜欢与不同国家的研究员交谈,特别是在2007年一场比赛,结识了日后的恩师,也是Erica共同开发者的法国计算机围棋大师Rémi Coulom。

当年,计算机围棋程序大幅进步,不仅在9×9的小围棋上,媲美六段的专业棋士,而由Rémi Coulom开发的计算机围棋程序Crazy Stone,更打败了黄士杰。

后来,黄士杰凭着对围棋计算机程序的热忱,通过视频、Email与Rémi Coulom频繁交流,开发一套线性模型围棋程序Erica,更在2010年时,夺下计算机围棋程序的第一名。

在当年排行榜上,Erica是唯一一个只需要一台8核心机器的计算机围棋程序,而且在搜索方法上,也采用不少特殊技巧,“这些技巧,包括如何选步等公式,后来都写在AlphaGo论文中,至今仍没有人能超越。”

这场胜利,引起了当时DeepMind的首席科学家David Silver的注意,更亲自邀请黄士杰加入DeepMind团队。而他,也在两年后入伙,成为DeepMind成员之一,开始进行AlphaGo项目。

“除了保持热忱,也要有颗开放的心,更要当一个Easy to work with的人。”他举例,在执行AlphaGo项目时,团队来了位25岁的成员Julian Schrittwieser。当时,黄士杰用自己的方法来修改围棋程序Erica的策略网络,虽然他认为自己的做法没问题,但Julian Schrittwieser则表示,用C++ Template重写会更好,于是就花了1、2天时间修改。

结果显示,“算法执行速度确实快很多,”黄士杰也从中学习到,要保持一颗敞开的心,欣赏他人优点,作为一个团队中容易相处的人。此外,他也强调团队合作的重要。

“AI是个团队合作的时代,就算是图灵奖的得主,也是带着一支团队在开发。”就以AlphaGo团队为例,“每个人都扮演着关键角色,”比如负责训练类神经网络的、连接TPU的,甚至包括系统测试的,“多亏他们的专业知识,替我们抓出许多Bug,才能让AlphaGo不断进步、写下历史,”黄士杰说。

最后,他也总结,“很多巨大的飞跃,都起始于一小步。”他坦言,AlphaGo的进展也是一点一滴累计出来的;一切起始于他对围棋的热情,让他结识了Rémi Coulom、开发出Erica,后来更进入DeepMind,靠着前人在AI的研究心血,以及Google的深度学习团队,才开发出击败人类围棋冠军的AlphaGo。“只要有热情,不管做任何事,总有一天会带来巨大的飞跃,”他肯定地说。