AWS为其迷你自动驾驶汽车DeepRacer打造了联赛虚拟赛车场,开发者可以先在线上训练增强学习(Reinforcement Learning)模型,并将模型上传参加联赛,与其他竞争者在虚拟赛车场的跑道比赛,AWS会对联赛排名,每个月排名第一的参赛者还能获得奖励。
DeepRacer是AWS推出的缩小版四轮驱动车,为真实车辆的1/18大小,供开发者通过训练自动驾驶的机器学习模型,来入门增强学习技术,开发者可以将训练好的模型部署到DeepRacer中,DeepRacer就能在真实世界的赛道中行驶,并在赛车活动中与其他人比赛。
而现在AWS为DeepRacer推出联赛虚拟赛车场(League Virtual Circuit),让开发者可以互相竞争以增加趣味性,达到驱动增强学习发展的目的。开发者可以在线上构建、训练和评估增强学习模型,并与其他人的模型竞赛,每个月排名第一的参赛者,可以将能够免费参加AWS re:Invent 2019会议,并且在联盟淘汰赛中争夺冠军。
整个模型的构建、训练、评估,都能在新推出的DeepRacer控制台中进行,AWS提供了DeepRacer Lab指南,手柄手引导开发者开始模型的构建工作。开发者可以直接在DeepRacer控制台中,创建需要的资源以及模型,并且为模型挑选训练赛道,在虚拟联赛进行的期间,陆续会有更多的赛道加入,AWS表示,他们将会每月为联赛虚拟赛车场增加一款新的赛道,而新赛道会依据全球知名的赛道设计。
选择好赛道,开发者接下来可以用简单的方式定义模型的行为,DeepRacer控制台提供一系列模型可以执行的离散动作,开发者只要操作下拉菜单或是数字选择器,就能设置方向盘转动的角度,与DeepRacer行进的速度。
开发者还可以在DeepRacer控制台,自定义增强学习中会直接影响模型性能的奖励函数,奖励函数会根据训练程序以及回传的奖励决定DeepRacer的状态,DeepRacer的开发者能直接使用控制台默认的奖励函数范例,或是完全从头开始打造。
奖励函数需要以Python 3撰写,其中track_width、distance_from_center等参数,能让开发者取得赛道的信息,包括宽度以及距中心距离等,也能获得DeepRacer的状态与位置。DeepRacer控制台还会提供开发者一组超参数,这些参数会影响整体模型训练性能,开发者可以先使用默认数值,边训练边进行调整。
AWS提到,一般模型训练通常需要90到120分钟,但是效率还是会因最大速度以及奖励函数而有差异,开发者可以直接在DeepRacer控制台中,审查车辆在虚拟赛道行进的画面,但也因为训练的工作背后使用的是AWS的RoboMaker服务,因此在RoboMaker控制台同样也能监控训练的状况。开发者可以反复训练与评估模型,并将最终成果上传到当月份的虚拟赛车场参加DeepRacer联赛。
DeepRacer控制台现在于美国东部维吉尼亚地区推出,开发者已经可以开始构建DeepRacer模型,准备于虚拟赛车场中比赛,另外,有兴趣的开发者现在也可以订购DeepRacer实体车辆,美国约从7月开始出货。