脸书(Facebook)在本周开源了已应用在内部多项服务的强化学习平台Horizon,强调该平台是专为生产用途而设计,也是首个可解决大规模商业问题的免费方案。
在机器学习技术中,最早的监督式学习(Supervised Learning)是在训练的过程中直接告诉机器答案,强化学习(Reinforcement Learning)则是属于非监督式学习,它会借由观察环境来移动,并随时根据新进数据逐步修正,不管是AlphaGo Zero或是Dota 2项目都是采用强化学习。
然而,强化学习是以试误法(trial and error)来改善能力,很难直接被部署在生产环境中,但Horizon平台以各种工作流程来训练热门的深度强化学习算法,也包含数据处理、功能转换、分布式培训、反事实政策评价及优化服务,标榜是替生产使用所设计。
研究人员指出,Horizon可被应用在具备庞大数据集、反馈回路缓慢,以及必须小心进行实验的行业环境中。
事实上,脸书已有多项服务采用了Horizon。例如脸书的推送通知原本是使用监督式学习模型,预测被通知者的点击率及造成交互的可能性来判断通知与否,但它无法捕捉发送发送的长期价值,有些信号也许没能及时出现,再加上基于静态阈值的过滤机制无法满足对通知有不同偏好的用户,使得脸书决定改用Horizon。
Horizon能够根据特定用户在脸书上的交互与行为给给奖励,并针对通知祭出惩罚来控制通信的发送数量,依照用户曝露在模型中的行为不断训练,使得它大幅改善了用户在脸书上的活动及交互行为。
脸书也将Horizon应用在粉丝页的管理员通知与360度视频服务中。研究人员说明,将Horizon导入自适性比特率(Adaptive Bitrate,ABR)串流网域,借由提供更聪明的视频缓冲及预先截取的方式,可在减少比特率使用的同时不影响用户的观看经验。
Horizon是以Python撰写,使用PyTorch来建模及训练,借由Caffe 2部署,即日起已可自GitHub下载。