360影片顺畅的关键不藏私脸书强化学习平台Horizon开源了

社会动态2021-02-26 20:04:05
最佳答案

图片来源:

脸书

脸书(Facebook)在本周开源了已应用在内部多项服务的强化学习平台Horizon,强调该平台是专为生产用途而设计,也是首个可解决大规模商业问题的免费方案。

在机器学习技术中,最早的监督式学习(Supervised Learning)是在训练的过程中直接告诉机器答案,强化学习(Reinforcement Learning)则是属于非监督式学习,它会藉由观察环境来行动,并随时根据新进资料逐步修正,不管是AlphaGo Zero或是Dota 2专案都是採用强化学习。

然而,强化学习是以试误法(trial and error)来改善能力,很难直接被部署在生产环境中,但Horizon平台以各种工作流程来训练热门的深度强化学习演算法,也包含资料处理、功能转换、分散式培训、反事实政策评估及最佳化服务,标榜是替生产使用所设计。

研究人员指出,Horizon可被应用在具备庞大资料集、回馈迴路缓慢,以及必须小心进行实验的产业环境中。

事实上,脸书已有多项服务採用了Horizon。例如脸书的推播通知原本是使用监督式学习模型,预测被通知者的点击率及造成互动的可能性来判断通知与否,但它无法捕捉传送传送的长期价值,有些讯号也许没能及时出现,再加上基于静态阀值的过滤机制无法满足对通知有不同偏好的用户,使得脸书决定改用Horizon。

Horizon能够根据特定用户在脸书上的互动与行为给予奖励,并针对通知祭出惩罚来控制通讯的寄送数量,依照用户曝露在模型中的行为不断训练,使得它大幅改善了用户在脸书上的活动及互动行为。

脸书也将Horizon应用在粉丝页的管理员通知与360度影片服务中。研究人员说明,将Horizon导入自适性比特率(Adaptive Bitrate,ABR)串流网域,藉由提供更聪明的影片缓冲及预先撷取的方式,可在减少比特率使用的同时不影响用户的观看经验。

Horizon是以Python撰写,使用PyTorch来建模及训练,藉由Caffe 2部署,即日起已可自GitHub下载。

免责声明:本文由用户上传,如有侵权请联系删除!